0
点赞
收藏
分享

微信扫一扫

XGBoost算法介绍及代码实现

简单聊育儿 2022-03-12 阅读 123

XGBoost是基于决策树的集成机器学习算法,它以梯度提升(Gradient Boost)为框架。在 SIGKDD 2016 大会上,陈天奇和Carlos Guestrin 发表的论文“XGBoost: A Scalable Tree Boosting System”在整个机器学习领域都引起了轰动,并逐渐成为Kaggle 和数据科学界的主导。XGBoost同样也引人了 Boosting算法。
XGBoost除了在精度和计算效率上取得成功的性能外,还是一个可扩展的解决方案。由于对初始树Boost GBM 算法进行了重要调整,因此XGBoost代表了新一代的GBM算法。

主要特点

  • 采用稀疏感知算法,XGBoost 可以利用稀疏矩阵,节省内存(不需要密集矩阵)和节省 计算时间(零值以特殊方式处理)。

  • 近似树学习(加权分位数略图),这类学习方式能得到近似的结果,但比完整的分支切割探索要省很多时间。

  • 在一台机器上进行并行计算(在搜索最佳分割阶段使用多线程),在多台机器上进行类 似的分布式计算。

  • 利用名为核外计算的优化方法,解决在磁盘读取数据时间过长的问题。将数据集分成多个块存放在磁盘中,使用一个独立的线程专门从磁盘读取数据并加载到内存中,这样一来,从磁盘读取数据和在内存中完成数据计算就能并行运行。

  • XGBoost还可以有效地处理缺失值,训练时对缺失值自动学习切分方向。基本思路是在每次的切分中,让缺失值分别被切分到决策树的左节点和右节点,然后通过计算增益得分选择增益大的切分方向进行分裂,最后针对每个特征的缺失值,都会学习到一个最优的默认切分方向。

代码实现
输入:训练集x_train,训练集标签y_train
验证集 x_valid,验证集标签y_valid,测试集 xtest
输出:训练好的模型model,测试集结果y_pred

import xgboost as xgb
params ={'eta': 0.01,'max_depth': 11,'objective': 'reg:linear', "eval_metric': 'rmse’)
dtrain=xgb.DMatrix(data=x train, label=y_train) 
dtest =xgb.DMatrix(data=X_valid, label=y_valid)
watchlist =[(train data, 'train'),(valid_data, 'valid_data')] 
model=xgb.train(param, train_data,num_boost_round=20000, evals=watchlist,
early_stopping_rounds=200, verbose_eval=500)
y_pred mmodel.predict(xgb.DMatrix(x_test),ntree_limit=model.best_ntree_limit)
举报

相关推荐

0 条评论