XGBoost算法介绍及代码实现-CFANZ编程社区

XGBoost算法介绍及代码实现

XGBoost是基于决策树的集成机器学习算法，它以梯度提升(Gradient Boost)为框架。在 SIGKDD 2016 大会上，陈天奇和Carlos Guestrin 发表的论文“XGBoost: A Scalable Tree Boosting System”在整个机器学习领域都引起了轰动，并逐渐成为Kaggle 和数据科学界的主导。XGBoost同样也引人了 Boosting算法。
XGBoost除了在精度和计算效率上取得成功的性能外，还是一个可扩展的解决方案。由于对初始树Boost GBM 算法进行了重要调整，因此XGBoost代表了新一代的GBM算法。

主要特点

采用稀疏感知算法，XGBoost 可以利用稀疏矩阵，节省内存(不需要密集矩阵)和节省计算时间(零值以特殊方式处理)。
近似树学习(加权分位数略图)，这类学习方式能得到近似的结果，但比完整的分支切割探索要省很多时间。
在一台机器上进行并行计算(在搜索最佳分割阶段使用多线程)，在多台机器上进行类似的分布式计算。
利用名为核外计算的优化方法，解决在磁盘读取数据时间过长的问题。将数据集分成多个块存放在磁盘中，使用一个独立的线程专门从磁盘读取数据并加载到内存中，这样一来，从磁盘读取数据和在内存中完成数据计算就能并行运行。
XGBoost还可以有效地处理缺失值，训练时对缺失值自动学习切分方向。基本思路是在每次的切分中，让缺失值分别被切分到决策树的左节点和右节点，然后通过计算增益得分选择增益大的切分方向进行分裂，最后针对每个特征的缺失值，都会学习到一个最优的默认切分方向。

代码实现
输入:训练集x_train，训练集标签y_train
验证集 x_valid，验证集标签y_valid，测试集 xtest
输出:训练好的模型model，测试集结果y_pred

import xgboost as xgb
params ={'eta': 0.01,'max_depth': 11,'objective': 'reg:linear', "eval_metric': 'rmse’)
dtrain=xgb.DMatrix(data=x train, label=y_train) 
dtest =xgb.DMatrix(data=X_valid, label=y_valid)
watchlist =[(train data, 'train'),(valid_data, 'valid_data')] 
model=xgb.train(param, train_data,num_boost_round=20000, evals=watchlist,
early_stopping_rounds=200, verbose_eval=500)
y_pred mmodel.predict(xgb.DMatrix(x_test),ntree_limit=model.best_ntree_limit)

0 条评论