XGB+LR:Practical Lessons from Predicting Clicks on Ads at Facebook

pdf：Practical Lessons from Predicting Clicks on Ads at Facebook

对GBDT/XGB+LR的看法：

xgb因为是tree based，可以看做一种特征交叉方法。比如一棵树的某个叶子节点的路径依次为 f1 > 0.2 && f2 < 5 && f3 == 1 && f4 > 0，它其实就可以看做四个特征结合的交叉特征。而且分割节点的时候，是按照gain来分割的，自带了特征选择的思想在里面。

改进的XGBoost+LR

原始特征：类别+连续

先把类别特征离散化了（连续特征不用离散化），然后喂给xgboost。然后将xgboost的叶子结点也给离散化了。

然后把连续特征离散化了，将离散化的xgboost特征和原始特征离散化后拼接在一起，其实此时特征数据的x值已经全部成为了01值了，再喂给LR，得到预估值。

XGBoost + LR 就是加特征而已

参考资料

XGBoost4J-Spark Tutorial

===

推荐系统遇上深度学习(十)--GBDT+LR融合方案实战

GBDT+LR算法解析及Python实现

gbdt对标量特征要不要onehot编码

在我看来，GBDT中每课tree的作用是进行supervised clustering，最后输出的其实是每个cluster的index。用GBDT是为了追求tree间的diversity。类似思路见周志华的gcForest，用extreme random forest进行特征转换，也是为了追求diversity。

知乎：LR,gbdt,libfm这三种模型分别适合处理什么类型的特征

10分钟了解GBDT＋LR模型的来龙去脉

XGBoost+LR融合的原理和简单实现

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Practical-Lessons-from-Predicting-Clicks-on-Ads-at-Facebook.md

Practical-Lessons-from-Predicting-Clicks-on-Ads-at-Facebook.md

XGB+LR:Practical Lessons from Predicting Clicks on Ads at Facebook

改进的XGBoost+LR

参考资料

Files

Practical-Lessons-from-Predicting-Clicks-on-Ads-at-Facebook.md

Latest commit

History

Practical-Lessons-from-Predicting-Clicks-on-Ads-at-Facebook.md

File metadata and controls

XGB+LR:Practical Lessons from Predicting Clicks on Ads at Facebook

改进的XGBoost+LR

参考资料