Skip to content

Latest commit

 

History

History
executable file
·
58 lines (20 loc) · 2.12 KB

Practical-Lessons-from-Predicting-Clicks-on-Ads-at-Facebook.md

File metadata and controls

executable file
·
58 lines (20 loc) · 2.12 KB

XGB+LR:Practical Lessons from Predicting Clicks on Ads at Facebook

paper

pdf:Practical Lessons from Predicting Clicks on Ads at Facebook

对GBDT/XGB+LR的看法:

xgb因为是tree based,可以看做一种特征交叉方法。比如一棵树的某个叶子节点的路径依次为 f1 > 0.2 && f2 < 5 && f3 == 1 && f4 > 0,它其实就可以看做四个特征结合的交叉特征。而且分割节点的时候,是按照gain来分割的,自带了特征选择的思想在里面。

改进的XGBoost+LR

原始特征:类别+连续

先把类别特征离散化了(连续特征不用离散化),然后喂给xgboost。然后将xgboost的叶子结点也给离散化了。

然后把连续特征离散化了,将离散化的xgboost特征和原始特征离散化后拼接在一起,其实此时特征数据的x值已经全部成为了01值了,再喂给LR,得到预估值。

XGBoost + LR 就是加特征而已

参考资料

===

推荐系统遇上深度学习(十)--GBDT+LR融合方案实战

GBDT+LR算法解析及Python实现

gbdt对标量特征要不要onehot编码

在我看来,GBDT中每课tree的作用是进行supervised clustering,最后输出的其实是每个cluster的index。用GBDT是为了追求tree间的diversity。类似思路见周志华的gcForest,用extreme random forest进行特征转换,也是为了追求diversity。

知乎:LR,gbdt,libfm这三种模型分别适合处理什么类型的特征

10分钟了解GBDT+LR模型的来龙去脉

XGBoost+LR融合的原理和简单实现