pdf:Practical Lessons from Predicting Clicks on Ads at Facebook
对GBDT/XGB+LR的看法:
xgb因为是tree based,可以看做一种特征交叉方法。比如一棵树的某个叶子节点的路径依次为 f1 > 0.2 && f2 < 5 && f3 == 1 && f4 > 0,它其实就可以看做四个特征结合的交叉特征。而且分割节点的时候,是按照gain来分割的,自带了特征选择的思想在里面。
原始特征:类别+连续
先把类别特征离散化了(连续特征不用离散化),然后喂给xgboost。然后将xgboost的叶子结点也给离散化了。
然后把连续特征离散化了,将离散化的xgboost特征和原始特征离散化后拼接在一起,其实此时特征数据的x值已经全部成为了01值了,再喂给LR,得到预估值。
===
在我看来,GBDT中每课tree的作用是进行supervised clustering,最后输出的其实是每个cluster的index。用GBDT是为了追求tree间的diversity。类似思路见周志华的gcForest,用extreme random forest进行特征转换,也是为了追求diversity。