diff --git a/.idea/workspace.xml b/.idea/workspace.xml index e5d984f..86945cc 100644 --- a/.idea/workspace.xml +++ b/.idea/workspace.xml @@ -2,7 +2,6 @@ - @@ -24,7 +23,7 @@ - + @@ -48,12 +47,12 @@ - + - - + + @@ -114,8 +113,8 @@ @@ -495,9 +494,9 @@ - + - + @@ -1353,20 +1352,20 @@ - - + + - - + + - + - - + + @@ -1375,20 +1374,20 @@ - - + + - - + + - + - - + + diff --git "a/\346\234\272\345\231\250\345\255\246\344\271\240/\351\233\206\346\210\220\345\255\246\344\271\240/GBDT.md" "b/\346\234\272\345\231\250\345\255\246\344\271\240/\351\233\206\346\210\220\345\255\246\344\271\240/GBDT.md" index 8c35236..a305700 100644 --- "a/\346\234\272\345\231\250\345\255\246\344\271\240/\351\233\206\346\210\220\345\255\246\344\271\240/GBDT.md" +++ "b/\346\234\272\345\231\250\345\255\246\344\271\240/\351\233\206\346\210\220\345\255\246\344\271\240/GBDT.md" @@ -72,10 +72,13 @@ Cart tree,但是都是回归树 # feature属性会被重复多次使用么? 会,同时因为特征会进行多次使用,特征用的越多,则该特征的重要性越大 -# 如何进行子采样的? -每一棵树基于原始原本的一个子集进行训练 -- rf是有放回采样,gbdt是无放回采样 -- 特征子采样可以来控制模型整体的方差 +# gbdt如何进行正则化的? +- 子采样 + - 每一棵树基于原始原本的一个子集进行训练 + - rf是有放回采样,gbdt是无放回采样 + - 特征子采样可以来控制模型整体的方差 +- 利用Shrinkage收缩,控制每一棵子树的贡献度 +- 每棵Cart树的枝剪 # 为什么集成算法大多使用树类模型作为基学习器?或者说,为什么集成学习可以在树类模型上取得成功? - 对数据的要求比较低,不需要强假设,不需要数据预处理,连续离散都可以,缺失值也能接受