From 4c3a38d872e9ea7128951e4ba3004ec389a55104 Mon Sep 17 00:00:00 2001 From: shataowei Date: Wed, 20 Nov 2019 19:50:22 +0800 Subject: [PATCH] =?UTF-8?q?xgboost=E9=83=A8=E5=88=86=E8=A1=A5=E5=85=85?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- .idea/workspace.xml | 39 +++++++++---------- .../Xgboost.md" | 17 ++++++-- 2 files changed, 32 insertions(+), 24 deletions(-) diff --git a/.idea/workspace.xml b/.idea/workspace.xml index fefe9f3..7d2a342 100644 --- a/.idea/workspace.xml +++ b/.idea/workspace.xml @@ -2,7 +2,6 @@ - @@ -24,7 +23,7 @@ - + @@ -48,12 +47,12 @@ - + - - + + @@ -115,8 +114,8 @@ @@ -1408,20 +1407,20 @@ - - + + - - + + - + - - + + @@ -1430,20 +1429,20 @@ - - + + - - + + - + - - + + diff --git "a/\346\234\272\345\231\250\345\255\246\344\271\240/\351\233\206\346\210\220\345\255\246\344\271\240/Xgboost.md" "b/\346\234\272\345\231\250\345\255\246\344\271\240/\351\233\206\346\210\220\345\255\246\344\271\240/Xgboost.md" index 109bc35..6b33291 100644 --- "a/\346\234\272\345\231\250\345\255\246\344\271\240/\351\233\206\346\210\220\345\255\246\344\271\240/Xgboost.md" +++ "b/\346\234\272\345\231\250\345\255\246\344\271\240/\351\233\206\346\210\220\345\255\246\344\271\240/Xgboost.md" @@ -10,10 +10,19 @@ - 实现做了面向体系结构的优化,针对cache和内存做了性能优化 # xgboost和gbdt的区别? -- gbdt用的是cart回归树作为基模型,xgboost还可以用线性模型,加上天生的正则项,就是带L1和L2逻辑回归(分类)和线性回归(回归) -- gbdt对loss是泰勒一阶展开,xgboost是泰勒二阶展开 -- gbdt没有在loss中带入结点个数和预测值的正则项 -- xgboost在对特征进行了分block预排序,使得在做特征分裂的时候,最终选增益最大的那个特征去做分裂,那么各个特征的增益计算就可以开多线程进行 +- 模型优化上: + - 基模型的优化: + - - gbdt用的是cart回归树作为基模型,xgboost还可以用线性模型,加上天生的正则项,就是带L1和L2逻辑回归(分类)和线性回归(回归) + - 损失函数上的优化: + - gbdt对loss是泰勒一阶展开,xgboost是泰勒二阶展开 + - gbdt没有在loss中带入结点个数和预测值的正则项 + - 特征选择上的优化: + - 实现了一种分裂节点寻找的近似算法,用于加速和减小内存消耗,而不是gbdt的暴力搜索 + - 节点分裂算法解决了缺失值方向的问题,gbdt则是沿用了cart的方法进行加权 +- 工程优化上: + - xgboost在对特征进行了分block预排序,使得在做特征分裂的时候,最终选增益最大的那个特征去做分裂,那么各个特征的增益计算就可以开多线程进行 + - cache-aware, out-of-core computation + - 支持分布式计算可以运行在MPI,YARN上,得益于底层支持容错的分布式通信框架rabit # xgboost优化目标/损失函数改变成什么样? - 原始:![](https://tva1.sinaimg.cn/large/006y8mN6gy1g94mjezeisj307401fmx0.jpg)