决策树的基本原理就是依据信息增益等原则不断选择特征构建树模型的过程。
决策树
描述一下什么是决策树算法,是如何进行特征选择的?
决策树是一种自顶向下,对样本数据进行树形分类的过程,有结点与有向边组成。结点分为内部结点(特征)和叶节点(类别),样本从根节点被分到不同的子节点中,子节点进行特征选择,直到所有样本都被分到某一类别中。
通过特征选择构造最优的决策树常用的启发函数为ID3,C4.5,CART。
1.ID3为最大信息增益,又叫互信息,度量数据集在知道特征之后不确定性减少的程度。
2.C4.5为最大信息增益比——互信息除以数据集关于该特征的取值熵。
3.CART是一颗二叉树,采用二元切割把特征取值切成两份,每一步选择基尼系数(数据不纯度)最小的特征及其对应的划分点进行分类。
ID3倾向于选择取值较多的特征,C4.5一定程度对取值多的特征进行惩罚,提高泛化。CART的二值化分适用于连续变量。一般工业上,优先采用CART,再采用C4.5,然后是ID3。