<aside> 💡 决策树的目的是生成规则,以对原始数据达到最好的划分。因此,决策树的根节点为样本的总体集合,非叶子节点的中间节点代表一个规则,叶子节点代表一个划分。
</aside>
由于决策树的生成是递归式的,因此从流程来分析
叶子节点的生成有三种情况
第二种利在用子节点的后验分布,而第三种利用了父节点的先验分布
ID3决策树 信息增益
C4.5决策树 信息增益率
CART决策树 基尼系数
预剪枝
根据划分前后的泛化性能来决定是否进行划分
后剪枝
生成决策树以后从叶子节点来剪枝
连续值处理
将连续值序列取中间点作为划分点候选集,随后计算每个候选集作为划分点的信息增益,找到最高信息增益,来代表这一连续值属性作划分的信息增益。