Page 127 - 计算机应用软件开发技术研究

P. 127

第四章大数据与机器学习

决策树是机器学习常见的一种方法。20 世纪末期，机器学习研究者
J.Ross Quinlan 将 Shannon 的信息论引入了决策树算法中，提出了 ID3 算法。
1984 年 I.Kononenko、E.Roskar 和 I.Bratko 在 ID3 算法的基础上提出了 AS-
SISTANTAlgorithm，这种算法允许类别的取值之间有交集。同年，A.Hart 提出了

Chi-Squa 统计算法，该算法采用了一种基于属性与类别关联程度的统计量。1984
年 L.Breiman、C.Ttone、R.Olshen 和 J.Freidman 提出了决策树剪枝概念，极大地
改善了决策树的性能。1993 年，Quinlan 在 ID3 算法的基础上提出了一种改进算

法，即 C4.5 算法。C4.5 算法克服了 ID3 算法属性偏向的问题增加了对连续属性
的处理通过剪枝，在一定程度上避免了“过度适合”现象。但是该算法将连续属
性离散化时，需要遍历该属性的所有值，降低了效率，并且要求训练样本集驻留
在内存，不适合处理大规模数据集。2010 年 Xie 提出一种 CART 算法，该算法

是描述给定预测向量 X 条件分布变量 Y 的一个灵活方法，已经在许多领域得到
了应用。CART 算法可以处理无序的数据，采用基尼系数作为测试属性的选择标
准。CART 算法生成的决策树精确度较高，但是当其生成的决策树复杂度超过一
定程度后，随着复杂度的提高，分类精确度会降低，所以该算法建立的决策树不

宜太复杂。2007 年房祥飞表述了一种叫 SLIQ（决策树分类）算法，这种算法的
分类精度与其他决策树算法不相上下，但其执行的速度比其他决策树算法快，它
对训练样本集的样本数量以及属性的数量没有限制。SLIQ 算法能够处理大规模
的训练样本集，具有较好的伸缩性；执行速度快而且能生成较小的二叉决策树。

SLIQ 算法允许多个处理器同时处理属性表，从而实现了并行性。但是 SLIQ 算
法依然不能摆脱主存容量的限制。2000 年 RajeevRaSto 等提出了 PUBLIC 算法，
该算法是对尚未完全生成的决策树进行剪枝，因而提高了效率。近几年模糊决策
树也得到了蓬勃发展。研究者考虑到属性间的相关性提出了分层回归算法、约束

分层归纳算法和功能树算法，这三种算法都是基于多分类器组合的决策树算法，
它们对属性间可能存在的相关性进行了部分实验和研究，但是这些研究并没有
从总体上阐述属性间的相关性是如何影响决策树性能。此外，还有很多其他的
算法，如 Zhang.J 于 2014 年提出的一种基于粗糙集的优化算法、Wang.R 在 2015

年提出的基于极端学习树的算法模型等。
随机森林（RF）作为机器学习重要算法之一，是一种利用多个树分类器进
行分类和预测的方法。近年来，随机森林算法研究的发展十分迅速，已经在生物

·115·

122 123 124 125 126 127 128 129 130 131 132