Page 123 - 计算机应用软件开发技术研究
P. 123
第四章 大数据与机器学习
3.支持向量机算法
基本思想可概括如下:首先,要利用一种变换将空间高维化,当然这种变换
是非线性的,然后,在新的复杂空间取最优线性分类表面。由此种方式获得的分
类函数在形式上类似于神经网络算法。支持向量机是统计学习领域中一个代表性
算法,但它与传统方式的思维方法很不同,输入空间、提高维度从而将问题简短
化,使问题归结为线性可分的经典解决问题。支持向量机应用于垃圾邮件识别、
人脸识别等多种分类问题。
4.随机森林算法
控制数据树生成的方式有多种,根据前人的经验,大多数时候更倾向选择分
裂属性和剪枝,但这并不能解决所有问题,偶尔会遇到噪声或分裂属性过多的问
题。基于这种情况,总结每次的结果可以得到袋外数据的估计误差,将它和测试
样本的估计误差相结合可以评估组合树学习器的拟合及预测精度。此方法的优点
有很多,可以产生高精度的分类器,并能够处理大量的变数,也可以平衡分类资
料集之间的误差。
5.人工神经网络算法
人工神经网络与神经元组成的异常复杂的网络大体相似,是个体单元互相连
接而成,每个单元有数值量的输入和输出,形式可以为实数或线性组合函数。它
先要以一种学习准则去学习,然后才能进行工作。当网络判断错误时,通过学习
使其减少犯同样错误的可能性。此方法有很强的泛化能力和非线性映射能力,可
以对信息量少的系统进行模型处理。从功能模拟角度看具有并行性,且传递信息
速度极快。
6.Boosting 与 Bagging 算法
Boosting 是一种通用的增强基础算法性能的回归分析算法。不需构造一个高
精度的回归分析,只需一个粗糙的基础算法即可,再反复调整基础算法就可以得
到较好的组合回归模型。它可以将弱学习算法提高为强学习算法,可以应用到其
他基础回归算法,如线性回归、神经网络等来提高精度。Bagging 和前一种算法
大体相似但又略有差别,主要想法是给出已知的弱学习算法和训练集,它需要经
过多轮的计算,才可以得到预测函数列,最后采用投票方式对示例进行判别。
7.关联规则算法
关联规则是用规则去描述两个变量或多个变量之间的关系,是客观反映数据
·111·

