Page 123 - 计算机应用软件开发技术研究
P. 123

第四章  大数据与机器学习



                 3.支持向量机算法
                 基本思想可概括如下:首先,要利用一种变换将空间高维化,当然这种变换
             是非线性的,然后,在新的复杂空间取最优线性分类表面。由此种方式获得的分

             类函数在形式上类似于神经网络算法。支持向量机是统计学习领域中一个代表性
             算法,但它与传统方式的思维方法很不同,输入空间、提高维度从而将问题简短
             化,使问题归结为线性可分的经典解决问题。支持向量机应用于垃圾邮件识别、
             人脸识别等多种分类问题。

                 4.随机森林算法
                 控制数据树生成的方式有多种,根据前人的经验,大多数时候更倾向选择分
             裂属性和剪枝,但这并不能解决所有问题,偶尔会遇到噪声或分裂属性过多的问
             题。基于这种情况,总结每次的结果可以得到袋外数据的估计误差,将它和测试

             样本的估计误差相结合可以评估组合树学习器的拟合及预测精度。此方法的优点
             有很多,可以产生高精度的分类器,并能够处理大量的变数,也可以平衡分类资
             料集之间的误差。
                 5.人工神经网络算法

                 人工神经网络与神经元组成的异常复杂的网络大体相似,是个体单元互相连
             接而成,每个单元有数值量的输入和输出,形式可以为实数或线性组合函数。它
             先要以一种学习准则去学习,然后才能进行工作。当网络判断错误时,通过学习
             使其减少犯同样错误的可能性。此方法有很强的泛化能力和非线性映射能力,可

             以对信息量少的系统进行模型处理。从功能模拟角度看具有并行性,且传递信息
             速度极快。
                 6.Boosting 与 Bagging 算法
                 Boosting 是一种通用的增强基础算法性能的回归分析算法。不需构造一个高

             精度的回归分析,只需一个粗糙的基础算法即可,再反复调整基础算法就可以得
             到较好的组合回归模型。它可以将弱学习算法提高为强学习算法,可以应用到其
             他基础回归算法,如线性回归、神经网络等来提高精度。Bagging 和前一种算法
             大体相似但又略有差别,主要想法是给出已知的弱学习算法和训练集,它需要经

             过多轮的计算,才可以得到预测函数列,最后采用投票方式对示例进行判别。
                 7.关联规则算法
                 关联规则是用规则去描述两个变量或多个变量之间的关系,是客观反映数据



                                                                                 ·111·
   118   119   120   121   122   123   124   125   126   127   128