Page 137 - 计算机应用软件开发技术研究
P. 137
第四章 大数据与机器学习
时耗神,还需要面对容易出现错误的风险。因而在现实之中,未标识数据在数量
方面已经远超有标识数据,只有充分地利用未标识数据,机器学习所得模型的泛
化能力才可以得到保障。大数据的发展对于处理海量不确定数据提出了较高的要
求,而不确定数据广泛存在于各行各业,通过这些不确定数据分解出信息并相应
地获取知识逐渐成为大数据分析的重点发展目标。概率图模型是概率论与图论结
合后的产物,是图形化表现概率实际分布的结果,为把握随机变量之间错综复杂
的依赖关系并构造规模较大的复数变量统计模型创造了统一的条件。
3.迁移式的学习
进入大数据时代后,大量崭新的数据出现在各行各业,只有获得海量有标识
数据的训练用数据,才可以在崭新的数据处理上运用传统的机器学习方法。针对
各行各业差异化地设置训练数据需要占用大量的人力物力,而在不同场景间迁移
转化知识的能力可以相应地解决问题。迁移式地学习在传统的机器学习之中较为
匮乏,根源是传统的机器学习通常要求学习的知识与应用的场景具备一致的统计
特征。当二者彼此分离之后,相关统计特征会随之发生改变,统计学习的效率会
大幅降低。而迁移式地学习可以较好地解决该问题,其主要借助源头任务中的相
关知识相应地提升目标任务中的学习效率与学习性能,这不仅可以帮助计算机掌
握更为有效的学习能力,还可以推动机器学习相关研究的发展。
在当下的大数据时代,无标识数据与少量有标识数据构成了绝大部分的数
据,对此采用半监督式的学习方法可以较为切实地处理这一类数据。伴随着数据
量的急速增长,单一的学习器所能得出的学习成果和学习效率难以满足实际的需
求,只有通过复数学习器进行集成的学习,才可以更加有效地得出学习成果。概
率图模型借由图形可视化处理,可以为结构多样的大数据分析工作提供简约却有
效的分析模型。只有通过迁移式的学习,既有学习成果才可以在持续累积的过程
中逐渐引入其他未知的学习领域。只有充分切实地关注机器学习的相关技术及其
相关方式方法,机器学习才可以取得更加长足的发展。
(四)大数据时代机器学习的应用分析
机器学习应用广泛,无论是在军事领域还是民用领域,都有机器学习算法施
展的机会,主要包括以下几个方面。
1.数据分析与挖掘
“数据挖掘”和“数据分析”通常被相提并论,并在许多场合被认为是可
·125·

