Page 135 - 计算机应用软件开发技术研究
P. 135
第四章 大数据与机器学习
而计算变得更为复杂,一般会带来极高的计算成本。为了求出调整学习算法所包
含的超参数,评估统计的重要性,需要反复执行学习行为和预测,也就是所谓的
可并行化处理的具体运用,原本就很适应并行化处理。在具体的参数扫描过程
中,可以通过在配置有所不同的同一数据集合上反复运行学习算法,进而在一个
验证集合上具体地进行评估。
(二)大数据时代机器学习需要具备的能力
针对大数据进行价值发现的难度较高,为大数据分析服务的机器学习技术在
三个方面需具备符合预期的适应能力。
1.泛化与快速学习能力
一般而言,经由训练样本进行训练的机器学习算法需要具备充足的泛化能
力,换句话说也就是针对新输入合理地进行响应的能力,该项能力在对于机器学
习算法性能进行评估的过程中基本具备十分重要的参考价值。机器学习中最为基
础的目标在于针对训练数据之中的实例进行相应的泛化延伸。不论如何,在测试
中看到相同实例都是不现实的。而通过训练数据得出较好的表现相对来说是较为
简单的,仅仅需要针对具体实例进行记忆。在机器学习的过程中,训练速度与测
试速度会影响学习速度,而训练速度与测试速度是彼此相关的。部分算法的训练
速度较为理想,测试速度则相对较为缓慢;部分算法则正好相反。为此,相对重
要的研究方向之一在于调整训练速度和测试速度,以便获得同时保证两种速度的
机器学习算法。
2.便于理解与代价感知能力
功能可以较好满足预期的机器学习算法大多是不透明的,对于用户来说,可
以看到的仅限最后的输出结果,而得出结果的过程是欠缺的。伴随着数据总量的
增多、问题复杂程度的提升,对于过程的需求也在逐渐增长。偏向算法研究的机
器学习的原型系统在转向实际的机器学习的系统时会受到更加繁多复杂的内外因
素影响,其中较为关键的是现实中不同的领域不同的误判结果所需支付的代价间
的平衡性。部分误判结果需要支付较为高昂的代价,而部分误判结果的代价无关
痛痒。为此,应借助大数据分析的核心优势,综合各种数据与因素针对特定物事
进行全方位无死角的解读。代价敏感较为符合要求的学习算法可以提供较为理想
的解决方向,由引入代价相关信息衡量误判的严重程度。
·123·

