Page 136 - 计算机应用软件开发技术研究

P. 136

计算机应用软件开发技术研究
Research on Computer Application Software Development Technology

3.数据利用能力与知识迁移能力
如今，人工智能通过模糊语言搜集快速高效化分析处理模块，实现对庞大数
据的分类和筛选。数据处理既包含有标识的数据，也包含海量未标识数据，还包

含杂质较多且不一致不完整的脏数据与不平衡数据。如果按照既有习惯直接舍弃
脏数据，仅仅使用有标识数据而不使用未标识数据，在数据运用方面就会造成较
为可观的浪费，同时也会影响到已掌握模型的泛化运用能力。且通过一个任务学
习得到的知识应当可以迁移至有其共性的其他任务之中，以便尽可能地提高在其

他任务中进行学习的性能。举例而言，用以监督学习的公式中包含学习函数，而
在大数据场景下，很多情况需要学习一连串的相关函数，尽管判断函数存在一定
的差异，但是其中仍有许多共性。
（三）大数据时代机器学习的关键技术要点

当下，机器学习的研究与实际运用过程中最为常见且相对关键的核心技术主
要包含集成的学习、半监督式的学习与概率图模型学习以及迁移式的学习。
1.集成学习
在现实之中，群体决策通常高于个体决策，尤其是群体之中见解均不同的

情况。在机器学习中同理，集成学习是指整合复数不同学习系统得出的结果，以
便获得超出个体学习系统的理想学习效果。通过集成学习，哪怕是更为简单的学
习系统也可以得到更为理想的学习效果。此外，集成学习所具备的架构特性原本
就适合并行处理，可以为提高大数据时代背景下的训练效率和测试效率奠定较为

符合预期的基础。传统机器学习的核心在于检索，检索全部的可能函数并相应
地构造假设空间集合，以便从中选取最为贴合未知函数的相近函数。而在统计、
计算与表示层面会面临一定的问题，可用的训练数据同时存在很多，甚至存在复
数精确度相近的不同假设，其或许会在相同的训练数据上得到相同的表现，但换

用新的数据则会出现较大偏差，而使用集成学习的简单平等投票则可以避免这些
问题。
2.半监督式的学习与概率图模型的学习
参考传统机器学习的理论框架，机器学习可以分为有监督的学习和无监督

的学习。前者使用的是有标识数据，后者则仅仅使用未标识数据。进入大数据时
代后，数据采集和数据存储方面的技术高速发展，大量未标识数据的收集逐渐变
得轻而易举。同时，大量的有标识数据则需仰赖领域内专家的帮助，不仅极其耗

·124·

131 132 133 134 135 136 137 138 139 140 141