Page 138 - 计算机应用软件开发技术研究
P. 138

计算机应用软件开发技术研究
            Research on Computer Application Software Development Technology

            以相互替代的术语。关于数据挖掘,已有多种文字不同但含义接近的定义,如
            “识别出巨量数据中有效的、新颖的、潜在有用的最终可理解的模式的非平凡过
            程”,无论是数据分析还是数据挖掘,都是帮助人们收集、分析数据,使之成为

            信息,并做出判断,因此可以将这两项合称为数据分析与挖掘。
                数据分析与挖掘技术是机器学习算法和数据存取技术的结合,利用机器学
            习提供的统计分析、知识发现等手段分析海量数据,同时利用数据存取机制实现
            数据的高效读写。机器学习在数据分析与挖掘领域中拥有无可取代的地位,2012

            年 Hadoop 进军机器学习领域就是一个很好的例子。
                2.模式识别
                模式识别起源于工程领域,而机器学习起源于计算机科学,这两个不同学科
            的结合带来了模式识别领域的调整和发展。模式识别研究主要集中在两个方面。

                ①研究生物体(包括人)是如何感知对象的,属于认识科学的范畴。
                ②在给定的任务下,如何用计算机实现模式识别的理论和方法,这些是机器
            学习的长项,也是机器学习研究的内容之一。
                模式识别的应用领域广泛,包括计算机视觉、医学图像分析、光学文字识

            别、自然语言处理、语音识别、手写识别、生物特征识别、文件分类、搜索引擎
            等,而这些领域也正是机器学习大展身手的舞台,因此模式识别与机器学习的关
            系越来越密切。
                3.在生物信息学上的应用

                随着基因组和其他测序项目的不断发展,生物信息学研究的重点正逐步从
            积累数据转移到如何解释这些数据。在未来,生物学的新发现将极大地依赖于我
            们在多个维度和不同尺度下对多样化的数据进行组合和关联的分析能力,而不再
            仅仅依赖于对传统领域的继续关注。序列数据将与结构和功能数据基因表达数

            据、生化反应通路数据表现型和临床数据等一系列数据相互集成。如此大量的数
            据,在生物信息的存储、获取、处理、浏览及可视化等方面,都对理论算法和软
            件的发展提出了迫切的需求。另外,由于基因组数据本身的复杂性也对理论算法
            和软件的发展提出了迫切的需求。而机器学习方法例如神经网络、遗传算法、决

            策树和支持向量机等正适合于处理这种数据量大、含有噪声并且缺乏统一理论的
            领域。





            ·126·
   133   134   135   136   137   138   139   140   141   142   143