Page 117 - 环境监测技术应用及质量控制

P. 117

» 第四章大数据时代环境监测与治理

领域，其最开始主要面向商业应用。
1989 年 8 月，数据库中的知识发现（knowledge discovery in database，KDD）这
个知识发掘名词被定义，以后的几次会议里都举行了专门的 KDD 专题讨论会议，集
中讨论统计方法，海络数据的分析算法，知识的表示和运用等问题，最初数据挖掘

是作为 KDD 中的一个步骤，后来逐渐演变成 KDD 的同义词。数据挖掘是知识发现
（knowledge discovery in database，KDD）不可缺少的一部分，是知识发现整个流程
的一部分。知识发现是将原始数据经过数据预处理，数据挖掘，数据后处理最后产生
有用的信息这样的过程，其中数据预处理（preprocessing）也可以称为数据整理，是

将未加工的输入数据转换成适合分析的形式，因为数据来源的多种多样，数据预处理
的工作量往往占据整个数据挖掘过程的工作量的一半以上。数据清洗阶段具体包括自
变量（字段）选择，自变量降维、规约，统一格式，选择数据子集等。后续处理包括
模式匹配，可视化，模式表示等。

2.数据挖掘的特性
由于目前数据的收集和存储是来自多个数据源的数据，数据量较大使得传统的数
据分析技术常常遇到实际困难，例如使用 IBMSPSSstatic 应用传统统计学对几十万条

电商交易记录数据进行数据分析时往往因为内存不够，算法时间复杂度过大等问题造
成应用软件的假死状态，或者直接程序崩溃，为了解决这些问题，人们研究数据挖掘
的过程中，使得数据挖掘发展产生了自己的一些特点。
（1）可伸缩性
由于数据产生增长速度加剧，数据收集，采集技术的不断进步，需要处理海量

的数据使得数据挖掘方法需要具备伸缩性。例如，现在阿里云，腾讯等公司提供的弹
性计算服务，这些弹性计算的能力是电商公司在应对例如“双十一”这样的数据高峰
后日常工作剩余的计算能力，所以提供的弹性计算服务也是源于弹性计算的需求之上

的。实现形式是利用分布式数据挖掘方法，将数据集通过分片的形式推送到不同的物
理服务器上进行计算后再合并计算结果的过程。
（2）高维性
由于现在的数据集和以往只具有少量属性的数据集不同，往往具有成百上千的

属性。例如基因研究领域的基因数据表达式。地球表面不同位置上的时间序列测量值
（温度，压力）的气象数据。
异构数据和复杂数据是相对于传统的关系型数据，例如自变量随时可以增加的异
构数据，自变量成百上千的复杂数据。数据挖掘在各个领域的应用越来越广泛，不同

于传统关系型数据的异构数据的分析也越来越多，例如半结构化的文本数据，Web 中
的页面数据等。复杂的数据例如具有序列和三维结构的 DNA 数据等。数据的所有权

• 109 •

112 113 114 115 116 117 118 119 120 121 122