Page 119 - 环境监测技术应用及质量控制
P. 119
» 第四章 大数据时代环境监测与治理
中的信息,为科学研究提供决策支持,促进生产生活方式的转变。与此同时,中国生
态文明建设和生态环境保护进入了数据驱动的新时代。坚决打好污染防治攻坚战、持
续改善生态环境质量、不断满足人民日益增长的优美生态环境等工作中收集到的数据
往往是不完整的、不明确的、大量的并且包含噪声,具有很大随机性的,因此离不开
数据挖掘技术的支持。
据挖掘是一个从不完整的、不明确的、大量的并且包含噪声,具有很大随机性
的真实数据中,提取出隐含其中、有应用价值的知识或模式的过程。完整的数据挖掘
过程——以数据为核心、目标为驱动,通过挖掘数据之间的关系、控制数据模型的质
量,来提取出隐含其中、有应用价值的知识或模式,并在真实环境下检验这些知识或
模式的正确性、持续跟踪优化使其满足数据挖掘的目标。同时,新的知识或模式的发
现往往会使人们重新定义数据挖掘的目标,因此数据挖掘是一个以数据为核心的循环
过程,数据挖掘技术是实施循环的关键技术。
(三)数据挖掘的工具
当前,数据挖掘技术随着数理统计和人工智能的发展而不断进步,各种统计分
析、智能分析的工具也广泛应用于数据挖掘过程中。
1.统计分析工具
数据挖掘过程运用的统计方法有:回归分析、判别分析、聚类分析、列联分析
等。这些统计功能大部分已经集成到常用的数据分析软件中,结合软件提供的图表功
能,用户能在若干维度下挖掘并展示数据之间的关系。这些统计分析软件通常分为两
类:一类是编程类软件(如 SAS、Matlab、RStudio 等),其功能强大适合专业统计
人员使用;另一类是人机交互界面类软件(如 SPSS、Statistica、Excel 等),其操作
简便适合非专业统计人员使用。
2.智能分析工具
智能分析是利用计算机根据算法进行数据挖掘的过程。常用的智能分析算法有支
持向量机、朴素贝叶斯、K 近邻和决策树等传统机器学习算法以及卷积神经网络、递
归神经网络和循环神经网络等深度学习算法。这些算法的编写语言主要有 Python、
C++、Java 等。
3.数据分析网络平台
随着互联网技术的发展,越来越多的数据存储在云端,为数据分析网络平台
的发展提供了机遇。目前,具有统计分析功能的网络平台有网易大数据、Splunk、
Tableau、神策数据以及腾讯云、阿里云等,它们都是交互界面类的平台,并能按用户
需求实现数据的可视化。此外,随着云计算技术的发展,谷歌、facebook、百度、腾
讯云、阿里云等都推出了具有智能分析功能的数据分析平台,其中谷歌和百度的数据
• 111 •

