Page 119 - 环境监测技术应用及质量控制
P. 119

» 第四章  大数据时代环境监测与治理




               中的信息,为科学研究提供决策支持,促进生产生活方式的转变。与此同时,中国生
               态文明建设和生态环境保护进入了数据驱动的新时代。坚决打好污染防治攻坚战、持
               续改善生态环境质量、不断满足人民日益增长的优美生态环境等工作中收集到的数据
               往往是不完整的、不明确的、大量的并且包含噪声,具有很大随机性的,因此离不开

               数据挖掘技术的支持。
                   据挖掘是一个从不完整的、不明确的、大量的并且包含噪声,具有很大随机性
               的真实数据中,提取出隐含其中、有应用价值的知识或模式的过程。完整的数据挖掘
               过程——以数据为核心、目标为驱动,通过挖掘数据之间的关系、控制数据模型的质

               量,来提取出隐含其中、有应用价值的知识或模式,并在真实环境下检验这些知识或
               模式的正确性、持续跟踪优化使其满足数据挖掘的目标。同时,新的知识或模式的发
               现往往会使人们重新定义数据挖掘的目标,因此数据挖掘是一个以数据为核心的循环
               过程,数据挖掘技术是实施循环的关键技术。

                   (三)数据挖掘的工具
                   当前,数据挖掘技术随着数理统计和人工智能的发展而不断进步,各种统计分
               析、智能分析的工具也广泛应用于数据挖掘过程中。

                   1.统计分析工具
                   数据挖掘过程运用的统计方法有:回归分析、判别分析、聚类分析、列联分析
               等。这些统计功能大部分已经集成到常用的数据分析软件中,结合软件提供的图表功
               能,用户能在若干维度下挖掘并展示数据之间的关系。这些统计分析软件通常分为两
               类:一类是编程类软件(如 SAS、Matlab、RStudio 等),其功能强大适合专业统计

               人员使用;另一类是人机交互界面类软件(如 SPSS、Statistica、Excel 等),其操作
               简便适合非专业统计人员使用。
                   2.智能分析工具

                   智能分析是利用计算机根据算法进行数据挖掘的过程。常用的智能分析算法有支
               持向量机、朴素贝叶斯、K 近邻和决策树等传统机器学习算法以及卷积神经网络、递
               归神经网络和循环神经网络等深度学习算法。这些算法的编写语言主要有 Python、
               C++、Java 等。

                   3.数据分析网络平台
                   随着互联网技术的发展,越来越多的数据存储在云端,为数据分析网络平台
               的发展提供了机遇。目前,具有统计分析功能的网络平台有网易大数据、Splunk、
               Tableau、神策数据以及腾讯云、阿里云等,它们都是交互界面类的平台,并能按用户

               需求实现数据的可视化。此外,随着云计算技术的发展,谷歌、facebook、百度、腾
               讯云、阿里云等都推出了具有智能分析功能的数据分析平台,其中谷歌和百度的数据


                                                                                         • 111 •
   114   115   116   117   118   119   120   121   122   123   124