Page 118 - 环境监测技术应用及质量控制
P. 118

环境监测技术应用及质量控制
                    Application and Quality Control of Environmental Monitoring Technology


             与数据来源的不同,需要分析的数据并非总是存在一个站点,或归属于一个机构,而
             是分布于多个机构的数据库中。对这样多个数据来源进行数据挖掘就需要能够很好解
             决分布式计算需要的通信问题,数据安全性问题,数据挖掘的有效性问题的分布式数
             据挖掘方法。

                  数据挖掘技术是非传统的统计分析,传统的统计分析方法是基于假设——检验模
             式,先提出一种假设,再设计实验来手机数据,再根据假设分析数据。而数据挖掘方
             法分析的数据通常是时机性样本(opportunistic sample),而不是随机样本(random
             sample),采取的数据往往是真实随机发生的连续数据,而不是随机选取的数据,甚

             至于在未来使用大数据技术,处理的数据是完全的一个时间段产生的数据,而不进行
             任何筛选。
                  3.数据挖掘的作用
                  基于以上特点来自不同领域的研究者利用了传统统计学思想,数据挖掘思想。

             还有其他领域的例如可视化和信息检索的思想,逐步将数据挖掘技术向着分布式数据
             库,高性能并行计算,内存计算,等分布式技术处理海量数据的方向发展。数据挖掘
             通常有两个方面的作用,预测和描述。

                  预测通常是通过自变量(independent variable,在计算机技术中也有称为字段,
             属性)的值来预测因变量(dependent variable)。主要算法:聚类分析,关联分析,
             分类分析,因子分析,主成分分析,社交网络分析,决策树,线性回归,Logistic 回
             归,支持向量积,神经网络,判别分析等。
                  预测的方法主要有分类(classification)算法,通过计算样本之间的距离和分组之

             后各组之间的距离确定分类的方法,原则是组成员样本之间距离尽可能小,组间距尽
             可能的大;回归(regress)。用于预测连续的目标变量,也预测结果为“是或非”这
             种两分类的因变量,例如逻辑回归。例如,预测一个在电商网站上购买过一个商品的

             用户,是否会购买另一个商品。预测某种商品在不同日期季节的价格。预测模型可以
             用来预测广告的效果,预测地球环境的变化,预测体育运动员的发展潜力等。
                  聚类分析(cluster analysis)的作用是根据观测值之间的不同距离,将观测的不同
             值数据组合成不同的群,最大限度地保证同组数据之间的距离最小,且不同组群之间

             的距离最大。聚类分析较常用的是做用户画像,根据不同的用户属性将用户分成不同
             的组别,可以为后续的个性化推荐销售和精准营销奠定基础。异常值检测(anomaly
             detection)的任务是识别所关注的特征显著不同于其他观测值,异常检查包括信用卡
             欺诈识别,网络攻击行为识别,生态系统扰动,偷漏税行为的识别等。

                 (二)数据挖掘的过程
                  数据挖掘技术的目的是从多个维度去分析数据之间的关系,并搜索隐藏于数据之


             • 110 •
   113   114   115   116   117   118   119   120   121   122   123