Page 267 - 环境工程技术的发展和应用
P. 267
第七章 环境保护新兴技术应用
证大数据的及时性和质量性,保证大数据分析预测结果的及时性和价值体现。网
络数据主要由网络爬虫采集,需要爬虫软件进行时间设置,以保证采集数据的及
时性和质量。因此,数据采集方式是影响大数据时效性和质量的重要因素之一。
(二)数据预处理方面的影响
现实环境中的数据会受到多种因素的影响,如噪声、数据丢失以及数据不
一致等,就会使低质量的数据对数据挖掘的结果造成影响。如对大气环境进行分
析和预测,数据采集的元数据来自两个部分:空气质量污染物数据集和气象因子
数据集。这些数据特征分散,不符合数据分析和数据挖掘要求的规范和标准。实
际采集到的数据具有如下特征:(1)含噪声;(2)不完整;(3)有重复;(4)
不一致。因此直接采用低质量的元数据进行数据分析和预测,则会使结果出现异
常,影响分析和预测,得出的分析结论也不具有价值。因此在环境保护领域采用
大数据分析时,要保证数据具有完整性、无噪声、冗余值少等特点。
(三)数据存储方面的影响
数据存储在大数据应用中属于非常重要的环节,分布式存储和访问是其核
心技术,具有便捷、高效、容错性好的优点。块是分布式文件系统用于数据读和
写的基本单元,根据文件的大小可划分为不同的块进行存储,与普通文件不同,
如果一个文件小于一个数据块的大小,它将不会占用整个数据块的存储空间。此
外还有 HDFS 存储方式,可以在普通机器组成的集群上运行,并且支持流数据读
取和处理超大规模文件。在设计中,该模式采用了多种机制,以确保在硬件出错
的环境下数据的完整性。但 HDFS 不适合处理低延迟的数据访问,也无法高效储
存大量的小文件,而且不支持并发的写入和任意的修改。在云计算大背景下发展
起来的云数据库,在增强存储能力方面效果显著,它能消除人员、硬件、软件的
重复配置,也虚化了很多后端功能,具有高扩展性、高可用性等特点。但是这种
存储方式需特别注意数据的安全性,网络安全问题是该存储方式不可忽视的环节。
由于不同的数据存储方式有不同的特点和适用条件,选择合适的存储方式对提高
大数据的质量维度(如及时性、安全性、可用性和准确性)具有重要影响。
(四)数据分析方面的影响
数据分析是研究大量数据内在规律,通过分析、对比、归纳统计等方式,
提取并总结数据中包含的相关信息,并依据数据信息的分析结果,为用户和相关
部门进行决判提供有力的数据支撑。大数据分析技术按照层进的方式主要涵盖三
257
257

