Page 267 - 环境工程技术的发展和应用
P. 267

第七章  环境保护新兴技术应用



            证大数据的及时性和质量性,保证大数据分析预测结果的及时性和价值体现。网
            络数据主要由网络爬虫采集,需要爬虫软件进行时间设置,以保证采集数据的及
            时性和质量。因此,数据采集方式是影响大数据时效性和质量的重要因素之一。
                 (二)数据预处理方面的影响
                 现实环境中的数据会受到多种因素的影响,如噪声、数据丢失以及数据不

            一致等,就会使低质量的数据对数据挖掘的结果造成影响。如对大气环境进行分
            析和预测,数据采集的元数据来自两个部分:空气质量污染物数据集和气象因子
            数据集。这些数据特征分散,不符合数据分析和数据挖掘要求的规范和标准。实

            际采集到的数据具有如下特征:(1)含噪声;(2)不完整;(3)有重复;(4)
            不一致。因此直接采用低质量的元数据进行数据分析和预测,则会使结果出现异
            常,影响分析和预测,得出的分析结论也不具有价值。因此在环境保护领域采用
            大数据分析时,要保证数据具有完整性、无噪声、冗余值少等特点。
                 (三)数据存储方面的影响

                 数据存储在大数据应用中属于非常重要的环节,分布式存储和访问是其核
            心技术,具有便捷、高效、容错性好的优点。块是分布式文件系统用于数据读和
            写的基本单元,根据文件的大小可划分为不同的块进行存储,与普通文件不同,

            如果一个文件小于一个数据块的大小,它将不会占用整个数据块的存储空间。此
            外还有 HDFS 存储方式,可以在普通机器组成的集群上运行,并且支持流数据读
            取和处理超大规模文件。在设计中,该模式采用了多种机制,以确保在硬件出错
            的环境下数据的完整性。但 HDFS 不适合处理低延迟的数据访问,也无法高效储
            存大量的小文件,而且不支持并发的写入和任意的修改。在云计算大背景下发展

            起来的云数据库,在增强存储能力方面效果显著,它能消除人员、硬件、软件的
            重复配置,也虚化了很多后端功能,具有高扩展性、高可用性等特点。但是这种
            存储方式需特别注意数据的安全性,网络安全问题是该存储方式不可忽视的环节。

            由于不同的数据存储方式有不同的特点和适用条件,选择合适的存储方式对提高
            大数据的质量维度(如及时性、安全性、可用性和准确性)具有重要影响。
                 (四)数据分析方面的影响
                 数据分析是研究大量数据内在规律,通过分析、对比、归纳统计等方式,
            提取并总结数据中包含的相关信息,并依据数据信息的分析结果,为用户和相关

            部门进行决判提供有力的数据支撑。大数据分析技术按照层进的方式主要涵盖三


                                                                                    257
                                                                                    257
   262   263   264   265   266   267   268   269   270   271   272