Page 99 - 环境保护与环境监测研究
P. 99

第五章  大数据时代的环境监测工作探析




             中产生的垃圾与交通问题,该种信息一般来源于各类官方展开的统计工作。
                 2. 根据数据的生命周期分类
                 根据数据的生命周期可以分为三类:冷数据、温数据以及热数据。

                 所谓冷数据,就是历史归档且未被及时处理的原始数据。该类数据主要作用
             于地方污染源排放的数据中,该类数据的访问量较低,计算分析工作也更为便捷。
             虽然这种数据内容较为庞大,但是读取与计算分析的难度却较低。
                 温数据则是可供历史查询的周期较长的分析报表数据,这种数据的访问频率

             较低,运算难度稍高于冷数据。
                 热数据则是具备时间维度的数据,该种数据会根据时间的流动发生变化并不
             断丰富,在环境监测技术中心应用这种数据的概率较高,并且运算难度也较高。
                 (三)数据集成策略

                 大数据集成的主要目的是确保信息和数据能够在各个领域得到很好的应用,
             这也是环境监测技术对大数据应用的基本前提。为了保证大数据技术能够为环境
             监测提供切实有效的帮助,就必须确保大数据集成的水平,在集成过程中还要考
             虑到数据的转换、补采、清洗以及监控等四个方面。

                 1. 数据转换模块
                 数据转换模块,是在收集到信息数据后,对各种数据进行转换的第一道工序。
             一般来说,大数据技术收集到的信息数据往往会呈现出不同的格式以及不同的内
             容,该模块的作用就是将这些数据的格式进行统一。在收集到信息数据后,需要

             将不同数据源获得的信息数据进行转换,变成统一格式编码的信息数据,以便于
             后续工作的开展。
                 2. 数据补采模块
                 在数据采集以及传输过程中,为了避免由于特殊原因导致的数据传输中断或

             者数据文件损坏等问题,就需要在数据采集之后的传输环节中,根据不同的数据
             内容以及数据格式制定相应的补采规则。对于冷数据以及温数据,可以通过人工
             方式完成相关的补采工作,而对于动态的实时热数据,则需要考虑到补采任务的
             自主动作。

                 3. 数据清洗模块
                 所谓的数据清洗,就是对大数据技术中的信息数据进行筛选。大数据技术信
             息所包含的技术价值密度较低,在收集信息数据时,难免会收集到一些不具备环



                                               ·87·
   94   95   96   97   98   99   100   101   102   103   104