Page 68 - 测绘新技术的理论与实践研究
P. 68

测绘新技术的理论与实践研究

            据,极大地丰富了信息资源,为数据集成和信息挖掘奠定了基础。

                大数据的运用给社会各行各业带来了种种机遇与挑战,当然,也为中国的地
            质工作带来新的变革与创新。长期以来,正在开展的“金土工程”“数字国土”
            等工程以及“玻璃地球”等计划,形成的国土资源调查评价与监测工作成果通过
            整合和分层叠加各类国土资源形成的“一张图”数据库,为大数据在国土资源行

            业的应用打下良好基础,大数据技术给新时期的国土资源行业带来新的发展机遇,
            势必对地矿工作产生变革影响,“大数据”资源体系构建有待于进一步开展。

                大数据技术为收集、储存、管理、分析和共享地质调查过程产生海量非结构
            化数据提供了有效的技术手段。有学者提出了大数据时代在存储、管理、分析方
            面的挑战,阐述了大数据处理的基本框架,但未针对地质领域大数据特点进行分
            析阐述。也有学者阐述了网络大数据的存储、管理、分析等方面面临的主要问题,

            其中提到了网络大数据的复杂性问题。李建中等提出大数据中关于数据有效性的
            问题,对于数字填图大数据框架建设过程中的冗余数据的处理提供了借鉴。更有
            学者对位置数据和非位置数据相结合的未来发展方向,但其中未对这两种数据的

            存储、管理和服务进行深入阐述。某研究者对大数据环境下的数据分析和挖掘算
            法进行了阐述,为建数字填图大数据服务的分析和服务提供了参考。通常认为地
            质信息具有空间性、时间性、多源性、异构性、海量性以及综合性等特点,包括
            结构化、半结构化和非结构化数据,其规模或复杂程度超出了一般传统大型数据

            库所能管理和传统 GIS 软件处理的范围。可见,数字填图野外数据采集过程中形
            成了大量的照片、影像、录音、文本等,以及室内综合分析整理过程形成的描述
            信息(如路线小结)等,非结构化以及数据类型繁多等特征是非常明显的。

                目前大数据处理技术有很多,单从其来源来看主要分为三种:
                ①开源大数据生态圈。Hadoop HDFS、HadoopMapReduce,HBase、Hive 渐
            次诞生,早期 Hadoop 生态圈逐步形成且用户较多。Hypertable 存在于 Hadoop 生
            态圈之外,用户较少。目前常用的是 NoSQL、membase、MongoDB。

                ② 商 用 大 数 据 生态圈。一体机数据库 / 数据仓库包括 IBM PureData、
            OracleExadata、SAP Hana 等;数据仓库包括 TeradataAsterData、EMC GreenPlum、

            HPVertica 等;数据集市包括 QlikView、Tableau 以及国内的 Yonghong Data Mart。
                ③混合大数据生态圈。Hortonworks 的 HDP2、Cloudera 的 CDH4(Cloudera-
            Distribution Including Apache Hadoop)、MapR(M3 免费,M5,M7)。


            56
   63   64   65   66   67   68   69   70   71   72   73