Page 68 - 测绘新技术的理论与实践研究
P. 68
测绘新技术的理论与实践研究
据,极大地丰富了信息资源,为数据集成和信息挖掘奠定了基础。
大数据的运用给社会各行各业带来了种种机遇与挑战,当然,也为中国的地
质工作带来新的变革与创新。长期以来,正在开展的“金土工程”“数字国土”
等工程以及“玻璃地球”等计划,形成的国土资源调查评价与监测工作成果通过
整合和分层叠加各类国土资源形成的“一张图”数据库,为大数据在国土资源行
业的应用打下良好基础,大数据技术给新时期的国土资源行业带来新的发展机遇,
势必对地矿工作产生变革影响,“大数据”资源体系构建有待于进一步开展。
大数据技术为收集、储存、管理、分析和共享地质调查过程产生海量非结构
化数据提供了有效的技术手段。有学者提出了大数据时代在存储、管理、分析方
面的挑战,阐述了大数据处理的基本框架,但未针对地质领域大数据特点进行分
析阐述。也有学者阐述了网络大数据的存储、管理、分析等方面面临的主要问题,
其中提到了网络大数据的复杂性问题。李建中等提出大数据中关于数据有效性的
问题,对于数字填图大数据框架建设过程中的冗余数据的处理提供了借鉴。更有
学者对位置数据和非位置数据相结合的未来发展方向,但其中未对这两种数据的
存储、管理和服务进行深入阐述。某研究者对大数据环境下的数据分析和挖掘算
法进行了阐述,为建数字填图大数据服务的分析和服务提供了参考。通常认为地
质信息具有空间性、时间性、多源性、异构性、海量性以及综合性等特点,包括
结构化、半结构化和非结构化数据,其规模或复杂程度超出了一般传统大型数据
库所能管理和传统 GIS 软件处理的范围。可见,数字填图野外数据采集过程中形
成了大量的照片、影像、录音、文本等,以及室内综合分析整理过程形成的描述
信息(如路线小结)等,非结构化以及数据类型繁多等特征是非常明显的。
目前大数据处理技术有很多,单从其来源来看主要分为三种:
①开源大数据生态圈。Hadoop HDFS、HadoopMapReduce,HBase、Hive 渐
次诞生,早期 Hadoop 生态圈逐步形成且用户较多。Hypertable 存在于 Hadoop 生
态圈之外,用户较少。目前常用的是 NoSQL、membase、MongoDB。
② 商 用 大 数 据 生态圈。一体机数据库 / 数据仓库包括 IBM PureData、
OracleExadata、SAP Hana 等;数据仓库包括 TeradataAsterData、EMC GreenPlum、
HPVertica 等;数据集市包括 QlikView、Tableau 以及国内的 Yonghong Data Mart。
③混合大数据生态圈。Hortonworks 的 HDP2、Cloudera 的 CDH4(Cloudera-
Distribution Including Apache Hadoop)、MapR(M3 免费,M5,M7)。
56

