Page 94 - 测绘新技术的理论与实践研究

P. 94

测绘新技术的理论与实践研究

存储海量原始地质数据文档时，将存放到分布式文件系统 HDFS/ HDFS2 中。大

数据资源层主要负责对数据文件进行并行提取、加载和转换，并将零散的数据
文件快速、准确、有序地存储到 HDFS2 大数据文件存储系统中。在大数据资源
层，为了能够快速地将成果文件存放到大数据存储介质中，采用 Sqoop、Avro 和
Flume 等主流的大数据存取工具来提高存储效率。

2. 汇聚层
汇聚层主要负责对文件数据进行快速获取，将原始文档重新组织后存放在分

布式实时访问数据库 HBase 中。
在对主报告、附图、附表、多媒体等各种类型海量原始地质成果资料文档进
行存储时，将存放到分布式文件系统 HDFS2 中。为了对文件数据进行快速获取，
将原始文档重新组织后存放在分布式实时访问数据库 HBase 中。其中，附图、
附表、附件等文件均单独存放，主文件则按章节分开存储。同时对存储在 HBase

中的数据建立索引，存放到分布式缓存 Memcached 或 Redis 中。这样只需从内
存中获取索引进行查找，可以极大地减少磁盘的 I/O 工作，便于下一步进行数据

挖掘时快速检索定位文件。
3. 数据挖掘与分析层
在对地质数据文档中所蕴含的大数据进行分析处理前，首先需要用到地质领
域语料库和文本搜索框架 Lucene 对地质数据文档进行分词处理。作为专用型语

料库，地质语料库是专门为地学领域的科研、教学以及语言比较研究而收集的文
本集合，然后在 Mahout2 框架中进行数据挖掘。Mahout 是一个机器学习的分布
式计算框架，提供包括聚类、分类、推荐过滤等在内的可扩展的机器学习领域经

典算法。利用 Mahout 可以将机器学习中的多种算法有效地扩展到 Hadoop 集群
平台上，通过与第二代 Hadoop 系统中的资源管理与计算调度框架 Yarn 结合，可
是实现海量数据的快速挖掘与并行处理，从中获取用户所需的地学信息知识并进
行分析结果的可视化展示，为上层基于大数据环境支撑的地学信息综合应用提供

决策支持。
4. 大数据应用层

通过对海量地学信息数据的存储组织与分析挖掘，可以利用大数据分析结果，
为客户提供多种形式的应用服务。如面向地学问题求解，依托大数据处理技术可
对用户提出的地学问题进行智能化分析处理，将其转化为地学问题求解任务，进

89 90 91 92 93 94 95 96 97 98 99