Page 97 - 测绘新技术的理论与实践研究

P. 97

第二章云计算下 GIS 数据信息服务关键技术研究

关的其他地质成果资料。

在设计中，采用 Redis 分布式缓存数据库实现资源汇聚层的设计，以 Neo4j
图数据库表达地质资料成果之间的复杂关系。
（三）大数据应用层与信息平台框架对接
为了对文件数据进行快速获取，将原始文档重新组织后存放在分布式实时访

问数据库 HBase 中。其中，附图、附表、附件等文件均单独存放，主文件则按
章节分开存储。同时对存储在 HBase 中的数据建立索引，形成资源快照，存放
到分布式缓存 Memcached 或 Redis 中。这样只需从内存中获取索引进行查找，
就可以极大地减少磁盘的 I/O 工作，便于下一步进行数据挖掘时快速检索定位文

件。当对填图数据资料文档进行更新操作时，都会生成一个带时间戳的资源快照。
这些资源快照可以持久化到分布式文件系统中，提高资源快照的可用性。同时顺
利完成大数据资源层和汇聚层的对接。

三、非结构化数据挖掘与分析

通过大数据预处理、存储与组织、快速发现与检索，以及大数据的分布式存
储和快速访问等工作，实现海量数据的快速挖掘与并行处理。
在对地质成果资料文档中所蕴含的大数据进行分析处理前，首先需要用到地

质领域语料库和全文检索引擎框架 Lucene 对地质文档进行索引处理。作为专用
型语料库，地质语料库是专门为地学领域的科研、教学以及语言比较研究而收集
的文本集合，目前地质领域的中文语料库还未完全建立。然后在 Mahout2 框架中

进行数据挖掘，Mahout 是一个机器学习的分布式计算框架，提供了一些可扩展
的机器学习领域经典算法的实现，包括聚类、分类、推荐过滤等。利用 Mahout2
可以将机器学习中的多种算法有效地扩展到 Hadoop 集群平台上，通过与第二代
Hadoop 系统中的资源管理与计算调度框架 Yarn 结合，可是实现海量数据的快速
挖掘与并行处理，从中获取用户所需的地学信息知识并进行分析结果的可视化展

示，为上层基于大数据环境支撑的地学信息综合应用提供决策支持。

92 93 94 95 96 97 98 99 100 101 102