Page 97 - 测绘新技术的理论与实践研究
P. 97
第二章 云计算下 GIS 数据信息服务关键技术研究
关的其他地质成果资料。
在设计中,采用 Redis 分布式缓存数据库实现资源汇聚层的设计,以 Neo4j
图数据库表达地质资料成果之间的复杂关系。
(三)大数据应用层与信息平台框架对接
为了对文件数据进行快速获取,将原始文档重新组织后存放在分布式实时访
问数据库 HBase 中。其中,附图、附表、附件等文件均单独存放,主文件则按
章节分开存储。同时对存储在 HBase 中的数据建立索引,形成资源快照,存放
到分布式缓存 Memcached 或 Redis 中。这样只需从内存中获取索引进行查找,
就可以极大地减少磁盘的 I/O 工作,便于下一步进行数据挖掘时快速检索定位文
件。当对填图数据资料文档进行更新操作时,都会生成一个带时间戳的资源快照。
这些资源快照可以持久化到分布式文件系统中,提高资源快照的可用性。同时顺
利完成大数据资源层和汇聚层的对接。
三、非结构化数据挖掘与分析
通过大数据预处理、存储与组织、快速发现与检索,以及大数据的分布式存
储和快速访问等工作,实现海量数据的快速挖掘与并行处理。
在对地质成果资料文档中所蕴含的大数据进行分析处理前,首先需要用到地
质领域语料库和全文检索引擎框架 Lucene 对地质文档进行索引处理。作为专用
型语料库,地质语料库是专门为地学领域的科研、教学以及语言比较研究而收集
的文本集合,目前地质领域的中文语料库还未完全建立。然后在 Mahout2 框架中
进行数据挖掘,Mahout 是一个机器学习的分布式计算框架,提供了一些可扩展
的机器学习领域经典算法的实现,包括聚类、分类、推荐过滤等。利用 Mahout2
可以将机器学习中的多种算法有效地扩展到 Hadoop 集群平台上,通过与第二代
Hadoop 系统中的资源管理与计算调度框架 Yarn 结合,可是实现海量数据的快速
挖掘与并行处理,从中获取用户所需的地学信息知识并进行分析结果的可视化展
示,为上层基于大数据环境支撑的地学信息综合应用提供决策支持。
85

