Page 95 - 测绘新技术的理论与实践研究
P. 95
第二章 云计算下 GIS 数据信息服务关键技术研究
而在大数据平台中将地学问题求解任务转化为并行任务执行,最后将执行结果返
回给客户。
通过对大数据的分析挖掘,从中获取用户所需的地学信息知识并进行分析结
果的可视化展示,可为上层基于大数据环境支撑的地学信息综合应用提供决策
支持。
(二)大数据处理技术流程
首先对地学信息数据的文档大数据进行预处理,将已有文档按照一定的数据
结构进行序列化,存储到分布式文件系统中。然后对数据进行格式转换,将数据
并行发布到分布式数据库中进行重新组织,并根据数据的逻辑结构利用大数据缓
存技术,构建可高速访问的数据索引层。同时对存放在分布式文件系统中的数据,
利用文本提取工具提取出来,建立全文索引,存放在分布式数据库中,供文本数
据分析和挖掘。用户可以通过浏览器,提交领域问题,通过智能化分析处理,得
出相应的解决方案。
地质信息服务平台作为分布式、云 GIS 架构的框架,大数据处理模型由上载
数据,内容提取,内容库,索引创建,数据分析,界面展示等部分组成,其中涉
及的技术有 Hadoop、Hbase、Lucene、Tika、Mathout、MapReduce 等。
二、大数据框架的数据集成服务关键技术
地调信息网格大数据处理流程中涉及基于大数据框架的非结构化多样化数据
有序化组织管理的关键技术主要包括非结构化数据存储、资源汇聚、框架对接等
关键技术研究。
利用这些技术,对非结构化多样化数据进行存储、组织,经过一系列的变换、
分析和挖掘,从海量数据中获取有价值的信息用于地学分析和成果评估,并通过
数据可视化技术来构建地质调查问题求解环境,进一步实现上层的智能化服务
应用。
(一)非结构化地质数据存储关键技术
1. 大数据预处理技术
(1)大数据来源
目前研究中的大数据主要来源于以下几种途径:一是成果资料数据。成果类
型涵盖各种终端采集及业务流程数据,既包括地质图件、遥感、地质灾害、地质
环境动态监测、成果报告,也有审批、监管等业务数据,还有大量的舆情数据。
83

