Page 96 - 测绘新技术的理论与实践研究
P. 96
测绘新技术的理论与实践研究
目前地质调查信息网格平台所发布的数据已达 1TB 以上,元数据超过 5 万条,
涉及 8 大类别 247 个专题。成果资料数据种类繁杂,内容复杂,存储方式简单,
主要以文件目录形式分散存储,很难进行信息共享和挖掘数据之间的相关性。
(2)地学信息网站获取
主要通过网络爬虫(如:Apache Lucene 子项目 Nutch),从地学信息网站获
取有用的地学信息。
2. 大数据预处理工具
采用 Avro 作为数据序列化工具,将已有的地质成果数据或地学信息网站上
的有用的地质资料转化成便于传输的格式,存储到地调网格大数据的存储介质中。
3. 非结构化数据有序化组织管理
采用 Avro 作为数据序列化工具,将已有的地质成果数据和地学信息网站上
的有用的地质资料转化成便于传输的格式,存储到地质调查信息网格大数据的存
储介质中。为了满足高并发、低延时、交互式处理的需求,需要一个分布式并行
存取的数据库来对这些资源进行组织和管理。
(二)数据资源汇聚与快速发现技术
为了提高系统的高并发读写数,实现海量数据的高效率存储和访问、达到数
据库的高可扩展性和高可用性的目标,非结构化数据资源汇聚是关键。
主要采用 Redis 存储系统和图数据库等关键技术:
1.Redis
Redis 是一个 key-value 存储系统。和 Memcached 相比,它支持存储的 value
类型相对更多,包括字符串 string、链表 list、集合 set、有序集合 zset(sorted
set)和哈希类型 hash。这些数据类型都支持 push/pop、add/remove 及取交集、并
集和差集等丰富的操作,而且这些操作都是原子性的。在此基础上,redis 支持
多种排序方式。与另一种分布式缓存 Memcached 相比,支持更多的数据类型,
并且具有持久化机制,这样可以保证系统有更高的容错性。
2.GraphDB
图数据库 GraphDB 的基本含义是以“图”这种数据结构存储和查询数据。
图数据库 GraphDB 的基本存储单元为节点、关系、属性,其基本数据模型很简单:
由边和节点相互连接形成一个图结构。在图数据库中遍历关系非常迅速,比如用
户提交一个地质成果资料查询任务,通过建立的关系,可以迅速找到与该资料相
84

