Page 96 - 测绘新技术的理论与实践研究
P. 96

测绘新技术的理论与实践研究

                目前地质调查信息网格平台所发布的数据已达 1TB 以上,元数据超过 5 万条,

            涉及 8 大类别 247 个专题。成果资料数据种类繁杂,内容复杂,存储方式简单,
            主要以文件目录形式分散存储,很难进行信息共享和挖掘数据之间的相关性。
                (2)地学信息网站获取
                主要通过网络爬虫(如:Apache Lucene 子项目 Nutch),从地学信息网站获

            取有用的地学信息。
                2. 大数据预处理工具

                采用 Avro 作为数据序列化工具,将已有的地质成果数据或地学信息网站上
            的有用的地质资料转化成便于传输的格式,存储到地调网格大数据的存储介质中。
                3. 非结构化数据有序化组织管理
                采用 Avro 作为数据序列化工具,将已有的地质成果数据和地学信息网站上

            的有用的地质资料转化成便于传输的格式,存储到地质调查信息网格大数据的存
            储介质中。为了满足高并发、低延时、交互式处理的需求,需要一个分布式并行
            存取的数据库来对这些资源进行组织和管理。

                (二)数据资源汇聚与快速发现技术
                为了提高系统的高并发读写数,实现海量数据的高效率存储和访问、达到数
            据库的高可扩展性和高可用性的目标,非结构化数据资源汇聚是关键。
                主要采用 Redis 存储系统和图数据库等关键技术:

                1.Redis
                Redis 是一个 key-value 存储系统。和 Memcached 相比,它支持存储的 value
            类型相对更多,包括字符串 string、链表 list、集合 set、有序集合 zset(sorted

            set)和哈希类型 hash。这些数据类型都支持 push/pop、add/remove 及取交集、并
            集和差集等丰富的操作,而且这些操作都是原子性的。在此基础上,redis 支持
            多种排序方式。与另一种分布式缓存 Memcached 相比,支持更多的数据类型,
            并且具有持久化机制,这样可以保证系统有更高的容错性。

                2.GraphDB
                图数据库 GraphDB 的基本含义是以“图”这种数据结构存储和查询数据。

            图数据库 GraphDB 的基本存储单元为节点、关系、属性,其基本数据模型很简单:
            由边和节点相互连接形成一个图结构。在图数据库中遍历关系非常迅速,比如用
            户提交一个地质成果资料查询任务,通过建立的关系,可以迅速找到与该资料相


            84
   91   92   93   94   95   96   97   98   99   100   101