Page 69 - 测绘新技术的理论与实践研究
P. 69
第二章 云计算下 GIS 数据信息服务关键技术研究
大数据研究领域主要围绕数据采集、预处理、存储、分析挖掘及可视化等流
程和环节开展研究。其中,数据采集方法主要包括:
①系统日志的采集方法。提供基于互联网的海量数据采集工具,均采用分
布式架构,能够满足每秒数百兆的采集和传输要求,如 Hadoop 的 Chukwa、
Cloudera 的 Flume 等。
②网络数据的采集方法。通过网络爬虫或网站公开的 API 等方式从网站上获
取非结构化数据信息。可以将大量非结构化数据从网页中抽取出来,以结构化的
方式存储为统一的本地数据文件,支持图像、音视频等媒体文件或附件的采集,
附件与正文可自动关联。
③其他数据的采集方法。对于生产经营数据或科学研究数据等保密要求程度
较高的数据,可通过特定的服务接口进行数据采集。
④序列化工具。序列化系统比较常用的如 Google 的 Protocol Buffers,
Facebook 的 Thrift,Hadoop 的 Avro 等。
存储及处理技术:作为大数据最主流技术之一的 Hadoop(The Hadoop Project
Ecosystem),目前已经从 1.0 发展到 2.0 版本,1.0 版本下的 MapReduce 框架通过
升级形成 Apache YARN 框架,扩展后,2.0 版本的 Hadoop 中可应用的软件种类
更多,应用程度更深,并解决单个 NameNode 失效以及 MapReduce 的适应性。
YARN(MR2)是改进的 MR,MR1.0 最大的问题会对 jobtracker 的负担过重,
导致扩展性(目前普遍认为 4000 个结点是其上限,大概是 yahoo 的研究结果,
其实际部署也到达该数字)、集群的利用效率等方面都不好,YARN框架优势包括:
极大地减少 Resource Manager 的资源消耗,并且让监测每一个工作子任务状
态的程序分布式化,提高安全性。同样,由于 Application Master 是一个可变更
的部分,用户可以在 Hadoop 集群中针对不同的编程模型写自己的 AppMst。
Yarn 为了实现资源隔离而提出一个 Container 框架,从而解决 map slot/reduce
slot 分开造成集群资源闲置的问题。
Hadoop 系列产品因其具备可拓展、经济、可靠、高效的优点因此在大数据
分布式处理、分析等方面得到广泛运用,目前 Hadoop 框架已广泛应用于物联网、
医疗、能源、电信等行业,如阿里巴巴的 ISearch 搜索引擎、百度日志分析与挖掘、
Facebook 日志分析与挖掘、Twitter 微博日志分析管理、雅虎广告投放与网页搜索、
中国电信的数据 ETL 采集与预处理、能源行业 Opower 石油储量评价等。
57

