Page 213 - “互联网+”背景下政务工作信息化研究与探索
P. 213
第八章 基于云计算的电子政务信息管理
台— Hadoop,是目前在互联网使用广泛的一种云计算支撑架构,借助于
Hadoop,程序员可以轻松地编写分布式并行程序,将其运行于大型计算机集群
上,完成海量数据的计算。Hadoop对硬件资源要求宽松,可以在大量廉价的硬
件设备组成的集群上运行应用程序,构建一个具有高可靠性和良好扩展性的并行
分布式系统。这些特点非常适合选择为电子政务信息大数据云计算的开发和使用
平台,提供电子政务的支撑软件服务和应用功能服务。
Hadoop的HDFS(Hadoop Distributed File System),Hadoop分布式文件系
统、MapReduc编程模型和HBase分布式数据库是其3大核心技术,Hive和Pig分别
是基于Hadoop的数据仓库工具和大规模数据分析工具。
1.MapReduce大数据处理框架
MapReduce采用基于能够接受其他函数作为参数的高阶函数完成程序开
发,2个最常用的内置高阶函数是map和reduce,MapReduce的执行框架能自行
协调map与reduce,并将其应用于在商业服务器硬件平台上并行处理海量数据,
MapReduce计算过程如图8-2所示。由此,MapReduce可以看作是:一个如上所述
的函数式编程语言、能够协调运行基于MapReduce思想开发的程序的运行框架、
编程模型和执行框架的实现。
图 8-2 Map Reduce 计算过程
201

