Page 213 - “互联网+”背景下政务工作信息化研究与探索
P. 213

第八章  基于云计算的电子政务信息管理


             台— Hadoop,是目前在互联网使用广泛的一种云计算支撑架构,借助于

             Hadoop,程序员可以轻松地编写分布式并行程序,将其运行于大型计算机集群
             上,完成海量数据的计算。Hadoop对硬件资源要求宽松,可以在大量廉价的硬
             件设备组成的集群上运行应用程序,构建一个具有高可靠性和良好扩展性的并行
             分布式系统。这些特点非常适合选择为电子政务信息大数据云计算的开发和使用

             平台,提供电子政务的支撑软件服务和应用功能服务。
                 Hadoop的HDFS(Hadoop Distributed File System),Hadoop分布式文件系

             统、MapReduc编程模型和HBase分布式数据库是其3大核心技术,Hive和Pig分别
             是基于Hadoop的数据仓库工具和大规模数据分析工具。
                 1.MapReduce大数据处理框架

                 MapReduce采用基于能够接受其他函数作为参数的高阶函数完成程序开
             发,2个最常用的内置高阶函数是map和reduce,MapReduce的执行框架能自行
             协调map与reduce,并将其应用于在商业服务器硬件平台上并行处理海量数据,

             MapReduce计算过程如图8-2所示。由此,MapReduce可以看作是:一个如上所述
             的函数式编程语言、能够协调运行基于MapReduce思想开发的程序的运行框架、
             编程模型和执行框架的实现。






























                                     图 8-2 Map Reduce 计算过程


                                                                                    201
   208   209   210   211   212   213   214   215   216   217   218