Page 105 - 计算机应用软件开发技术研究
P. 105
第三章 软件工程与大数据研究
统计海量数据。
(4)ZooKeeper
ZooKeeper 是一个应用程序协调服务系统,它是大型的、分布式的,可实现
组服务、名字服务、配置维护、分布式同步等功能,是 Hbase 和 Hadoop 的重要
组件,通过 ZooKeeper 只需给用户提供简单易用的接口即可,因为 ZooKeeper 可
以封装复杂的关键服务。
(5)Haproxy
Haproxy 采取分段式配置模式,常用的负载均衡算法有动态调度算法和静态
调度算法。本书设计的移动行为分析系统式是在 Lable 程序中调用分类器打标签
时,通过 HTTP 请求,把请求分发给各个分类器,实现请求的负载。
3.数据分析平台总体架构设计
根据需求分析,移动用户行为分析系统主要可以分为、移动用户日志下载程
序模块、任务统计调度程序、移动用户日志处理程序、结果统计入库程序模块、
日志分类程序模块等。移动用户日志分类程序通过在下载分析和知识库相匹配等
方法,来给日志文件进行分类。
移动用户日志下载程序模块主要从指定的文件传输服务器上下载原始话单,
统一处理为一致格式的待打标签的文档,它们首先要经过筛选和提取、最后将
他们存入 Hadoop 的指定位置,还可以下载用户流量使用的信息除了 GPRS 日志
外以及用户的一些基础数据集。在下载移动用户大数据日志时,如果要下载 FTP
服务器端的日志,此时要多台服务器的合作协同,此时可以采用 ZooKeeper 技
术,ZooKeeper 作为公共标记资源存储空间可以实现多台平行进行下载,实现快
速查询,并保持数据的高度一致性,可减少 HDFS 文件系统压力。任务统计调
度程序通过定时执行配置的脚本来执行统计任务,从移动用户前一天的上网日志
开始统计,每间隔一段时间就扫描任务,被统计出的任务就要被读取,并判断每
个任务的前置任务的数据是否生成,判断是否存在任务的结构分区。如果符合条
件,就把任务提交到 Hadoop 的任务队列中。会产生结果分区相应的数据,如果
任务顺利运行之后。所有任务下次再被扫描的时候,因为有了结果分区的数据就
认为已经完成了本任务。
移动用户日志处理程序把待处理的话单文件从分布式文件系统 HDFS 中获取
出来,并通过 classify 程序的接口为每天的记录打上标签。通过 haproxy 在同一
·93·

