Page 104 - 计算机应用软件开发技术研究
P. 104
计算机应用软件开发技术研究
Research on Computer Application Software Development Technology
聚类以及如何使得聚类算法运行结束的准则。
(三)移动用户行为分析系统的构建方法
1.移动用户行为分析系统的总体架构
基于移动用户行为系统的前瞻性、具备较高的运行效率、易于日常维护和测
试、遵循开放式架构、安全的设计原则,设计的移动用户行为分析系统总体架构
中包含对外服务层、专题分析层、存储数据层、数据分析层以及数据源层。数据
源层主要为行为分析系统提供数据,系统获得的原始数据主要包含互联网数据、
综合资源、CRM 系统、信令监测系统、A 口信令系统以及经营分析系统。数据
分析层其作用是对从数据源层采集的数据进行深入分析。对外服务层主要是为企
业管理层提供决策支持以及精准的营销支撑。
2.行为分析系统平台环境的搭建
(1)Hadoop
Hadoop 这种分布式系统具有良好可扩展性和高度可靠性的,为应用程序提
供了稳定可靠的接口来构建分布式系统,这也决定了超大规模的数据用 Hadoop
来处理是最合适不过。Hadoop 平台主要由 MapReduce、HDFS、列式数据库
Hbase、SQL 解析引擎 Hive 和分布式应用程序协调系统 ZooKeeper 等组成。
HDFC 分为客户端、主控节点(Namenode)和数据节点(Datanode)。数据节点
一般在本地文件系统上存储文件系统的元数据,通过顶起的心跳报文将所有数据
块信息发送给数据节点,主要负责数据块的复制信息、集群地配置信息、文件的
命名空间等。
(2)DNSmasq
在行为分析系统中需要根据用户访问的内容来进行分类,因此需要抓取公网
上大量的网页信息,DNSmasq 是将 DHCP 与 DNS 相结合,DNS 可以正常解析
DHCP 所分配的地址。使用 DNSmasq 工具的域名缓存主要用在 Internet 网页内容
爬取的时候,用在要为 Hadoop 各节点之间提供自定义域名解析的时候。
(3)Hive
SQL 查询通过运行在工作站上的 Hive,被转换为一系列在 Hadoop 集群上
运行的 MapReduce 作业。Hive 以表的形式组织数据,给这些数据赋予结构,并
以表的形式存储在 HDFS 上。提取、转换和加载海量数据都可以通过 Hive 来实
现。本行为分析系统中设计通过 Hive 对 Hadoop 中的 MapReduce 进行调用,来
·92·

