Page 156 - 大数据背景下网络安全问题研究
P. 156
大数据背景下网络安全问题研究
Research on Network Security Issues under the Background of Big Data
3.网页分析算法
网页分析算法可以归纳为基于网络拓扑、基于网页内容和基于用户访问行为三种
类型。
(1)拓扑分析算法
基于网页之间的链接,通过已知的网页或数据,来对与其有直接或间接链接关系
的对象(可以是网页或网站等)作出评价的算法。又分为网页粒度、网站粒度和网页
块粒度这三种。
①网页(Web page)粒度的分析算法
Page Rank和HITS算法是最常见的链接分析算法,两者都是通过对网页间链接度
的递归和规范化计算,得到每个网页的重要度评价。Page Rank算法虽然考虑了用户
访问行为的随机性和Sink网页的存在,但忽略了绝大多数用户访问时带有目的性,即
网页和链接与查询主题的相关性。针对这个问题,HITS算法提出了两个关键的概念:
权威型网页(authority)和中心型网页(hub)。
基于链接的抓取的问题是相关页面主题团之间的隧道现象,即很多在抓取路径上
偏离主题的网页也指向目标网页,局部评价策略中断了在当前路径上的抓取行为。文
献提出了一种基于反向链接(Back Link)的分层式上下文模型(Context Model),用
于描述指向目标网页一定物理跳数半径内的网页拓扑图的中心Layer0为目标网页,将
网页依据指向目标网页的物理跳数进行层次划分,从外层网页指向内层网页的链接称
为反向链接。
②网站粒度的分析算法
网站粒度的资源发现和管理策略也比网页粒度的更简单有效。网站粒度的爬虫抓
取的关键之处在于站点的划分和站点等级(Site Rank)的计算。Site Rank的计算方法
与Page Rank类似,但是需要对网站之间的链接作一定程度抽象,并在一定的模型下
计算链接的权重。
网站划分情况分为按域名划分和按IP地址划分两种。文献讨论了在分布式情况
下,通过对同一个域名下不同主机、服务器的IP地址进行站点划分,构造站点图,利
用类似Page Rank的方法评价Site Rank。同时,根据不同文件在各个站点上的分布情
况,构造文档图,结合Site Rank分布式计算得到Doc Rank。文献证明,利用分布式的
Site Rank计算,不仅大大降低了单机站点的算法代价,而且克服了单独站点对整个网
络覆盖率有限的缺点。附带的一个优点是,常见Page Rank造假难以对Site Rank进行
欺骗。
③网页块粒度的分析算法
在一个页面中,往往含有多个指向其他页面的链接,这些链接中只有一部分是
• 144 •

