Page 156 - 大数据背景下网络安全问题研究
P. 156

大数据背景下网络安全问题研究
                    Research on Network Security Issues under the Background of Big Data


                  3.网页分析算法
                  网页分析算法可以归纳为基于网络拓扑、基于网页内容和基于用户访问行为三种
             类型。
                  (1)拓扑分析算法
                  基于网页之间的链接,通过已知的网页或数据,来对与其有直接或间接链接关系

             的对象(可以是网页或网站等)作出评价的算法。又分为网页粒度、网站粒度和网页
             块粒度这三种。
                  ①网页(Web page)粒度的分析算法

                  Page Rank和HITS算法是最常见的链接分析算法,两者都是通过对网页间链接度
             的递归和规范化计算,得到每个网页的重要度评价。Page Rank算法虽然考虑了用户
             访问行为的随机性和Sink网页的存在,但忽略了绝大多数用户访问时带有目的性,即
             网页和链接与查询主题的相关性。针对这个问题,HITS算法提出了两个关键的概念:

             权威型网页(authority)和中心型网页(hub)。
                  基于链接的抓取的问题是相关页面主题团之间的隧道现象,即很多在抓取路径上
             偏离主题的网页也指向目标网页,局部评价策略中断了在当前路径上的抓取行为。文

             献提出了一种基于反向链接(Back Link)的分层式上下文模型(Context Model),用
             于描述指向目标网页一定物理跳数半径内的网页拓扑图的中心Layer0为目标网页,将
             网页依据指向目标网页的物理跳数进行层次划分,从外层网页指向内层网页的链接称
             为反向链接。
                  ②网站粒度的分析算法

                  网站粒度的资源发现和管理策略也比网页粒度的更简单有效。网站粒度的爬虫抓
             取的关键之处在于站点的划分和站点等级(Site Rank)的计算。Site Rank的计算方法
             与Page Rank类似,但是需要对网站之间的链接作一定程度抽象,并在一定的模型下

             计算链接的权重。
                  网站划分情况分为按域名划分和按IP地址划分两种。文献讨论了在分布式情况
             下,通过对同一个域名下不同主机、服务器的IP地址进行站点划分,构造站点图,利
             用类似Page Rank的方法评价Site Rank。同时,根据不同文件在各个站点上的分布情

             况,构造文档图,结合Site Rank分布式计算得到Doc Rank。文献证明,利用分布式的
             Site Rank计算,不仅大大降低了单机站点的算法代价,而且克服了单独站点对整个网
             络覆盖率有限的缺点。附带的一个优点是,常见Page Rank造假难以对Site Rank进行
             欺骗。

                  ③网页块粒度的分析算法
                  在一个页面中,往往含有多个指向其他页面的链接,这些链接中只有一部分是


             • 144 •
   151   152   153   154   155   156   157   158   159   160   161