Page 157 - 大数据背景下网络安全问题研究
P. 157
» 第六章 网络数据采集及安全研究
指向主题相关网页的,或根据网页的链接锚文本表明其具有较高重要性。但是,在
Page Rank和HITS算法中,没有对这些链接作区分,因此常常给网页分析带来广告等
噪声链接的干扰。在网页块级别(Block level)进行链接分析的算法的基本思想是通
过VIPS网页分割算法将网页分为不同的网页块(page block),然后对这些网页块建
立page to block和block to page的链接矩阵,分别记为Z和X。于是,在page to page图上
的网页块级别的Page Rank为 W(p)=X×Z;在block to block图上的Block Rank为 W
(b)=Z×X。已经有人实现了块级别的Page Rank和HITS算法,并通过实验证明,效
率和准确率都比传统的对应算法要好。
(2)网页内容分析算法
基于网页内容的分析算法指的是利用网页内容(文本、数据等资源)特征进行
的网页评价。一方面,网页的内容从原来的以超文本为主,发展到后来动态页面(或
称为Hidden Web)数据为主,后者的数据量约为直接可见页面数据(PIW,Publicly
Indexable Web)的400~500倍。另一方面,多媒体数据、Web Service等各种网络资源
形式也日益丰富。因此,基于网页内容的分析算法也从原来的较为单纯的文本检索方
法,发展为涵盖网页数据抽取、机器学习、数据挖掘、语义理解等多种方法的综合应
用。本节根据网页数据形式的不同,将基于网页内容的分析算法,归纳以下三类:第
一种针对以文本和超链接为主的无结构或结构很简单的网页;第二种针对从结构化的
数据源(如RDBMS)动态生成的页面,其数据不能直接批量访问;第三种针对的数
据介于第一和第二类数据之间,具有较好的结构,显示遵循一定模式或风格,且可以
直接访问。
基于文本的网页分析算法还包括纯文本分类与聚类算法和超文本分类和聚类
算法。
①纯文本分类与聚类算法
很大程度上借用了文本检索的技术。文本分析算法可以快速有效地对网页进行分
类和聚类,但是忽略了网页间和网页内部的结构信息,很少单独使用。
②超文本分类和聚类算法
根据网页链接网页的相关类型对网页进行分类,依靠相关联的网页推测该网页的
类型。
4.补充
这些处理被称为网络抓取或者蜘蛛爬行。很多站点,尤其是搜索引擎,都使用爬
虫提供最新的数据,它主要用于提供它访问过页面的一个副本,然后,搜索引擎就可
以对得到的页面进行索引,以提供快速的访问。蜘蛛也可以在web上用来自动执行一
些任务,如检查链接,确认html代码;也可以用来抓取网页上某种特定类型信息,如
• 145 •

