Page 152 - 大数据背景下网络安全问题研究
P. 152
大数据背景下网络安全问题研究
Research on Network Security Issues under the Background of Big Data
2.聚焦网络爬虫
聚焦网络爬虫(Focused Crawler),又称主题网络爬虫(Topical Crawler),是指
选择性地爬行那些与预先定义好的主题相关页面的网络爬虫。和通用网络爬虫相比,
聚焦爬虫只需要爬行与主题相关的页面,极大地节省了硬件和网络资源,保存的页面
也由于数量少而更新快,还可以很好地满足一些特定人群对特定领域信息的需求。
聚焦网络爬虫和通用网络爬虫相比,增加了链接评价模块以及内容评价模块。聚
焦爬虫爬行策略实现的关键是评价页面内容和链接的重要性,不同的方法计算出的重
要性不同,由此导致链接的访问顺序也不同。
(1)基于内容评价的爬行策略
DeBra将文本相似度的计算方法引入网络爬虫中,提出了Fish Search算法,它将
用户输入的查询词作为主题,包含查询词的页面被视为与主题相关,其局限性在于
无法评价页面与主题相关度的高低。Herseovic对Fish Search算法进行了改进,提出了
Shark Search算法,利用空间向量模型计算页面与主题的相关度大小。
(2)基于链接结构评价的爬行策略
Web页面作为一种半结构化文档,包含很多结构信息,可用来评价链接重要性。
Page Rank算法最初用于搜索引擎信息检索中对查询结果进行排序,也可用于评价链
接重要性,具体做法就是每次选择Page Rank值较大页面中的链接来访问。另一个利
用Web结构评价链接价值的方法是HITS方法,它通过计算每个已访问页面的Authority
权重和Hub权重,并以此决定链接的访问顺序。
(3)基于增强学习的爬行策略
Rennie和Mc Callum将增强学习引入聚焦爬虫,利用贝叶斯分类器,根据整个网
页文本和链接文本对超链接进行分类,为每个链接计算出重要性,从而决定链接的访
问顺序。
(4)基于语境图的爬行策略
Diligenti等人提出了一种通过建立语境图(Context Graphs)学习网页之间的相关
度,训练一个机器学习系统,通过该系统可计算当前页面到相关Web页面的距离,距
离越近的页面中的链接优先访问。印度理工大学(IIT)和 IBM 研究中心的研究人员
开发了一个典型的聚焦网络爬虫。该爬虫对主题的定义既不是采用关键词也不是加权
矢量,而是一组具有相同主题的网页。它包含两个重要模块:一个是分类器,用来计
算所爬行的页面与主题的相关度,确定是否与主题相关;另一个是净化器,用来识别
通过较少链接连接到大量相关页面的中心页面。
3.增量式网络爬虫
增量式网络爬虫(Incremental Web Crawler)是指对已下载网页采取增量式更新
• 140 •

