Page 158 - 大数据背景下网络安全问题研究

P. 158

大数据背景下网络安全问题研究
Research on Network Security Issues under the Background of Big Data

抓取电子邮件地址（通常用于垃圾邮件）。
一个网络蜘蛛就是一种机器人，或者软件代理。大体上，它从一组要访问的URL
链接开始，可以称这些URL为种子。爬虫访问这些链接，它辨认出这些页面的所有超
链接，然后添加到这个URL列表，可以称作检索前沿。这些URL按照一定的策略反复
访问。

（1）爬行策略
下述的三种网络特征，造成了设计网页爬虫抓取策略变得很难：一是巨大的数据
量；二是快速的更新频率；三是动态页面的产生。它们三个特征一起产生了很多种类

的爬虫抓取链接。
巨大的数据量暗示了爬虫，在给定的时间内，只可以抓取所下载网络的一部分，
所以它需要对它的抓取页面设置优先级；快速的更新频率说明在爬虫抓取下载某网站
一个网页的时候，很有可能在这个站点又有新的网页被添加进来，或者这个页面被更

新或者删除了。
最近新增的很多页面都是通过服务器端脚本语言产生的，无穷的参数组合也增加
了爬虫抓取的难度，只有一小部分这种组合会返回一些独特的内容。例如，一个很小

照片存储库仅仅通过get方式可能提供就给用户三种操作方式。如果这里存着四种分类
方式，三种缩略图方式，两种文件格式，和一个禁止用户提供内容的选项，那么同样
的内容就可以通过48种方式访问。这种数学组合给网络爬虫创造的难处就是，为了获
取不同的内容，他们必须筛选无穷仅有微小变化的组合。
正如爱德华等人所说的：“用于检索的带宽不是无限的，也不是免费的；所以，

如果引入衡量爬虫抓取质量或者新鲜度的有效指标的话，不但伸缩性，连有效性都将
变得十分必要（爱德华等人，2001年）。”一个爬虫就必须小心选择下一步要访问什
么页面。网页爬虫的行为通常是四种策略组合的结果：第一，选择策略，决定所要下

载的页面；第二，重新访问策略，决定什么时候检查页面的更新变化；第三，平衡礼
貌策略，指出怎样避免站点超载；第四，并行策略，指出怎么协同达到分布式抓取的
效果。
①选择策略

就现有网络资源的大小而言，即使很大的搜索引擎也只能获取网络上可得到资源
的一小部分。由劳伦斯河盖尔斯共同做的一项研究指出，没有一个搜索引擎抓取的内
容达到网络的16%（劳伦斯和盖尔斯，2001）。网络爬虫通常仅仅下载网页内容的一
部分，但是大家都还是强烈要求下载的部分包括最多的相关页面，而不仅仅是一个随

机的简单的站点。
这就要求一个公共标准来区分网页的重要程度，一个页面的重要程度与他自身的

• 146 •

153 154 155 156 157 158 159 160 161 162 163