Page 158 - 大数据背景下网络安全问题研究
P. 158

大数据背景下网络安全问题研究
                    Research on Network Security Issues under the Background of Big Data


             抓取电子邮件地址(通常用于垃圾邮件)。
                  一个网络蜘蛛就是一种机器人,或者软件代理。大体上,它从一组要访问的URL
             链接开始,可以称这些URL为种子。爬虫访问这些链接,它辨认出这些页面的所有超
             链接,然后添加到这个URL列表,可以称作检索前沿。这些URL按照一定的策略反复
             访问。

                  (1)爬行策略
                  下述的三种网络特征,造成了设计网页爬虫抓取策略变得很难:一是巨大的数据
             量;二是快速的更新频率;三是动态页面的产生。它们三个特征一起产生了很多种类

             的爬虫抓取链接。
                  巨大的数据量暗示了爬虫,在给定的时间内,只可以抓取所下载网络的一部分,
             所以它需要对它的抓取页面设置优先级;快速的更新频率说明在爬虫抓取下载某网站
             一个网页的时候,很有可能在这个站点又有新的网页被添加进来,或者这个页面被更

             新或者删除了。
                  最近新增的很多页面都是通过服务器端脚本语言产生的,无穷的参数组合也增加
             了爬虫抓取的难度,只有一小部分这种组合会返回一些独特的内容。例如,一个很小

             照片存储库仅仅通过get方式可能提供就给用户三种操作方式。如果这里存着四种分类
             方式,三种缩略图方式,两种文件格式,和一个禁止用户提供内容的选项,那么同样
             的内容就可以通过48种方式访问。这种数学组合给网络爬虫创造的难处就是,为了获
             取不同的内容,他们必须筛选无穷仅有微小变化的组合。
                  正如爱德华等人所说的:“用于检索的带宽不是无限的,也不是免费的;所以,

             如果引入衡量爬虫抓取质量或者新鲜度的有效指标的话,不但伸缩性,连有效性都将
             变得十分必要(爱德华等人,2001年)。”一个爬虫就必须小心选择下一步要访问什
             么页面。网页爬虫的行为通常是四种策略组合的结果:第一,选择策略,决定所要下

             载的页面;第二,重新访问策略,决定什么时候检查页面的更新变化;第三,平衡礼
             貌策略,指出怎样避免站点超载;第四,并行策略,指出怎么协同达到分布式抓取的
             效果。
                  ①选择策略

                  就现有网络资源的大小而言,即使很大的搜索引擎也只能获取网络上可得到资源
             的一小部分。由劳伦斯河盖尔斯共同做的一项研究指出,没有一个搜索引擎抓取的内
             容达到网络的16%(劳伦斯和盖尔斯,2001)。网络爬虫通常仅仅下载网页内容的一
             部分,但是大家都还是强烈要求下载的部分包括最多的相关页面,而不仅仅是一个随

             机的简单的站点。
                  这就要求一个公共标准来区分网页的重要程度,一个页面的重要程度与他自身的


             • 146 •
   153   154   155   156   157   158   159   160   161   162   163