Page 162 - 大数据背景下网络安全问题研究
P. 162
大数据背景下网络安全问题研究
Research on Network Security Issues under the Background of Big Data
度,如果一个站点有超过10万的页面,即使我们拥有零延迟和无穷带宽的完美连接,
它也会需要两个月的时间来下载整个站点,并且,这个服务器中的资源,只有一小部
分可以使用。这似乎是不可以接受的。
Cho(Cho和Garcia-Molina,2003)使用10秒作为访问的间隔时间,WIRE爬虫
(Baeza-Yates and Castillo,2002)使用15秒作为默认间隔。Mercator Web(Heydon
和Najork,1999)爬虫使用了一种自适应的平衡策略:如果从某一服务器下载一个
文档需要t秒钟,爬虫就等待10t秒的时间,然后开始下一个页面。Dill等人 (Dill et
al.2002)使用1秒。
对于那些使用爬虫用于研究目的的,一个更详细的成本-效益分析是必要的,当
决定去哪一个站点抓取,使用多快的速度抓取的时候,伦理的因素也需要考虑进来。
访问记录显示已知爬虫的访问间隔从20秒钟到3~4分钟不等。需要注意的是即使
很礼貌,采取了所有的安全措施来避免服务器超载,还是会引来一些网络服务器管理
员的抱怨的。Brin和Page注意到:运行一个针对超过50万服务器的爬虫,会产生很多
的邮件和电话。这是因为有无数的人在上网,而这些人不知道爬虫是什么,因为这是
他们第一次见到(Brin和Page,1998)。
(3)并行策略
一个并行爬虫是并行运行多个进程的爬虫。它的目标是最大化下载的速度,同时
尽量减少并行的开销和下载重复的页面。为了避免下载一个页面两次,爬虫系统需要
策略来处理爬虫运行时新发现的URL,因为同一个URL地址,可能被不同的爬虫进程
抓到。
5.网络爬虫体系结构
一个爬虫不能像上面所说的,仅仅只有一个好的抓取策略,还需要有一个高度优
化的结构。
设计一个短时间内,一秒下载几个页面的颇慢的爬虫是一件很容易的事情,而要
设计一个使用几周可以下载百万级页面的高性能的爬虫,将会在系统设计,I/O和网
络效率,健壮性和易用性方面遇到众多挑战。
网络爬虫是搜索引擎的核心,他们算法和结构上的细节被当作商业机密。当爬虫
的设计发布时,总会有一些为了阻止别人复制工作而缺失的细节。人们也开始关注主
要用于阻止主要搜索引擎发布他们的排序算法的“搜索引擎垃圾邮件”。
爬虫通常会执行几种类型的URL规范化来避免重复抓取某些资源。URL一般化也
被称为URL标准化,指的是修正URL并且使其前后一致的过程。这里有几种一般化方
法,包括转化URL为小写的,去除逗号(如‘.’‘..’等),对非空的路径,在末尾
加反斜杠。
• 150 •

