Page 162 - 大数据背景下网络安全问题研究
P. 162

大数据背景下网络安全问题研究
                    Research on Network Security Issues under the Background of Big Data


             度,如果一个站点有超过10万的页面,即使我们拥有零延迟和无穷带宽的完美连接,
             它也会需要两个月的时间来下载整个站点,并且,这个服务器中的资源,只有一小部
             分可以使用。这似乎是不可以接受的。
                  Cho(Cho和Garcia-Molina,2003)使用10秒作为访问的间隔时间,WIRE爬虫
             (Baeza-Yates and Castillo,2002)使用15秒作为默认间隔。Mercator Web(Heydon

             和Najork,1999)爬虫使用了一种自适应的平衡策略:如果从某一服务器下载一个
             文档需要t秒钟,爬虫就等待10t秒的时间,然后开始下一个页面。Dill等人 (Dill et
             al.2002)使用1秒。

                  对于那些使用爬虫用于研究目的的,一个更详细的成本-效益分析是必要的,当
             决定去哪一个站点抓取,使用多快的速度抓取的时候,伦理的因素也需要考虑进来。
                  访问记录显示已知爬虫的访问间隔从20秒钟到3~4分钟不等。需要注意的是即使
             很礼貌,采取了所有的安全措施来避免服务器超载,还是会引来一些网络服务器管理

             员的抱怨的。Brin和Page注意到:运行一个针对超过50万服务器的爬虫,会产生很多
             的邮件和电话。这是因为有无数的人在上网,而这些人不知道爬虫是什么,因为这是
             他们第一次见到(Brin和Page,1998)。

                  (3)并行策略
                  一个并行爬虫是并行运行多个进程的爬虫。它的目标是最大化下载的速度,同时
             尽量减少并行的开销和下载重复的页面。为了避免下载一个页面两次,爬虫系统需要
             策略来处理爬虫运行时新发现的URL,因为同一个URL地址,可能被不同的爬虫进程
             抓到。

                  5.网络爬虫体系结构
                  一个爬虫不能像上面所说的,仅仅只有一个好的抓取策略,还需要有一个高度优
             化的结构。

                  设计一个短时间内,一秒下载几个页面的颇慢的爬虫是一件很容易的事情,而要
             设计一个使用几周可以下载百万级页面的高性能的爬虫,将会在系统设计,I/O和网
             络效率,健壮性和易用性方面遇到众多挑战。
                  网络爬虫是搜索引擎的核心,他们算法和结构上的细节被当作商业机密。当爬虫

             的设计发布时,总会有一些为了阻止别人复制工作而缺失的细节。人们也开始关注主
             要用于阻止主要搜索引擎发布他们的排序算法的“搜索引擎垃圾邮件”。
                  爬虫通常会执行几种类型的URL规范化来避免重复抓取某些资源。URL一般化也
             被称为URL标准化,指的是修正URL并且使其前后一致的过程。这里有几种一般化方

             法,包括转化URL为小写的,去除逗号(如‘.’‘..’等),对非空的路径,在末尾
             加反斜杠。


             • 150 •
   157   158   159   160   161   162   163   164   165   166   167