Page 162 - 大数据背景下网络安全问题研究

P. 162

大数据背景下网络安全问题研究
Research on Network Security Issues under the Background of Big Data

度，如果一个站点有超过10万的页面，即使我们拥有零延迟和无穷带宽的完美连接，
它也会需要两个月的时间来下载整个站点，并且，这个服务器中的资源，只有一小部
分可以使用。这似乎是不可以接受的。
Cho（Cho和Garcia-Molina，2003）使用10秒作为访问的间隔时间，WIRE爬虫
（Baeza-Yates and Castillo，2002）使用15秒作为默认间隔。Mercator Web（Heydon

和Najork，1999）爬虫使用了一种自适应的平衡策略：如果从某一服务器下载一个
文档需要t秒钟，爬虫就等待10t秒的时间，然后开始下一个页面。Dill等人（Dill et
al.2002）使用1秒。

对于那些使用爬虫用于研究目的的，一个更详细的成本－效益分析是必要的，当
决定去哪一个站点抓取，使用多快的速度抓取的时候，伦理的因素也需要考虑进来。
访问记录显示已知爬虫的访问间隔从20秒钟到3~4分钟不等。需要注意的是即使
很礼貌，采取了所有的安全措施来避免服务器超载，还是会引来一些网络服务器管理

员的抱怨的。Brin和Page注意到：运行一个针对超过50万服务器的爬虫，会产生很多
的邮件和电话。这是因为有无数的人在上网，而这些人不知道爬虫是什么，因为这是
他们第一次见到（Brin和Page，1998）。

（3）并行策略
一个并行爬虫是并行运行多个进程的爬虫。它的目标是最大化下载的速度，同时
尽量减少并行的开销和下载重复的页面。为了避免下载一个页面两次，爬虫系统需要
策略来处理爬虫运行时新发现的URL，因为同一个URL地址，可能被不同的爬虫进程
抓到。

5.网络爬虫体系结构
一个爬虫不能像上面所说的，仅仅只有一个好的抓取策略，还需要有一个高度优
化的结构。

设计一个短时间内，一秒下载几个页面的颇慢的爬虫是一件很容易的事情，而要
设计一个使用几周可以下载百万级页面的高性能的爬虫，将会在系统设计，I/O和网
络效率，健壮性和易用性方面遇到众多挑战。
网络爬虫是搜索引擎的核心，他们算法和结构上的细节被当作商业机密。当爬虫

的设计发布时，总会有一些为了阻止别人复制工作而缺失的细节。人们也开始关注主
要用于阻止主要搜索引擎发布他们的排序算法的“搜索引擎垃圾邮件”。
爬虫通常会执行几种类型的URL规范化来避免重复抓取某些资源。URL一般化也
被称为URL标准化，指的是修正URL并且使其前后一致的过程。这里有几种一般化方

法，包括转化URL为小写的，去除逗号（如‘.’‘..’等），对非空的路径，在末尾
加反斜杠。

• 150 •

157 158 159 160 161 162 163 164 165 166 167