Page 164 - 大数据背景下网络安全问题研究
P. 164

大数据背景下网络安全问题研究
                    Research on Network Security Issues under the Background of Big Data


             式的,模块化的使用java编写的网络爬虫。它的模块化源自于使用可互换的“协议模
             块”和“处理模块”。协议模块负责怎样获取网页(如使用HTTP),处理模块负责
             怎样处理页面。标准处理模块仅仅包括了解析页面和抽取URL,其他处理模块可以用
             来检索文本页面,或者搜集网络数据。
                  WebFountain (Edwards et al.2001)是一个与Mercator类似的分布式的模块化的爬

             虫,但是使用C++编写的。它的特点是一个管理员机器控制一系列的蚂蚁机器。经过
             多次下载页面后,页面的变化率可以推测出来,这时,一个非线性的方法必须用于
             求解方程以获得一个最大的新鲜度的访问策略。作者推荐在早期检索阶段使用这个爬

             虫,然后用统一策略检索,就是所有的页面都使用相同的频率访问。
                  PolyBot(Shkapenyuk and Suel,2002)是一个使用C++和Python编写的分布式网
             络爬虫。它由一个爬虫管理者,一个或多个下载者,一个或多个DNS解析者组成。抽
             取到的URL被添加到硬盘的一个队列里面,然后使用批处理的模式处理这些URL。平

             衡礼貌方面考虑到了第二、三级网域,因为第三级网域通常也会保存在同一个网络服
             务器上。
                  WebRACE (Zeinalipour-Yazti and Dikaiakos,2002)是一个使用java实现的,拥

             有检索模块和缓存模块的爬虫,它是一个很通用的称作e RACE的系统的一部分。系
             统从用户得到下载页面的请求,爬虫的行为有点像一个聪明的代理服务器。系统还监
             视订阅网页的请求,当网页发生改变的时候,它必须使爬虫下载更新这个页面并且
             通知订阅者。Web RACE最大的特色是,当大多数的爬虫都从一组URL开始的时候,
             Web RACE可以连续地的接收抓取开始的URL地址。

                  Ubicrawer(Boldi et al,2004)是一个使用java编写的分布式爬虫。它没有中央程
             序。它由一组完全相同的代理组成,分配功能通过主机前后一致的散列计算进行。这
             里没有重复的页面,除非爬虫崩溃了(然后,另外一个代理就会接替崩溃的代理重新

             开始抓取)。爬虫设计为高伸缩性和允许失败的。
                  FAST Crawler (Risvik and Michelsen,2002)是一个分布式的爬虫,在Fast
             Search&Transfer中使用,关于其体系结构的一个大致的描述可以在[citation needed]
             找到。

                  Labrador,一个工作在开源项目Terrier Search Engine上的非开源的爬虫。
                  Teezir Crawler是一个非开源的可伸缩的网页抓取器,在Teezir上使用。该程序被
             设计为一个完整的可以处理各种类型网页的爬虫,包括各种JavaScript和HTML文档。
             爬虫既支持主题检索也支持非主题检索。

                  Spinn3r,一个通过博客构建反馈信息的爬虫。Spinn3r是基于java的,它的大部分
             的体系结构都是开源的。


             • 152 •
   159   160   161   162   163   164   165   166   167   168   169