Page 165 - 大数据背景下网络安全问题研究
P. 165

» 第六章  网络数据采集及安全研究



                   HotCrawler,一个使用c语言和php编写的爬虫。
                   ViREL Microformats Crawler,搜索公众信息作为嵌入网页的一小部分。
                   除了上面列出的几个特定的爬虫结构以外,还有Cho(Cho and Garcia-Molina,
               2002)和Chakrabarti(Chakrabarti,2003)发布的一般的爬虫体系结构。
                   (2)开源爬虫

                   DataparkSearch是一个在GNU GPL许可下发布的爬虫搜索引擎。
                   GNU Wget是一个在GPL许可下,使用C语言编写的命令行式的爬虫。它主要用于
               网络服务器和FTP服务器的镜像。

                   Heritrix是一个互联网档案馆级的爬虫,设计的目标为对大型网络的大部分内容的
               定期存档快照,是使用java编写的。
                   Ht://Dig在它和索引引擎中包括了一个网页爬虫。
                   HTTrack用网络爬虫创建网络站点镜像,以便离线观看。它使用C语言编写,在

               GPL许可下发行。
                   ICDL Crawler是一个用C++编写,跨平台的网络爬虫。它仅仅使用空闲的CPU资
               源,在ICDL标准上抓取整个站点。

                   JSpider是一个在GPL许可下发行的,高度可配置的,可定制的网络爬虫引擎。
                   LLarbin由Sebastien Ailleret开发。
                   Webtools4larbin由Andreas Beder开发。
                   Methabot是一个使用C语言编写的高速优化的,使用命令行方式运行的,在
               2-clause BSD许可下发布的网页检索器。它的主要的特性是高可配置性、模块化;它

               检索的目标可以是本地文件系统、HTTP或者FTP。
                   Nutch是一个使用java编写,在Apache许可下发行的爬虫。它可以用来连接Lucene
               的全文检索套件。

                   Pavuk是一个在GPL许可下发行的,使用命令行的WEB站点镜像工具,可以选择
               使用X11的图形界面。与wget和httprack相比,他有一系列先进的特性,如以正则表达
               式为基础的文件过滤规则和文件创建规则。
                   WebVac是斯坦福WebBase项目使用的一个爬虫。

                   WebSPHINX(Miller and Bharat,1998)是一个由java类库构成的,基于文本的搜
               索引擎。它使用多线程进行网页检索,html解析,拥有一个图形用户界面用来设置开
               始的种子URL和抽取下载的数据。
                   WIRE-网络信息检索环境(Baeza-Yates和Castillo,2002)是一个使用C++编

               写,在GPL许可下发行的爬虫,内置了几种页面下载安排的策略,还有一个生成报告
               和统计资料的模块,所以它主要用于网络特征的描述。


                                                                                         • 153 •
   160   161   162   163   164   165   166   167   168   169   170