Page 165 - 大数据背景下网络安全问题研究
P. 165
» 第六章 网络数据采集及安全研究
HotCrawler,一个使用c语言和php编写的爬虫。
ViREL Microformats Crawler,搜索公众信息作为嵌入网页的一小部分。
除了上面列出的几个特定的爬虫结构以外,还有Cho(Cho and Garcia-Molina,
2002)和Chakrabarti(Chakrabarti,2003)发布的一般的爬虫体系结构。
(2)开源爬虫
DataparkSearch是一个在GNU GPL许可下发布的爬虫搜索引擎。
GNU Wget是一个在GPL许可下,使用C语言编写的命令行式的爬虫。它主要用于
网络服务器和FTP服务器的镜像。
Heritrix是一个互联网档案馆级的爬虫,设计的目标为对大型网络的大部分内容的
定期存档快照,是使用java编写的。
Ht://Dig在它和索引引擎中包括了一个网页爬虫。
HTTrack用网络爬虫创建网络站点镜像,以便离线观看。它使用C语言编写,在
GPL许可下发行。
ICDL Crawler是一个用C++编写,跨平台的网络爬虫。它仅仅使用空闲的CPU资
源,在ICDL标准上抓取整个站点。
JSpider是一个在GPL许可下发行的,高度可配置的,可定制的网络爬虫引擎。
LLarbin由Sebastien Ailleret开发。
Webtools4larbin由Andreas Beder开发。
Methabot是一个使用C语言编写的高速优化的,使用命令行方式运行的,在
2-clause BSD许可下发布的网页检索器。它的主要的特性是高可配置性、模块化;它
检索的目标可以是本地文件系统、HTTP或者FTP。
Nutch是一个使用java编写,在Apache许可下发行的爬虫。它可以用来连接Lucene
的全文检索套件。
Pavuk是一个在GPL许可下发行的,使用命令行的WEB站点镜像工具,可以选择
使用X11的图形界面。与wget和httprack相比,他有一系列先进的特性,如以正则表达
式为基础的文件过滤规则和文件创建规则。
WebVac是斯坦福WebBase项目使用的一个爬虫。
WebSPHINX(Miller and Bharat,1998)是一个由java类库构成的,基于文本的搜
索引擎。它使用多线程进行网页检索,html解析,拥有一个图形用户界面用来设置开
始的种子URL和抽取下载的数据。
WIRE-网络信息检索环境(Baeza-Yates和Castillo,2002)是一个使用C++编
写,在GPL许可下发行的爬虫,内置了几种页面下载安排的策略,还有一个生成报告
和统计资料的模块,所以它主要用于网络特征的描述。
• 153 •

