Page 165 - 大数据背景下网络安全问题研究

P. 165

» 第六章网络数据采集及安全研究

HotCrawler，一个使用c语言和php编写的爬虫。
ViREL Microformats Crawler，搜索公众信息作为嵌入网页的一小部分。
除了上面列出的几个特定的爬虫结构以外，还有Cho（Cho and Garcia-Molina，
2002）和Chakrabarti（Chakrabarti，2003）发布的一般的爬虫体系结构。
（2）开源爬虫

DataparkSearch是一个在GNU GPL许可下发布的爬虫搜索引擎。
GNU Wget是一个在GPL许可下，使用C语言编写的命令行式的爬虫。它主要用于
网络服务器和FTP服务器的镜像。

Heritrix是一个互联网档案馆级的爬虫，设计的目标为对大型网络的大部分内容的
定期存档快照，是使用java编写的。
Ht：//Dig在它和索引引擎中包括了一个网页爬虫。
HTTrack用网络爬虫创建网络站点镜像，以便离线观看。它使用C语言编写，在

GPL许可下发行。
ICDL Crawler是一个用C++编写，跨平台的网络爬虫。它仅仅使用空闲的CPU资
源，在ICDL标准上抓取整个站点。

JSpider是一个在GPL许可下发行的，高度可配置的，可定制的网络爬虫引擎。
LLarbin由Sebastien Ailleret开发。
Webtools4larbin由Andreas Beder开发。
Methabot是一个使用C语言编写的高速优化的，使用命令行方式运行的，在
2-clause BSD许可下发布的网页检索器。它的主要的特性是高可配置性、模块化；它

检索的目标可以是本地文件系统、HTTP或者FTP。
Nutch是一个使用java编写，在Apache许可下发行的爬虫。它可以用来连接Lucene
的全文检索套件。

Pavuk是一个在GPL许可下发行的，使用命令行的WEB站点镜像工具，可以选择
使用X11的图形界面。与wget和httprack相比，他有一系列先进的特性，如以正则表达
式为基础的文件过滤规则和文件创建规则。
WebVac是斯坦福WebBase项目使用的一个爬虫。

WebSPHINX（Miller and Bharat，1998）是一个由java类库构成的，基于文本的搜
索引擎。它使用多线程进行网页检索，html解析，拥有一个图形用户界面用来设置开
始的种子URL和抽取下载的数据。
WIRE－网络信息检索环境（Baeza-Yates和Castillo，2002）是一个使用C++编

写，在GPL许可下发行的爬虫，内置了几种页面下载安排的策略，还有一个生成报告
和统计资料的模块，所以它主要用于网络特征的描述。

• 153 •

160 161 162 163 164 165 166 167 168 169 170