Page 166 - 大数据背景下网络安全问题研究

P. 166

大数据背景下网络安全问题研究
Research on Network Security Issues under the Background of Big Data

LWP：RobotUA（Langheinrich，2004）是一个在Perl5许可下发行的，可以优异
的完成并行任务的Perl类库构成的机器人。
Web Crawler是一个为.net准备的开放源代码的网络检索器（C#编写）。

Sherlock Holmes收集和检索本地和网络上的文本类数据（文本文件，网页），该
项目由捷克门户网站中枢（Czech web portal Centrum）赞助并且主用商用于这里；它

同时也使用在。
YaCy是一个基于P2P网络的免费的分布式搜索引擎（在GPL许可下发行）。
Ruya是一个在广度优先方面表现优秀，基于等级抓取的开放源代码的网络爬虫。

在英语和日语页面的抓取表现良好，它在GPL许可下发行，并且完全使用Python编
写。按照robots.txt有一个延时的单网域延时爬虫。

Universal Information Crawler快速发展的网络爬虫，用于检索存储和分析数据。
Agent Kernel，当一个爬虫抓取时，用来进行安排，并发和存储的Java框架。
是一个使用C#编写，需要SQL Server 2005支持的，在GPL许可下发行的多功能的

开源的机器人。它可以用来下载、检索、存储，包括电子邮件地址、文件、超链接、
图片和网页在内的各种数据。

Dine是一个多线程的java的http客户端。它可以在LGPL许可下进行二次开发。
（3）网络爬虫的组成
在网络爬虫的系统框架中，主过程由控制器，解析器，资源库三部分组成。控制

器的主要工作是负责给多线程中的各个爬虫线程分配工作任务。解析器的主要工作是
下载网页，进行页面的处理，主要是将一些JS脚本标签、CSS代码内容、空格字符、

HTML标签等内容处理掉，爬虫的基本工作是由解析器完成。资源库是用来存放下载
到的网页资源，一般都采用大型的数据库存储，如Oracle数据库，并对其建立索引。

①控制器
控制器是网络爬虫的中央控制器，它主要是负责根据系统传过来的URL链接，分
配一线程，然后启动线程调用爬虫爬取网页的过程。

②解析器
解析器是负责网络爬虫的主要部分，其负责的工作主要有：下载网页的功能，对

网页的文本进行处理，如过滤功能，抽取特殊HTML标签的功能，分析数据功能。
③资源库

主要是用来存储网页中下载下来的数据记录的容器，并提供生成索引的目标源。
中大型的数据库产品有Oracle、SQL Server等。

• 154 •

161 162 163 164 165 166 167 168 169 170 171