Page 166 - 大数据背景下网络安全问题研究
P. 166
大数据背景下网络安全问题研究
Research on Network Security Issues under the Background of Big Data
LWP:RobotUA(Langheinrich,2004)是一个在Perl5许可下发行的,可以优异
的完成并行任务的Perl类库构成的机器人。
Web Crawler是一个为.net准备的开放源代码的网络检索器(C#编写)。
Sherlock Holmes收集和检索本地和网络上的文本类数据(文本文件,网页),该
项目由捷克门户网站中枢(Czech web portal Centrum)赞助并且主用商用于这里;它
同时也使用在。
YaCy是一个基于P2P网络的免费的分布式搜索引擎(在GPL许可下发行)。
Ruya是一个在广度优先方面表现优秀,基于等级抓取的开放源代码的网络爬虫。
在英语和日语页面的抓取表现良好,它在GPL许可下发行,并且完全使用Python编
写。按照robots.txt有一个延时的单网域延时爬虫。
Universal Information Crawler快速发展的网络爬虫,用于检索存储和分析数据。
Agent Kernel,当一个爬虫抓取时,用来进行安排,并发和存储的Java框架。
是一个使用C#编写,需要SQL Server 2005支持的,在GPL许可下发行的多功能的
开源的机器人。它可以用来下载、检索、存储,包括电子邮件地址、文件、超链接、
图片和网页在内的各种数据。
Dine是一个多线程的java的http客户端。它可以在LGPL许可下进行二次开发。
(3)网络爬虫的组成
在网络爬虫的系统框架中,主过程由控制器,解析器,资源库三部分组成。控制
器的主要工作是负责给多线程中的各个爬虫线程分配工作任务。解析器的主要工作是
下载网页,进行页面的处理,主要是将一些JS脚本标签、CSS代码内容、空格字符、
HTML标签等内容处理掉,爬虫的基本工作是由解析器完成。资源库是用来存放下载
到的网页资源,一般都采用大型的数据库存储,如Oracle数据库,并对其建立索引。
①控制器
控制器是网络爬虫的中央控制器,它主要是负责根据系统传过来的URL链接,分
配一线程,然后启动线程调用爬虫爬取网页的过程。
②解析器
解析器是负责网络爬虫的主要部分,其负责的工作主要有:下载网页的功能,对
网页的文本进行处理,如过滤功能,抽取特殊HTML标签的功能,分析数据功能。
③资源库
主要是用来存储网页中下载下来的数据记录的容器,并提供生成索引的目标源。
中大型的数据库产品有Oracle、SQL Server等。
• 154 •

