Page 166 - 大数据背景下网络安全问题研究
P. 166

大数据背景下网络安全问题研究
                    Research on Network Security Issues under the Background of Big Data


                  LWP:RobotUA(Langheinrich,2004)是一个在Perl5许可下发行的,可以优异
             的完成并行任务的Perl类库构成的机器人。
                  Web Crawler是一个为.net准备的开放源代码的网络检索器(C#编写)。

                  Sherlock Holmes收集和检索本地和网络上的文本类数据(文本文件,网页),该
             项目由捷克门户网站中枢(Czech web portal Centrum)赞助并且主用商用于这里;它

             同时也使用在。
                  YaCy是一个基于P2P网络的免费的分布式搜索引擎(在GPL许可下发行)。
                  Ruya是一个在广度优先方面表现优秀,基于等级抓取的开放源代码的网络爬虫。

             在英语和日语页面的抓取表现良好,它在GPL许可下发行,并且完全使用Python编
             写。按照robots.txt有一个延时的单网域延时爬虫。

                  Universal Information Crawler快速发展的网络爬虫,用于检索存储和分析数据。
                  Agent Kernel,当一个爬虫抓取时,用来进行安排,并发和存储的Java框架。
                  是一个使用C#编写,需要SQL Server 2005支持的,在GPL许可下发行的多功能的

             开源的机器人。它可以用来下载、检索、存储,包括电子邮件地址、文件、超链接、
             图片和网页在内的各种数据。

                  Dine是一个多线程的java的http客户端。它可以在LGPL许可下进行二次开发。
                  (3)网络爬虫的组成
                  在网络爬虫的系统框架中,主过程由控制器,解析器,资源库三部分组成。控制

             器的主要工作是负责给多线程中的各个爬虫线程分配工作任务。解析器的主要工作是
             下载网页,进行页面的处理,主要是将一些JS脚本标签、CSS代码内容、空格字符、

             HTML标签等内容处理掉,爬虫的基本工作是由解析器完成。资源库是用来存放下载
             到的网页资源,一般都采用大型的数据库存储,如Oracle数据库,并对其建立索引。

                  ①控制器
                  控制器是网络爬虫的中央控制器,它主要是负责根据系统传过来的URL链接,分
             配一线程,然后启动线程调用爬虫爬取网页的过程。

                  ②解析器
                  解析器是负责网络爬虫的主要部分,其负责的工作主要有:下载网页的功能,对

             网页的文本进行处理,如过滤功能,抽取特殊HTML标签的功能,分析数据功能。
                  ③资源库

                  主要是用来存储网页中下载下来的数据记录的容器,并提供生成索引的目标源。
             中大型的数据库产品有Oracle、SQL Server等。


             • 154 •
   161   162   163   164   165   166   167   168   169   170   171