Page 151 - 大数据背景下网络安全问题研究
P. 151
» 第六章 网络数据采集及安全研究
滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列。然后,它将
根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到
达到系统的某一条件时停止。另外,所有被爬虫抓取的网页将会被系统存贮,进行一
定的分析、过滤,并建立索引,以便之后的查询和检索;对于聚焦爬虫来说,这一过
程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。
相对于通用网络爬虫,聚焦爬虫还需要解决三个主要问题:一是对抓取目标的描
述或定义;二是对网页或数据的分析与过滤;三是对URL的搜索策略。
(二)网络爬虫的分类
网络爬虫按照系统结构和实现技术,大致可以分为以下几种类型:通用网络爬虫
(General Purpose Web Crawler)、聚焦网络爬虫(Focused Web Crawler)、增量式网
络爬虫(Incremental Web Crawler)、深层网络爬虫(Deep Web Crawler)。 实际的网
络爬虫系统通常是几种爬虫技术相结合实现的。
1.通用网络爬虫
通用网络爬虫又称全网爬虫(Scalable Web Crawler),爬行对象从一些种子URL
扩充到整个Web,主要为门户站点搜索引擎和大型Web服务提供商采集数据。由于商
业原因,它们的技术细节很少公布出来。这类网络爬虫的爬行范围和数量巨大,对于
爬行速度和存储空间要求较高,对于爬行页面的顺序要求相对较低,同时由于待刷新
的页面太多,通常采用并行工作方式,但需要较长时间才能刷新一次页面。虽然存在
一定缺陷,通用网络爬虫适用于为搜索引擎搜索广泛的主题,有较强的应用价值。
通用网络爬虫的结构大致可以分为页面爬行模块、页面分析模块、链接过滤模
块、页面数据库、URL队列、初始URL集合几个部分。为提高工作效率,通用网络爬
虫会采取一定的爬行策略。常用的爬行策略有:深度优先策略、广度优先策略。
(1)深度优先策略
其基本方法是按照深度由低到高的顺序,依次访问下一级网页链接,直到不能再
深入为止。爬虫在完成一个爬行分支后返回到上一链接节点进一步搜索其他链接。当
所有链接遍历完后,爬行任务结束。这种策略比较适合垂直搜索或站内搜索,但爬行
页面内容层次较深的站点时会造成资源的巨大浪费。
(2)广度优先策略
此策略按照网页内容目录层次深浅来爬行页面,处于较浅目录层次的页面首先被
爬行。当同一层次中的页面爬行完毕后,爬虫再深入下一层继续爬行。这种策略能够
有效控制页面的爬行深度,避免遇到一个无穷深层分支时无法结束爬行的问题,实现
方便,无需存储大量中间节点,不足之处在于需较长时间才能爬行到目录层次较深的
页面。
• 139 •

