Page 154 - 大数据背景下网络安全问题研究

P. 154

大数据背景下网络安全问题研究
Research on Network Security Issues under the Background of Big Data

Deep Web 爬虫爬行过程中最重要部分就是表单填写，包含以下两种类型：
一是基于领域知识的表单填写：此方法一般会维持一个本体库，通过语义分析
来选取合适的关键词填写表单。 Yiyao Lu等人提出一种获取 Form 表单信息的多注解
方法，将数据表单按语义分配到各个组中，对每组从多方面注解，结合各种注解结
果来预测一个最终的注解标签；郑冬冬等人利用一个预定义的领域本体知识库来识别

Deep Web 页面内容，同时利用一些来自 Web 站点导航模式来识别自动填写表单时所
需进行的路径导航。
二是基于网页结构分析的表单填写：此方法一般无领域知识或仅有有限的领域

知识，将网页表单表示成 DOM 树，从中提取表单各字段值。 Desouky 等人提出一种
LEHW 方法，该方法将 HTML 网页表示为DOM 树形式，将表单区分为单属性表单和
多属性表单，分别进行处理；孙彬等人提出一种基于 XQuery 的搜索系统，它能够模
拟表单和特殊页面标记切换，把网页关键字切换信息描述为三元组单元，按照一定规

则排除无效表单，将 Web 文档构造成 DOM 树，利用 XQuery 将文字属性映射到表单
字段。
Raghavan 等人提出的 HIWE 系统中，爬行管理器负责管理整个爬行过程，分析

下载的页面，将包含表单的页面提交表单处理器处理，表单处理器先从页面中提取表
单，从预先准备好的数据集中选择数据自动填充并提交表单，由爬行控制器下载相应
的结果页面。
（三）网络爬虫技术的主要内容
1.抓取目标分类

抓取目标的描述和定义是决定网页分析算法与URL搜索策略如何制定的基础。而
网页分析算法和候选URL排序算法是决定搜索引擎所提供的服务形式和爬虫网页抓取
行为的关键所在。这两个部分的算法又是紧密相关的。

现有聚焦爬虫对抓取目标的描述可分为基于目标网页特征、基于目标数据模式和
基于领域概念3种。
（1）基于目标网页特征
基于目标网页特征的爬虫所抓取、存储并索引的对象一般为网站或网页。根据种

子样本获取方式可分为：一是预先给定的初始抓取种子样本；二是预先给定的网页分
类目录和与分类目录对应的种子样本，如Yahoo！分类结构等；三是通过用户行为确
定的抓取目标样例，分为：①用户浏览过程中显示标注的抓取样本；②通过用户日志
挖掘得到访问模式及相关样本。

其中，网页特征可以是网页的内容特征，也可以是网页的链接结构特征等。

• 142 •

149 150 151 152 153 154 155 156 157 158 159