Page 154 - 大数据背景下网络安全问题研究
P. 154
大数据背景下网络安全问题研究
Research on Network Security Issues under the Background of Big Data
Deep Web 爬虫爬行过程中最重要部分就是表单填写,包含以下两种类型:
一是基于领域知识的表单填写:此方法一般会维持一个本体库,通过语义分析
来选取合适的关键词填写表单。 Yiyao Lu等人提出一种获取 Form 表单信息的多注解
方法,将数据表单按语义分配到各个组中,对每组从多方面注解,结合各种注解结
果来预测一个最终的注解标签;郑冬冬等人利用一个预定义的领域本体知识库来识别
Deep Web 页面内容,同时利用一些来自 Web 站点导航模式来识别自动填写表单时所
需进行的路径导航。
二是基于网页结构分析的表单填写: 此方法一般无领域知识或仅有有限的领域
知识,将网页表单表示成 DOM 树,从中提取表单各字段值。 Desouky 等人提出一种
LEHW 方法,该方法将 HTML 网页表示为DOM 树形式,将表单区分为单属性表单和
多属性表单,分别进行处理;孙彬等人提出一种基于 XQuery 的搜索系统,它能够模
拟表单和特殊页面标记切换,把网页关键字切换信息描述为三元组单元,按照一定规
则排除无效表单,将 Web 文档构造成 DOM 树,利用 XQuery 将文字属性映射到表单
字段。
Raghavan 等人提出的 HIWE 系统中,爬行管理器负责管理整个爬行过程,分析
下载的页面,将包含表单的页面提交表单处理器处理,表单处理器先从页面中提取表
单,从预先准备好的数据集中选择数据自动填充并提交表单,由爬行控制器下载相应
的结果页面。
(三)网络爬虫技术的主要内容
1.抓取目标分类
抓取目标的描述和定义是决定网页分析算法与URL搜索策略如何制定的基础。而
网页分析算法和候选URL排序算法是决定搜索引擎所提供的服务形式和爬虫网页抓取
行为的关键所在。这两个部分的算法又是紧密相关的。
现有聚焦爬虫对抓取目标的描述可分为基于目标网页特征、基于目标数据模式和
基于领域概念3种。
(1)基于目标网页特征
基于目标网页特征的爬虫所抓取、存储并索引的对象一般为网站或网页。根据种
子样本获取方式可分为:一是预先给定的初始抓取种子样本;二是预先给定的网页分
类目录和与分类目录对应的种子样本,如Yahoo!分类结构等;三是通过用户行为确
定的抓取目标样例,分为:①用户浏览过程中显示标注的抓取样本;②通过用户日志
挖掘得到访问模式及相关样本。
其中,网页特征可以是网页的内容特征,也可以是网页的链接结构特征等。
• 142 •

