Page 149 - 大数据背景下网络安全问题研究
P. 149
» 第六章 网络数据采集及安全研究
第六章 网络数据采集及安全研究
第一节 网络数据采集技术概述
一、网络数据采集的内涵及特性
(一)内涵及工作原理
1.内涵
“网络数据采集”是指利用互联网搜索引擎技术实现有针对性、行业性、精准
性的数据抓取,并按照一定规则和筛选标准进行数据归类,并形成数据库文件的一个
过程。
2.工作原理
网络数据采集采用的技术基本上是利用垂直搜索引擎技术的网络蜘蛛(或数据采
集机器人)、分词系统、任务与索引系统等技术进行综合运用而完成;随着互联网技
术的发展和网络海量信息的增长,对信息的获取与分拣成为一种越来越大的需求。
人们一般通过以上技术将海量信息和数据采集回后,进行分拣和二次加工,实现
网络数据价值与利益更大化、更专业化的目的。
现阶段在国内从事“海量数据采集”的企业很多,大多是利用垂直搜索引擎技术
去实现,还有一些企业还实现了多种技术的综合运用。例如,“火车采集器”采用的
垂直搜索引擎+网络雷达+信息追踪与自动分拣+自动索引技术,将海量数据采集与后
期处理进行了结合。
一般说来,从事专业海量数据采集的企业已属于是计算机数据分析方面的研究
工作。
(二)系统特性
网络数据采集具有这几个特性:支持自定义表单;支持自适应采集;支持集群采
集;支持各种报表导出;支持仿人工式的随机采集数据;支持自定义阅读模板;支持
登陆、代理采集;支持各种列表分页采集;支持各种内容分页采集;支持各种排重过
滤;各种采集日志和采集源日志监控;支持采集网站、采集源管理;支持采集图片、
附件、音频,视频等文件或附件。附件与正文自动映射与关联;支持多种附件保存
方式,可保存至磁盘或数据库;支持附件的压缩存储;支持对采集来的信息进行二次
加工。支持采集内容的自动排版;真正的多用户采集系统,每个操作都要记录操作内
• 137 •

