Page 160 - 大数据背景下网络安全问题研究

P. 160

大数据背景下网络安全问题研究
Research on Network Security Issues under the Background of Big Data

第四，抓取深层的网页。很多的页面隐藏得很深或隐藏在看不到的网络之中。这
些页面通常只有在向数据库提交查询的时候才可以访问到，如果没有链接指向他们的
话，一般的爬虫是不能访问到这些页面的。谷歌站点地图协议和mod oai（Nelson等
人，2005）尝试允许发现这些深层次的资源。深层页面抓取器增加了抓取网页的链接
数。一些爬虫仅仅抓取形如超文本所包含的内容，标签和文本。

第五，WEB3.0检索。Web3.0为下一代搜索技术定义了更先进的技术和新的准
则，可以概括为语义网络和网站模板解析的概念。第三代检索技术将建立在人机巧妙
的联系的基础上。

②重新访问策略
网络具有动态性很强的特性。抓取网络上的一小部分内容可能会花费真的很长的
时间，通常用周或者月来衡量。当爬虫完成它的抓取的任务以后，很多操作是可能会
发生的，这些操作包括新建，更新和删除。

从搜索引擎的角度来看，不检测这些事件是有成本的，成本就是我们仅仅拥有一
份过时的资源。最常使用的成本函数，是新鲜度和过时性。
新鲜度：这是一个衡量抓取内容是不是准确的二元值。在时间t内，仓库中页面p

的新鲜度是这样定义的。
过时性：这是一个衡量本地已抓取的内容过时程度的指标。在时间t时，仓库中
页面p的时效性的定义如下：在页面抓取中，新鲜度和过时性的发展。Coffman等人
（Edward G. Coffman，1998）是从事爬虫对象定义的，他们提出了一个相当于新鲜
度的概念，但是使用了不同的措辞：他们建议爬虫必须最小化过时页面部分。他们指

出网络爬行的问题就相当于多个队列，一个投票系统；这里，爬虫是服务器，不同的
站点是队列。页面修改是到达的顾客，页面切换的时间是页面进入一个单一站点的间
隔。在这个模型下，每一个顾客在投票系统的平均时间，相当于爬虫的平均过时性。

爬虫的目标是尽可能高的提高页面的新鲜度，同时降低页面的过时性。这一目
标并不是完全一样的，第一种情况，爬虫关心的是有多少页面是过时的；在第二种情
况，爬虫关心的页面过时了多少。
两种最简单的重新访问策略是由Cho和Garcia-Molina研究的（Cho 和Garcia-

Molina，2003）。
统一策略：使用相同的频率，重新访问收藏中的所有的链接，而不考虑他们更新
频率。
正比策略：对变化越多的网页，重新访问的频率也越高。网页访问的频率和网页

变化的频率直接相关。
（两种情况下，爬虫的重新抓取都可以采用随机方式，或者固定的顺序）

• 148 •

155 156 157 158 159 160 161 162 163 164 165