Page 160 - 大数据背景下网络安全问题研究
P. 160
大数据背景下网络安全问题研究
Research on Network Security Issues under the Background of Big Data
第四,抓取深层的网页。很多的页面隐藏得很深或隐藏在看不到的网络之中。这
些页面通常只有在向数据库提交查询的时候才可以访问到,如果没有链接指向他们的
话,一般的爬虫是不能访问到这些页面的。谷歌站点地图协议和mod oai(Nelson等
人,2005)尝试允许发现这些深层次的资源。深层页面抓取器增加了抓取网页的链接
数。一些爬虫仅仅抓取形如超文本所包含的内容,标签和文本。
第五,WEB3.0检索。Web3.0为下一代搜索技术定义了更先进的技术和新的准
则,可以概括为语义网络和网站模板解析的概念。第三代检索技术将建立在人机巧妙
的联系的基础上。
②重新访问策略
网络具有动态性很强的特性。抓取网络上的一小部分内容可能会花费真的很长的
时间,通常用周或者月来衡量。当爬虫完成它的抓取的任务以后,很多操作是可能会
发生的,这些操作包括新建,更新和删除。
从搜索引擎的角度来看,不检测这些事件是有成本的,成本就是我们仅仅拥有一
份过时的资源。最常使用的成本函数,是新鲜度和过时性。
新鲜度:这是一个衡量抓取内容是不是准确的二元值。在时间t内,仓库中页面p
的新鲜度是这样定义的。
过时性:这是一个衡量本地已抓取的内容过时程度的指标。在时间t时,仓库中
页面p的时效性的定义如下:在页面抓取中,新鲜度和过时性的发展。Coffman等人
(Edward G. Coffman,1998)是从事爬虫对象定义的,他们提出了一个相当于新鲜
度的概念,但是使用了不同的措辞:他们建议爬虫必须最小化过时页面部分。他们指
出网络爬行的问题就相当于多个队列,一个投票系统;这里,爬虫是服务器,不同的
站点是队列。页面修改是到达的顾客,页面切换的时间是页面进入一个单一站点的间
隔。在这个模型下,每一个顾客在投票系统的平均时间,相当于爬虫的平均过时性。
爬虫的目标是尽可能高的提高页面的新鲜度,同时降低页面的过时性。这一目
标并不是完全一样的,第一种情况,爬虫关心的是有多少页面是过时的;在第二种情
况,爬虫关心的页面过时了多少。
两种最简单的重新访问策略是由Cho和Garcia-Molina研究的(Cho 和Garcia-
Molina,2003)。
统一策略:使用相同的频率,重新访问收藏中的所有的链接,而不考虑他们更新
频率。
正比策略:对变化越多的网页,重新访问的频率也越高。网页访问的频率和网页
变化的频率直接相关。
(两种情况下,爬虫的重新抓取都可以采用随机方式,或者固定的顺序)
• 148 •

