Page 160 - 大数据背景下网络安全问题研究
P. 160

大数据背景下网络安全问题研究
                    Research on Network Security Issues under the Background of Big Data


                  第四,抓取深层的网页。很多的页面隐藏得很深或隐藏在看不到的网络之中。这
             些页面通常只有在向数据库提交查询的时候才可以访问到,如果没有链接指向他们的
             话,一般的爬虫是不能访问到这些页面的。谷歌站点地图协议和mod oai(Nelson等
             人,2005)尝试允许发现这些深层次的资源。深层页面抓取器增加了抓取网页的链接
             数。一些爬虫仅仅抓取形如超文本所包含的内容,标签和文本。

                  第五,WEB3.0检索。Web3.0为下一代搜索技术定义了更先进的技术和新的准
             则,可以概括为语义网络和网站模板解析的概念。第三代检索技术将建立在人机巧妙
             的联系的基础上。

                  ②重新访问策略
                  网络具有动态性很强的特性。抓取网络上的一小部分内容可能会花费真的很长的
             时间,通常用周或者月来衡量。当爬虫完成它的抓取的任务以后,很多操作是可能会
             发生的,这些操作包括新建,更新和删除。

                  从搜索引擎的角度来看,不检测这些事件是有成本的,成本就是我们仅仅拥有一
             份过时的资源。最常使用的成本函数,是新鲜度和过时性。
                  新鲜度:这是一个衡量抓取内容是不是准确的二元值。在时间t内,仓库中页面p

             的新鲜度是这样定义的。
                  过时性:这是一个衡量本地已抓取的内容过时程度的指标。在时间t时,仓库中
             页面p的时效性的定义如下:在页面抓取中,新鲜度和过时性的发展。Coffman等人
             (Edward G. Coffman,1998)是从事爬虫对象定义的,他们提出了一个相当于新鲜
             度的概念,但是使用了不同的措辞:他们建议爬虫必须最小化过时页面部分。他们指

             出网络爬行的问题就相当于多个队列,一个投票系统;这里,爬虫是服务器,不同的
             站点是队列。页面修改是到达的顾客,页面切换的时间是页面进入一个单一站点的间
             隔。在这个模型下,每一个顾客在投票系统的平均时间,相当于爬虫的平均过时性。

                  爬虫的目标是尽可能高的提高页面的新鲜度,同时降低页面的过时性。这一目
             标并不是完全一样的,第一种情况,爬虫关心的是有多少页面是过时的;在第二种情
             况,爬虫关心的页面过时了多少。
                  两种最简单的重新访问策略是由Cho和Garcia-Molina研究的(Cho 和Garcia-

             Molina,2003)。
                  统一策略:使用相同的频率,重新访问收藏中的所有的链接,而不考虑他们更新
             频率。
                  正比策略:对变化越多的网页,重新访问的频率也越高。网页访问的频率和网页

             变化的频率直接相关。
                  (两种情况下,爬虫的重新抓取都可以采用随机方式,或者固定的顺序)


             • 148 •
   155   156   157   158   159   160   161   162   163   164   165