Page 155 - 大数据背景下网络安全问题研究
P. 155

» 第六章  网络数据采集及安全研究



                   (2)基于目标数据模式
                   基于目标数据模式的爬虫针对的是网页上的数据,所抓取的数据一般要符合一定
               的模式,或者可以转化或映射为目标数据模式。
                   (3)基于领域概念
                   另一种描述方式是建立目标领域的本体或词典,用于从语义角度分析不同特征在

               某一主题中的重要程度。
                   2.网页搜索策略
                   网页的抓取策略可以分为深度优先、广度优先和最佳优先三种。深度优先在很多

               情况下会导致爬虫的陷入(trapped)问题,目前常见的是广度优先和最佳优先方法。
                   (1)广度优先搜索
                   广度优先搜索策略是指在抓取过程中,在完成当前层次的搜索后,才进行下一层
               次的搜索。该算法的设计和实现相对简单。在目前为覆盖尽可能多的网页,一般使用

               广度优先搜索方法。也有很多研究将广度优先搜索策略应用于聚焦爬虫中。其基本思
               想是认为与初始URL在一定链接距离内的网页具有主题相关性的概率很大。另外一种
               方法是将广度优先搜索与网页过滤技术结合使用,先用广度优先策略抓取网页,再将
               其中无关的网页过滤掉。这些方法的缺点在于,随着抓取网页的增多,大量的无关网

               页将被下载并过滤,算法的效率将变低。
                   (2)最佳优先搜索
                   最佳优先搜索策略按照一定的网页分析算法,预测候选URL与目标网页的相似
               度,或与主题的相关性,并选取评价最好的一个或几个URL进行抓取。它只访问经过

               网页分析算法预测为“有用”的网页。存在的一个问题是,在爬虫抓取路径上的很多
               相关网页可能被忽略,因为最佳优先策略是一种局部最优搜索算法。因此,需要将最
               佳优先结合具体的应用进行改进,以跳出局部最优点。将在第4节中结合网页分析算

               法做具体的讨论。研究表明,这样的闭环调整可以将无关网页数量降低30%~90%。
                   (3)深度优先搜索
                   深度优先搜索策略从起始网页开始,选择一个URL进入,分析这个网页中的
               URL,选择一个再进入。如此一个链接一个链接地抓取下去,直到处理完一条路线之
               后再处理下一条路线。深度优先策略设计较为简单。然而门户网站提供的链接往往最

               具价值,Page Rank也很高,但每深入一层,网页价值和Page Rank都会相应地有所下
               降。这暗示了重要网页通常距离种子较近,而过度深入抓取到的网页却价值很低。同
               时,这种策略抓取深度直接影响着抓取命中率以及抓取效率,对抓取深度是该种策略

               的关键。相对于其他两种策略而言。此种策略很少被使用。




                                                                                         • 143 •
   150   151   152   153   154   155   156   157   158   159   160