Page 159 - 大数据背景下网络安全问题研究
P. 159

» 第六章  网络数据采集及安全研究



               质量有关,与按照链接数、访问数得出的受欢迎程度有关,甚至与他本身的网址(后
               来出现的把搜索放在一个顶级域名或者一个固定页面上的垂直搜索)有关。设计一个
               好的搜索策略还有额外的困难,它必须在不完全信息下工作,因为整个页面的集合在
               抓取时是未知的。
                   Daneshpajouh等人(Daneshpajouh et al,2008)设计了一个用于寻找好种子的社

               区。它们从来自不同社区的高Page Rank页面开始检索的方法,迭代次数明显小于使
               用随机种子的检索。使用这种方式,可以从以前抓取页面之中找到好的种子,使用这
               些种子是十分有效的。

                   第一,限定访问链接。一个爬虫可能仅仅想找到html页面的种子而避免其他
               的文件类型。为了仅仅得到html的资源,一个爬虫可以首先做一个http head的请
               求,以在使用request方法获取所有的资源之前,决定这个网络文件的类型。为了
               避免要发送过多的head请求,爬虫可以交替的检查url并且仅仅对以html,htm和反

               斜杠结尾的文件发送资源请求。这种策略会导致很多的html资源在无意中错过,
               一种相似的策略是将网络资源的扩展名同已知是html文件类型的一组扩展名(如
               “.html”“htm”“asp”“php”“aspx”,反斜杠)进行比较。一些爬虫也会限制

               对任何含有“?”的资源(这些是动态生成的)进行获取请求,以避免蜘蛛爬行在某
               一个站点中陷入下载无穷无尽的URL的困境。
                   第二,路径检索。一些爬虫会尽量多尝试下载一个特定站点的资源。Cothey
               (Cothey,2004)引入了一种路径检索的爬虫,它会尝试抓取需要检索资源的所有
               URL。例如,给定一个种子地址,它将会尝试检索/hamster/menkey/。Cothey发现路径

               检索对发现独立资源,或者一些通常爬虫检索不到的连接是非常有效的。一些路径检
               索的爬虫也被称为收割机软件,因为他们通常用于收割或者收集所有的内容,可能是
               从特定的页面或者主机收集相册的照片。

                   第三,聚焦抓取。爬虫所抓取页面的重要程度也可以表述成它与给定查询之间相
               似程度的函数。网络爬虫尝试下载相似页面,可以称为聚焦检索或者主题检索。关于
               主题检索和聚焦检索的概念,最早是由Menczer(Menczer 1997;Menczer and Belew,
               1998)和Chakrabarti等人首先提出来的(Chakrabarti et al.1999)。聚焦检索的主要问

               题是网页爬虫的使用环境,我们希望在实际下载页面之前,就可以知道给定页面和查
               询之间的相似度。一个可能的方法就是在链接之中设置锚点,这就是在早期时候,
               Pinkerton(Pinkerton,1994)曾经在一个爬虫中采用的策略。Diligenti等人(Diligenti
               等人,2000)建议使用已经抓取页面的内容去推测查询和未访问页的相似度。一个聚

               焦查询的表现的好坏主要依赖于查询主题内容的丰富程度,通常还会依赖页面查询引
               擎提供的查询起点。


                                                                                         • 147 •
   154   155   156   157   158   159   160   161   162   163   164