浅谈网络爬虫及其发展趋势

优采云 发布时间: 2020-05-11 08:02

  

  随着的发展壮大,人们获取信息的途径渐渐被网路所代替。互联网发展早期,人们主要通过浏览门户网站的方法获取所需信息,但是随着Web的飞速发展, 用这些方法找寻自己所需信息显得越来越困难。目前,人们大多通过搜索引擎获取有用信息网络爬虫 技术,因此,搜索引擎技术的发展将直接影响人们获取所需信息的速率和质量。

  1994 年世界上第一个网络检索工具Web Crawler 问世, 目前较流行的搜索引擎有、、Yahoo、Info seek、Inktomi、Teoma、Live Search 等。出于商业机密的考虑,现在各个搜索引擎使用的Crawler 系统的技术黑幕通常都不公开,现有的文献资料也仅限于概要性介绍。随着网路信息资源呈指数级下降及网路信息资源动态变化,传统的搜索引擎提供的信息检索服务已难以满足人们愈加下降的对个性化服务的需求,正面临着巨大的挑战。以何种策略访问网路,提高搜索效率,已成为近些年来专业搜索引擎研究的主要问题之一。

  1、搜索引擎分类

  搜索引擎按其形式主要分为全文搜索引擎、目录索引类搜索引擎和元搜索引擎三种。

  1.1 全文搜索引擎

  全文搜索引擎是名副其实的搜索引擎,通过从互联网上提取的各个网站信息(以网页文字为主)而构建的中,检索与用户查询条件匹配的相关记录,然后按一定的排列次序将结果返回给用户。

  全文搜索引擎又可细分为两种:a)拥有自己的检索程序(Indexer),俗称“蜘蛛”(Spider)程序或“机器人”(Robot)程序,自建网页数据库,搜索结果直接从自身的数据库中调用。b)租用其他引擎的数据库,按自定的格式排列搜索结果。

  1.2 目录索引型搜索引擎

  与全文搜索引擎不同的是,目录索引型搜索引擎的索引数据库是由编辑人员人工构建上去的,这些编辑人员在访问过某个Web 站点后,根据一套自定的衡量标准及主观印象作出对该站点的描述,并按照站点的内容和性质将其归为一个预先分好的类别,分门别类地储存在相应的目录中。用户在查询时,可以通过关键词搜索,也可以按分类目录逐层检索。

  因为目录索引型的索引数据库是借助人工来评价一个网站的内容,所以用户从目录搜索到的结果常常比全文检索到的结果更具有参考价值。实际上,目前好多的搜索网站都同时提供目录和全文搜索的搜索服务,尽可能为用户提供全面的查询结果。

  1.3 元搜索引擎

  元搜索引擎是将用户递交的检索恳求送到多个独立的搜索引擎搜索,将检索结果集中统一处理,以统一的格式提供给用户,因此有搜索引擎之上的搜索引擎之称。它将主要精力放到提升搜索速率、智能化处理搜索结果、个性搜索功能的设置和用户检索界面的友好性上,其查全率和查准率相对较高。它的特征是本身没有储存网页信息的数据库,当用户查询一个关键词时,它将用户恳求转换成其他搜索引擎能接受的命令格式,并行地访问数个搜索引擎来查询这个关键词,将这种搜索引擎返回的结果经过处理后再返回给用户。在搜索结果排列方面,有的直接按来源引擎排列搜索结果,有的则按自定的规则将结果重新排列组合。

  2、网络爬虫技术

  2.1 网络爬虫的工作原理

  网络爬虫源自Spider(或Crawler、robots、wanderer)等的译音。网络爬虫的定义有广义和狭义之分,狭义的定义为:利用标准的http 协议,根据超级链接和Web 文档检索的方式遍历万维网信息空间的软件程序。广义的定义为:所有能借助http协议检索Web 文档的软件都称之为网路爬虫。

  网络爬虫是一个功能太强悍的手动提取网页的程序,它为搜索引擎从万维网下载网页,是搜索引擎的重要组成部份。它通过恳求站点上的HTML 文档访问某一站点。它遍历Web 空间,不断从一个站点到另一个站点,自动构建索引,并加入到网页数据库中。网络爬虫步入某个超级文本时,利用HTML 语言的标记结构来搜索信息及获取指向其他超级文本的URL 地址,可以完全不依赖用户干预实现网路上的手动“爬行”和搜索。网络爬虫在搜索时常常采用一定的搜索策略。

  2.2 网络爬虫的搜索策略

  1)深度优先搜索策略

  深度优先搜索是在开发爬虫初期使用较多的方式,它的目的是要达到被搜索结构的叶结点(即这些不包含任何超级链接的HTML文件)。在一个HTML文件中,当一个超级链接被选择后,被链接的HTML文件将执行深度优先搜索,即在搜索其余的超级链接结果之前必须先完整地搜索单独的一条链。深度优先搜索顺着HTML文件上的超级链接走到不能再深入为止,然后返回到某一个HTML文件,再继续选择该HTML文件中的其他超级链接。当不再有其他超级链接可选择时,说明搜索早已结束。其优点是能遍历一个Web站点或深层嵌套的文档集合。缺点是因为Web结构相当深,有可能导致一旦进去再也出不来的情况发生。

  2)宽度优先搜索策略

  在长度优先搜索中,先搜索完一个Web页面中所有的超级链接,然后再继续搜索下一层,直到底层为止。例如,一个HTML 文件中有3个超级链接,选择其中之一,处理相应的HTML文件,然后不再选择第二个HTML文件中的任何超级链接,而是返回,选择第二个超级链接,处理相应的HTML文件,再返回,选择第三个超级链接,并处理相应的HTML文件。一旦一层上的所有超级链接都被选择过,就可以开始在刚刚处理过的HIML文件中搜索其余的超级链接。这就保证了对浅层的首先处理。当遇见一个无穷尽的深层分支时网络爬虫 技术,不会造成陷进WWW的深层文档中出不来的情况发生。宽度优先搜索策略还有一个优点,它能在两个HTML文件之间找到最短路径。宽度优先搜索策略一般是实现爬虫的最佳策略,因为它容易实现,而且具备大多数期望的功能。但是假如要遍历一个指定的站点或则深层嵌套的HTML文件集,用长度优先搜索策略则须要耗费较长时间能够抵达深层的HTML文件。

  综合考虑以上几种策略和国外信息导航系统搜索信息的特性,国内通常采用以长度优先搜索策略为主,线性搜索策略为辅的搜索策略。对于个别不被引用的或极少被引用的HTML文件,宽度优先搜索策略可能会遗漏那些孤立的信息源,可以用线性搜索策略作为它的补充。

  3)聚焦搜索策略

  聚焦爬虫的爬行策略只跳出某个特定主题的页面,根据“最好优先原则”进行访问,快速、有效地获得更多的与主题相关的页面,主要通过内容与Web的链接结构指导进一步的页面抓取。聚焦爬虫会给它所下载的页面一个评价分,根据得分排序插入到一个队列中。最好的下一个搜索对弹出队列中的第一个页面进行剖析后执行,这种策略保证爬虫能优先跟踪这些最有可能链接到目标页面的页面。决定网路爬虫搜索策略的关键是怎样评价链接价值,即链接价值的估算方式,不同的价值评价方式估算出的链接的价值不同,表现出的链接的“重要程度”也不同,从而决定了不同的搜索策略。由于链接包含于页面之中,而一般具有较高价值的页面包含的链接也具有较高价值,因而对链接价值的评价有时也转换为对页面价值的评价。这种策略一般运用在专业搜索引擎中,因为这些搜索引擎只关心某一特定主题的页面。

  【福利】填问卷送精选测试礼包+接口测试课程!为测试行业做点事!

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线