抓取网页数据(要说的起源,我们还得从搜索引擎说起,什么是搜索引擎呢?)
优采云 发布时间: 2021-10-14 04:16抓取网页数据(要说的起源,我们还得从搜索引擎说起,什么是搜索引擎呢?)
----要说网络蜘蛛的由来,就得从搜索引擎说起。什么是搜索引擎?搜索引擎的起源是什么?这与网络蜘蛛的起源密切相关。
----搜索引擎是指自动从互联网上采集信息,并提供给
网络蜘蛛用户进行查询的系统。互联网上的信息海量且杂乱无章。所有的信息就像海洋中的小岛。网页链接是这些小岛之间的桥梁,搜索引擎可以一目了然地为你画图。信息图供您随时查看。
----搜索引擎于1990年作为雏形首次出现,如今已成为人们生活中不可或缺的一部分。它经历了太多的技术和概念变化。
---- 1994年1月,第一个可搜索和可浏览的目录EINetGalaxy推出。雅虎出现在它之后,直到我们现在知道谷歌和百度。但他们并不是第一个吃掉搜索引擎螃蟹的人。从在FTP上搜索文件开始,搜索引擎的雏形出现了。那个时候还没有万维网。那个时候,人们通过手工搜索网络,然后用蜘蛛程序搜索。但是,随着互联网的不断发展,如何采集网页数量?越来越短的时间成为当时的难点和焦点,成为人们研究的焦点。
搜索引擎原型
----如果你想回去,搜索引擎的历史比万维网还要长。早在 Web 出现之前,Internet 上就已经有许多旨在让人们共享的信息资源。这些资源主要存在于各种允许匿名访问的FTP站点中。为了方便人们在分散的FTP资源中找到自己需要的东西,1990年,加拿大麦吉尔大学的几位大学生开发了一款软件Archie。它是一个可搜索的 FTP 文件名列表。用户必须输入准确的文件名进行搜索,然后 Archie 会告诉用户哪个 FTP 地址可以下载文件。Archie其实就是一个大数据库,加上一套与这个大数据库相关的检索方法。虽然 Archie 还不是搜索引擎,
----当万维网(WorldWideWeb)出现时,人们可以通过html传播网络信息,互联网上的信息开始呈指数级增长。人们使用各种方法来采集互联网上的信息,并对其进行分类和整理,以方便搜索。熟悉的网站雅虎(Yahoo)就是在这种环境下诞生的。仍在斯坦福大学读书的华裔美国人杨志远和他的同学开始沉迷于互联网。他们在互联网上采集了有趣的网页,并与同学们分享。后来,在 1994 年 4 月,他们两人共同创办了雅虎。随着访问次数和收录链接数量的增加,雅虎目录开始支持简单的数据库搜索。但是由于雅虎的数据是人工录入的,它不能真正归类为搜索引擎。事实上,它只是一个可搜索的目录。
网络蜘蛛
网络蜘蛛
----当“蜘蛛”程序出现时,现代意义上的搜索引擎才刚刚开始出现。它实际上是一种计算机“机器人”(Computer Robot),计算机“机器人”是指能够以人类无法达到的速度不间断地执行某项任务的某种软件程序。因为专门用来检索信息的“机器人”程序像蜘蛛一样在网络中四处爬行,反复不知疲倦。因此,搜索引擎的“机器人”程序被称为“蜘蛛”程序。
----这种程序实际上是利用html文档之间的链接关系来抓取Web上的每个页面,抓取这些页面进入系统进行分析,并放入数据库中。第一个开发“蜘蛛”程序的是马修格雷。他在 1993 年开发了万维网漫游器。最初建立它是为了计算 Internet 上的服务器数量,后来发展为能够捕获 URL。现代搜索引擎的思想起源于Wanderer,后来很多人在此基础上改进了蜘蛛程序。
----Lycos网站于1994年7月20日发布,率先将“蜘蛛”程序集成到其索引程序中。引入“蜘蛛”后给它带来的最大优势是它比其他搜索引擎拥有更多的数据。从那时起,几乎所有占主导地位的搜索引擎都依靠“蜘蛛”来采集网页信息。Infoseek 是另一个重要的搜索引擎,直到 1994 年底才与公众见面。起初,Infoseek 只是一个不起眼的搜索引擎。它遵循了雅虎的概念!和 Lycos 并没有任何独特的创新。但其友好的用户界面和大量的附加服务在用户中赢得了声誉。1995 年 12 月,它与 Netscape 的战略协议使其成为一个强大的搜索引擎:当用户单击 Netscape 浏览器上的搜索按钮时,会弹出 Infoseek 搜索服务,该服务以前由 Yahoo! 提供!1995年12月15日,Alta Vista正式上线。它是第一个支持高级搜索语法的搜索引擎。它通过向量空间模型成功地集成了以前所有的人类信息检索技术,包括部首处理、关键词检索、布尔逻辑和查询排序。以及其他关键问题。在正式发布之前,Alta Vista 已经有 20 万访问者。在短短三周内,参观人数从每天 30 万增加到 200 万。它的成功在于满足了用户三个方面的需求:在线索引的范围超过了以往任何搜索引擎;它可以在短短几秒钟内从庞大的数据库中返回用户的搜索结果;Alta Vista 团队一直采用模块化设计技术,在不断扩展处理能力的同时,可以追踪网站的流行趋势。在当时众多的搜索引擎中,Alta Vista 脱颖而出,成为互联网搜索的代名词。谷歌正在这些巨头的肩膀上进行颠覆和创造。“在线搜索”改变了人们上网的方式,它就是现在大名鼎鼎的谷歌。谷歌并不是搜索引擎的发明者,甚至有点落后,但它已经让人们爱上了搜索。在当时众多的搜索引擎中,Alta Vista 脱颖而出,成为互联网搜索的代名词。谷歌正在这些巨头的肩膀上进行颠覆和创造。“在线搜索”改变了人们上网的方式,它就是现在大名鼎鼎的谷歌。谷歌并不是搜索引擎的发明者,甚至有点落后,但它已经让人们爱上了搜索。在当时众多的搜索引擎中,Alta Vista 脱颖而出,成为互联网搜索的代名词。谷歌正在这些巨头的肩膀上进行颠覆和创造。“在线搜索”改变了人们上网的方式,它就是现在大名鼎鼎的谷歌。谷歌并不是搜索引擎的发明者,甚至有点落后,但它已经让人们爱上了搜索。
----1998年9月,佩奇和布林创立谷歌时,业界对互联网搜索功能的理解是:某个关键词出现在文档中越频繁,文档在搜索结果中出现的排列位置in 会更加突出。这就引出了这个问题。如果某个页面充斥着某个关键词,它会被排在显眼的位置,但这样的页面对用户来说没有任何意义。佩奇和布林发明了“页面排名”(PageRank)技术来对搜索结果进行排名。即,检查链接页面在 Internet 上的频率和重要性以进行排名。网站在互联网上指向该页面越重要,该页面的排名就越高。当从网页 A 链接到网页 B 时,Google 认为“网页 A 投票给了网页 B”。谷歌根据网页的投票数评估其重要性。但是,除了考虑网页上的纯投票数外,Google 还会分析投票的网页。“重要”网页所投的票将具有更高的权重,有助于增加其他网页的重要性。”。谷歌以其复杂、全自动的搜索方式,排除了任何影响搜索结果的人为因素。没有人可以花钱购买更高的页面级别,从而保证了客观公正的页面排名。此外,集成搜索,如动态摘要、网页快照、多文档格式支持、地图库存词典中的人物搜索等功能也深受网民欢迎,许多其他搜索引擎也紧随谷歌推出了这些服务。Fast(Alltheweb)发布的搜索引擎AllTheWeb总部位于挪威,其海外风头与谷歌接近。Alltheweb的网页搜索支持Flash和pdf搜索,支持多语言搜索,还提供新闻搜索、图片搜索、视频、MP3、和FTP搜索,具有极其强大的高级搜索功能。而中国的百度正在通过“了解更多中文”来吸引中国在线观众。它拥有超过10亿个中文网页的数据库,并且这些网页的数量每天以数千万的速度增长。视频、MP3、和FTP搜索,并具有极其强大的高级搜索功能。而中国的百度正在通过“了解更多中文”来吸引中国在线观众。它拥有超过10亿个中文网页的数据库,并且这些网页的数量每天以数千万的速度增长。视频、MP3、和FTP搜索,并具有极其强大的高级搜索功能。而中国的百度正在通过“了解更多中文”来吸引中国在线观众。它拥有超过10亿个中文网页的数据库,并且这些网页的数量每天以数千万的速度增长。
----搜索引擎越来越成为人们生活中的重要组成部分。查资料、查地图、听音乐,只有想不到的东西,没有搜不到的东西。
搜索引擎原理解析
----1.利用蜘蛛系统程序自动上网,沿着任意一个网页中的所有网址爬到其他网页,重复这个过程,把已经爬回来的网页全部采集回来。
----2. 分析索引系统程序对采集到的网页进行分析,提取相关网页信息,并按照一定的相关性算法进行大量复杂的计算,得到每个网页所指的内容页面和超链接每个关键词的相关性(或重要性),然后利用这些相关信息来构建网页索引数据库。
----3. 当用户输入关键词进行搜索时,搜索系统程序会从网页索引数据库中查找所有与关键词匹配的相关网页。然后根据相关性、网页权重、网页体验等进行排序,总分越高,排名越高。最后,页面生成系统将搜索结果的链接地址和页面的内容摘要进行整理并返回给用户。
----说到这里,您可能对搜索引擎和网络蜘蛛有了初步的了解!