第一章搜索引擎如何运行和抓取和索引互联网
优采云 发布时间: 2021-05-11 22:14第一章搜索引擎如何运行和抓取和索引互联网
第一章如何运行搜索引擎
搜索引擎具有四个功能:搜寻,建立索引数据库,计算相关性和排名以及提供索引结果。搜索引擎对数亿个网页,文档,新闻,图片,视频和其他内容进行爬网并编制索引。当搜索者提出搜索请求时,搜索引擎将根据相关性排列索引结果并将其提供给搜索者。
1、爬行和建立索引
Internet就像一个巨大的城市地铁系统。 网站和网站中的页面(可能是pdf文件,jpg图片等)类似于地铁系统中的车站,为了允许火车到达各个车站,在地铁系统中,需要有不同的线路连接电台,Internet上网站或网站中连接不同页面的线路只是链接。
服务器中的链接结构连接网站中的所有页面,或至少确保搜索引擎可以访问所有页面。通过这些链接,搜索引擎机器人(或“爬行者”或“蜘蛛”)可以到达网站的每个角落。
一旦搜索引擎找到了这些页面,它们的下一个工作就是分析页面代码,选择有用的内容,存储它们,并在用户提出搜索请求时将结果提供给用户。为了能够在最短的时间内为用户提供满足搜索要求的内容,全世界已经建立了许多大型数据库来存储由搜索引擎蜘蛛抓取的网站(网页)的内容。当用户使用搜索引擎进行搜索时,即使此延迟仅为3、 4秒,也会引起用户之间的极大不满。因此,主流用户将快速交付结果作为其首要任务。
2、提供搜索结果
当用户使用搜索引擎进行查询时,搜索引擎将在其自己的数据库中查找用户所需的信息。这时,搜索引擎将做两件事。与查询相关的结果提供给用户,第二个是按重要性顺序对这些结果进行排序。这两点(相关性和重要性)恰好是网站,在搜索引擎优化中需要注意。
对于搜索引擎而言,相关性不仅仅是在页面上突出显示用户搜索的单词。在Internet的早期,搜索引擎仅以粗体或突出显示用户搜索的内容。随着技术的发展和进步,杰出的工程师找到了越来越多的更好的方法来为用户提供更有价值的搜索结果。如今,影响关联性的因素越来越多,我们将在后面详细介绍。
尽管影响关联性的因素有数百种,但是关联性仍然很难量化,而影响搜索结果排名的另一个因素(重要性)也是难以量化的指标。尽管很难量化,但搜索引擎仍然必须努力做到这一点。
最近,主流人喜欢使用声望和口碑来衡量网站或网页的重要性。 网站在用户心目中的地位越高,其信誉就越好,所提供的内容和信息越有价值,网站在搜索引擎的眼中就越重要。从实际情况来看,通过声望和口碑来判断网站的重要性更为成功。
搜索引擎不依靠人类来判断网站的重要性和相关性。如果做出人工判断,工作量将非常巨大。在这方面,搜索引擎拥有自己的一套评分标准,我们称之为“算法”。搜索引擎算法中收录数百个变量,这就是我们通常所说的影响排名的因素。
原文:SEOmoz PDF版本
翻译:发表在北大青鸟门户网站()原创,请以转载链接的形式注明出处,谢谢!