ajax抓取网页内容(关于百度搜索引擎工作原理知识,有不少站长SEO还没有)

优采云 发布时间: 2021-12-30 15:01

  ajax抓取网页内容(关于百度搜索引擎工作原理知识,有不少站长SEO还没有)

  关于百度搜索引擎的工作原理,很多站长都没有仔细阅读和理解SEO。本文讲解了百度蜘蛛爬取系统的原理和索引构建,让SEOer对百度蜘蛛的索引构建有更多的了解。

  一、Spider抓取系统的基本框架

  互联网信息的爆炸式增长,如何有效地获取和使用这些信息是搜索引擎工作中最重要的环节。数据采集​​系统作为整个搜索系统的上游,主要负责互联网信息的采集、保存和更新。它像蜘蛛一样在网络中爬行,所以通常被称为“蜘蛛”。比如我们常用的几种常见的搜索引擎蜘蛛叫做:Baiduspdier、Googlebot、搜狗网蜘蛛等。

  蜘蛛爬取系统是搜索引擎数据来源的重要保障。如果把网络理解为一个有向图,那么蜘蛛的工作过程可以看作是对这个有向图的一次遍历。从一些重要的*敏*感*词*网址开始,通过页面上的超链接,不断地发现和抓取新的网址,尽可能多地抓取有价值的网页。对于像百度这样的大型蜘蛛系统,由于网页随时都有可能被修改、删除或出现新的超链接,所以需要更新以前蜘蛛爬过的页面,并维护一个URL库和页面库.

  下图为蜘蛛爬取系统的基本框架,包括链接存储系统、链接选择系统、dns解析服务系统、爬取调度系统、网页分析系统、链接提取系统、链接分析系统、网页存储系统. 百度蜘蛛通过本系统的配合完成对网页的抓取。

  二、百度蜘蛛的主要爬取策略类型

  上图看似简单,但Baiduspider在爬取过程中实际上面临着一个超级复杂的网络环境,为了让系统尽可能多的抓取有价值的资源,并保持页面在系统和实际环境中的一致性在同时不会给网站体验带来压力,会设计出多种复杂的爬取策略。以下是简要介绍:

  1. 抓取友好

  互联网资源的巨大数量级要求抓取系统尽可能高效地使用带宽,在有限的硬件和带宽资源下抓取尽可能多的有价值的资源。这就产生了另一个问题。抓取网站的带宽消耗造成访问压力。如果度数过大,将直接影响抓取网站的正常用户访问行为。因此,在爬取过程中,必须控制一定的爬取压力,以达到不影响用户正常访问网站,抓取尽可能多的有价值资源的目的。

  通常,最基本的是基于ip的压力控制。这是因为如果是基于一个域名,可能会出现一个域名对应多个ip(很多大网站)或者多个域名对应同一个ip(小网站共享ip)的问题。在实际中,压力部署控制往往是根据ip和域名的各种情况进行的。同时,站长平台也推出了压力反馈工具。站长可以手动调整自己网站的爬虫压力。此时,百度蜘蛛会根据站长的要求,优先进行爬取压力控制。

  同一个站点的抓取速度控制一般分为两类:一类是一段时间内的抓取频率;二是一段时间内的爬取流量。同一个站点的爬取速度在不同的时间会有所不同。例如,在夜晚安静、月亮暗、风大的时候,爬行速度可能会更快。它还取决于特定的站点类型。主要思想是错开正常用户访问的高峰期,不断调整。对于不同的站点,也需要不同的爬取速度。

  

  3、新链接重要性的判断

  在建库链接之前,百度蜘蛛会对页面进行初步的内容分析和链接分析,通过内容分析判断网页是否需要建索引库,通过链接分析找到更多的网页,然后抓取更多的网页——分析——是否建库&发现新链接的过程。理论上,百度蜘蛛会检索新页面上所有可以“看到”的链接。那么,面对众多的新链接,百度蜘蛛是根据什么判断哪个更重要呢?两个方面:

  首先,对用户的价值是独一无二的。百度搜索引擎喜欢独特的内容突出。不要因为网页的主要内容不突出而被搜索引擎误判为空页和短页。其次,链接很重要。目录级别-站点中浅优先链接的流行度

  

  四、百度优先建设重要图书馆的原则

  百度蜘蛛抓取的页面数量并不是最重要的。重要的是一个索引数据库建了多少页,也就是我们常说的“建库”。众所周知,搜索引擎的索引库是分层的。优质的网页会被分配到重要的索引库,普通的网页会留在普通的图书馆,更糟糕的网页会被分配到低级别的图书馆作为补充资料。目前60%的搜索需求只需要调用重要的索引库就可以满足,这也解释了为什么有些网站流量极高却一直不尽人意的原因。

  那么,哪些网页可以进入优质索引库呢?其实总的原则是一个:对用户有价值。包括但不仅限于:

  及时性和有价值的页面:在这里,及时性和价值并存,缺一不可。有些网站为了生成时间敏感的内容页面,做了大量的采集工作,产生了一堆毫无价值的页面,百度不想看到。优质专题页:专题页内容不一定完全原创,也可以很好的整合各方内容,或者添加一些新鲜的内容,如意见、评论等,为用户提供更丰富、更多的内容内容全面。高价值原创内容页面:百度将原创定义为经过一定成本和大量经验形成的文章。不要问我们伪原创是不是原创。重要的个人页面:这里只是一个例子。科比已经在新浪微博上开设了一个账户。就算他不经常更新,对百度来说也是极其重要的一个页面。5、哪些网页不能建索引库

  上述优质网页都被收录在索引库中,但实际上,互联网上的大多数网站根本没有被百度收录。不是百度没找到,而是建库前的筛选链接被过滤掉了。那么一开始过滤掉了什么样的网页:

  内容重复的网页:百度无需收录

互联网上已有的内容。主要内容较短的网页使用了百度蜘蛛无法解析的技术,如JS、AJAX等,虽然用户访问时可以看到丰富的内容,但仍会被搜索引擎丢弃。加载速度较慢的网页也可用作将短页面视为空白。请注意,广告的加载时间计为网页的整体加载时间。很多主体不突出的网页,即使被爬回来,也会在这个链接中被丢弃。一些作弊页面

  更多关于aiduspider爬取系统原理和索引构建,请到百度站长论坛查看文档。

  这篇文章就到此为止,希望能给大家带来一些思考。想学习更多SEO专业知识,可以关注微信公众号:“爱学SEO”,阅读好文章和优质教学视频。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线