网页抓取qq(Google的MattCutts确认了AdSense的Mediabot的确是会帮助Googlebot网页的)
优采云 发布时间: 2021-11-29 01:13网页抓取qq(Google的MattCutts确认了AdSense的Mediabot的确是会帮助Googlebot网页的)
Google 的 Matt Cutts 证实 AdSense 的 Mediabot 确实会帮助 Googlebot 抓取网页,但有些人不相信 Matt Cutts,或者不相信他可以代表 Google 官员。作为 Matt Cutts 博客的忠实读者,我认为没有必要在 Matt Cutts 的权威上花任何篇幅。我想说的是,Matt Cutts 是谷歌质量管理部门的高级软件工程师。外界所知道的是,他负责研发防止垃圾邮件和控制排名的技术。所以,信不信由你,当然这取决于你。
镇江网站建筑公司
事实上,马特上次透露的只是内容的一个方面。今天Matt再次写了一篇很详细的文章,讲解了谷歌的各种bot是如何爬取网页的,以及谷歌最新的BigDaddy在爬取网页方面有哪些新的变化等等。非常精彩,分享给大家。
首先要介绍的是谷歌的爬取缓存代理。Matt 举了一个 ISP 和一个用户的例子来说明它。用户上网时,总是先通过ISP获取网页内容,再由ISP缓存用户访问过的网页,以备后用。例如,当用户A访问时,中国电信(或网通等)会将80后创业基地发送给用户A,然后缓存80后创业基地。当用户B下一秒再次访问时,中国电信会将缓存中幻灭的麦克风发送给用户B,从而节省带宽。
正如本站此前报道的那样,谷歌最新的软件升级(转移到BigDaddy)已经基本完成,所以升级后谷歌的各方面能力都会得到加强。这些增强功能包括更智能的 googlebot 抓取、改进的标准化以及更好的 收录 网页功能。在Googlebot抓取和抓取网页方面,谷歌也采用了节省带宽的方法。Googlebot 也随着 BigDaddy 的升级而升级。新的Googlebot已经正式支持gzip编码,所以如果你的网站开启了gzip编码,可以节省Googlebot在抓取你的网页时占用的带宽。
除了改进后的Googlebot,升级后的Google还会使用上面提到的抓取缓存代理来抓取网页,进一步节省带宽。
创业基地SEO频道了解到:谷歌蜘蛛主要在Googlebot上爬行,A服务器指的是AdSense,N服务器可以是Google的blogsearch或其他。我们可以看到同样的网站,Googlebot,AdSense的Mediabot,blogsearch的bots都爬过了,重复爬取的次数很多。升级后的谷歌使用的抓取缓存代理呢?
很明显,因为爬虫缓存代理缓存了各种爬虫的爬取,当Googlebot已经爬取了一些网页,而Mediabot或者其他爬虫又爬取了重复的网页时,爬取缓存代理就会发挥作用。缓存中的网页直接返回给Mediabot等,减少了实际爬取次数,节省了带宽。
从马特的分析可以看出,谷歌确实可以为自己和网站节省带宽。好处是谷歌的各种大庆网站建筑公司bots可以在一定时间内爬取更多。网页方便收录。我的理解是,虽然好处很明显,但也有坏处。例如,当 网站 以 AdSense 的*敏*感*词*为生时,它需要 AdSense 的 Mediabot 不断访问以分析其更新网页的内容并投放更多相关广告。但是当这个网站是一个具有良好PR值的网站时,那么Googlebot很可能每天都在抓取它。这样,抓取缓存代理就会缓存Googlebot的抓取,等待Mediabot再次来。爬行时,它直接将缓存的内容返回给 Mediabot。这减少了 Mediabot 抓取此 网站 的次数。由于这两个机器人使用的工作机制并不完全相同,因此这个 网站 可能会因为 Mediabot 抓取次数的减少而降低所展示的 AdSense 广告的相关性。