网页qq抓取什么原理(Google的crawlcaching(爬行缓存代理)(缓存)的方法 )
优采云 发布时间: 2021-10-11 08:26网页qq抓取什么原理(Google的crawlcaching(爬行缓存代理)(缓存)的方法
)
前几天,我们 adsenseaece_39018.php" target=_blank> 报道了 Google 的 Matt Cutts 证实 AdSense 的 Mediabot 确实会帮助 Googlebot 抓取网页,但也有人不相信 Matt Cutts 或者不相信他可以代表谷歌官方。作为Matt Cutts博客的忠实读者,我认为没有必要在Matt Cutts的权威上花篇幅。我想说的是,Matt Cutts是Matt Cutts博客的成员谷歌的质量管理部门,一个高级软件工程师,外界知道的是他负责开发防止垃圾邮件和恶意控制排名的技术。所以,信不信由你,当然取决于你
.
事实上,马特上次透露的只是内容的一个方面。今天Matt再次写了一篇很详细的文章,讲解了谷歌的各种bot是如何爬取网页的,以及谷歌最新的BigDaddy在爬取网页方面有哪些新的变化等等,非常精彩,分享给大家。
首先要介绍的是谷歌的“抓取缓存代理”。Matt 举了一个 ISP 和一个用户的例子来说明它。用户上网时,总是先通过ISP获取网页内容,再由ISP缓存用户访问过的网页,以备后用。例如,当用户A访问时,中国电信(或网通等)会将“幻灭话筒”发送给用户A,然后缓存“幻灭话筒”,当用户B下一秒再次访问时,则中国电信会将缓存中的“幻灭话筒”发送给用户B,从而节省带宽。
正如本站此前报道的那样,谷歌最新的软件升级(转移到BigDaddy)已经基本完成,所以升级后谷歌的各方面能力都会得到加强。这些增强功能包括更智能的 googlebot 抓取、改进的标准化以及更好的 收录 网页功能。在Googlebot抓取和抓取网页方面,谷歌也采用了节省带宽的方法。Googlebot 也随着 BigDaddy 的升级而升级。新版Googlebot已经正式支持gzip编码,所以如果你的网站开启了gzip编码,可以节省Googlebot在抓取网页时占用的带宽。
除了改进后的Googlebot,升级后的Google还会使用上面提到的抓取缓存代理来抓取网页,进一步节省带宽。下面是传统Googlebot如何抓取网站的*敏*感*词*: