网站内容更新系统(谷歌开发一套新系统作法同传统新闻聚合服务颇为相似)
优采云 发布时间: 2021-10-21 23:09网站内容更新系统(谷歌开发一套新系统作法同传统新闻聚合服务颇为相似)
腾讯科技讯(编译/中涛)北京时间3月4日,据美国科技博客网站ReadWriteWeb报道,谷歌正在开发一种新系统,可以让任何规模的网络发布者发布新内容。两者都可以在几秒钟内自动将内容提交到 Google 搜索索引目录。
美国搜索引擎技术网站SearchEngineLand主编丹尼·沙利文(Danny Sullivan)认为,谷歌的新系统无疑将为公司“开启新的篇章”。
谷歌 PubSubHubbub(以下简称“PuSH”)实时同步协议开发负责人 Brett Slatkin 去年秋天表示,他希望谷歌未来可以使用 PuSH 协议对网页内容进行索引,而不是放弃主要搜索。引擎厂商使用多年的网络爬虫技术。
谷歌高级产品经理迪伦凯西(Dylan Casey)周二在加利福尼亚州圣克拉拉举行的搜索营销博览会上表示,谷歌计划很快为网站所有者提供相关技术标准,使这些网站能够参与在 PuSH 等技术协议中。
工作准则
据悉,PuSH是一个基于ATOM格式的同步系统。内容发布者使用系统时,会对外发布一个Hub,Hub负责通知每一个新发布的内容。注册用户相当于告诉Hub:“每次内容发布者发布新内容,请立即发送给我。” 这样,注册用户不再需要访问内容发布者的初始网站是否有内容更新,只需要等待Hub的通知即可。也就是说,每次内容发布者发布新内容时,都会自动通知Hub,然后Hub 会将所有内容发送给所有注册用户。整个过程只需要几秒钟。
如果 Google 使用 PuSH 协议建立网页内容索引,它可以要求所有 网站 使用该技术,同时要求这些 网站 报告各自的 Hub。然后 Google 会使用 PuSH 发布的信息随时查找每个 网站 上发布的新内容。这种方法与传统的 RSS 新闻聚合服务非常相似。
ReadWriteWeb 认为,PuSH 协议不太可能完全取代目前使用的爬虫技术。其实要获取PuSH传递的信息,首先需要用到爬虫技术。尽管如此,如果谷歌使用PuSH协议,无疑会让公司现有的索引技术更加强大。
SearchEngineLand 的 Sullivan 表示,谷歌未来必须考虑采用垃圾邮件控制机制,而不是不加选择地让所有信息收录 进入索引。他指出,在搜索引擎技术发展初期,出现过这种内容的过度抓取,给各大搜索引擎服务造成了“*敏*感*词*烦”。
产品优势
从操作的角度来看,PuSH 协议的效率更高。谷歌的 Slatkin 表示,更重要的是,如果使用 PuSH 协议,将对小 网站 产生更积极的影响。目前,谷歌爬虫每周只抓取一次大量小型网站。使用PuSH协议后,这些小网站可以随时向Google提交新发布的内容。
更丰富的互联网内容、更及时的发布、更高的运营效率,无疑将惠及每一个人,而不仅仅是谷歌。PuSH 是一个开放协议,也可以被 Yahoo 和 Microsoft Bing 访问。斯拉特金说:“我的技术总监说,即使是竞争对手,我们也要对这个协议采取公开的推广方式。”