js 爬虫抓取网页数据(*敏*感*词*确认Google所作的远远超过对各种链接的简单分析)

优采云 发布时间: 2022-02-09 10:06

  js 爬虫抓取网页数据(*敏*感*词*确认Google所作的远远超过对各种链接的简单分析)

  谷歌的搜索爬虫能够读取 JavaScript 代码已经有很长时间了,但多年来一直不清楚谷歌的爬虫是真的明白它在爬什么,还是只是在解释各种链接执行死板的搜索。周五,谷歌发言人向*敏*感*词*证实,谷歌所做的远不止是对 js 代码的简单分析。“谷歌能够分析和理解一些JavaScript,”发言人说。

  谷歌的演示让我们意识到,它的爬虫可能不仅仅是获取页面的相关链接,还可以与人类等程序进行交互——发现像 Bing 这样的搜索引擎无法发现的在线世界。而这意味着谷歌重新定义了搜索引擎。谷歌搜索结果中只有少​​数几个js代码,而谷歌预留了​​很多这段js代码的解释功能。例如,Google 的 SiteSearch 上的文档显示它无法使用 js 代码索引内容。一本关于索引的介绍性教科书指出,它(谷歌的爬虫)“不能处理富媒体内容或动态网页”。仔细检查服务器日志中的记录表明,谷歌现在正在索引不直接收录在 js 代码中的链接。谷歌'

  独立搜索引擎公司 Wowd 的 CEO Mark Drummond(我们今年早些时候在我们的杂志上采访过他)在一封电子邮件中告诉我们,理解 js 代码“是一个非常深刻、困难和经典的计算科学问题。” 他解释说,谷歌的努力在于它能够找出页面中的 js 代码是否已经停止运行。“停滞的问题是无法确定的,”他说,并说没有已知的算法可以告诉我们是否有任何程序在任何时间点陷入无限循环,并且已经在数学上证明了这一点。Drummond 自己的公司手动搜索其索引并标记是否可以简化复杂问题,同时还确定一个网络程序是否正在向另一个网络程序发出数据请求。也许,

  另一位接近 Google 的搜索引擎人士同意 Drummond 关于理解 js 代码复杂性的观点。他认为用一个程序分析另一个程序是非常困难的,执行js代码几乎是现阶段所能做的极限。

  而谷歌6月份发布的改进型搜索算法(即Caffeine)似乎可以看懂部分js代码。如果这是真的,那么谷歌的工程师已经教会了它的爬虫如何执行部分 js 代码。多么大的突破!

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线