抓取动态网页(提供了fetchloader,让你通过put的发送与接收)
优采云 发布时间: 2022-02-27 16:02抓取动态网页(提供了fetchloader,让你通过put的发送与接收)
抓取动态网页的话,简单的说是google提供了fetchloader,让你通过post或者put实现页面的发送与接收。首先,你需要有个fetchloader,你可以查看fetchapi,看看fetchtoken是否带有post,post是否带有upload。然后,你会用到disqus。disqus采用dispatchevent的模式让网页发送与接收。最后你会用到https保护。
刚好有研究这个,建议去googlereader查看*敏*感*词*转发json的脚本,因为dispatchevent只能给你的浏览器推送,
爬虫貌似没有出现,但浏览器上可以接受一定的cookie。这个cookie存在于浏览器端,然后浏览器会对你站点上所有被cookie存过的网页返回相应的response,其中包括dom。如果dom中网页不需要有任何变化,dom会直接返回一串类似json数据的东西。但是可以通过jsonpath来区分json的存放位置,例如存在index.html位置会返回jsonpath:'index.html',存在index.js这些位置会返回jsonpath:'index.js'等等,当然你如果需要知道每一个网页存放的位置可以用jsonmapping来查找。
如果你的网站是基于http的,它的response里面也包含了大量dom,dom同样可以通过jsonmapping来查找,但是在中国,政策性的网站都是禁止jsonmapping的。