解决方案:网页抓取数据的话--爬虫浏览器内核方式教程

优采云 发布时间: 2022-09-21 21:07

  解决方案:网页抓取数据的话--爬虫浏览器内核方式教程

  网页抓取数据的话,一般有两种方式,一种是爬虫的抓取方式,一种是浏览器内核抓取方式。一般爬虫的抓取方式可以实现这种功能。具体使用请看我写的一篇文章。

  

  先给大家看一下我爬取的某儿童网站:url是“-901094-344212.html”第一步,我们需要安装一个抓包工具jsonkpy,首先看一下效果:接下来就按照以下的教程操作:第一步,打开浏览器,进入该网站。很明显,其实页面都已经抓包出来了,我们是无法直接使用id命名的:这时候我们点击右上角的【审查元素】。

  

  我们看到有一个【查看源代码】,这样我们就能获取到网页上的js脚本代码。点击【f12】打开开发者工具,找到【network】项,然后就可以清楚的看到所有的js代码了。接下来就可以像上一步一样,右键这段js,拖到execute里面去。然后我们就可以看到爬取出来的数据了:网页上的显示每一个数据都会显示到id命名的字段,如果对id命名不太熟悉的话,可以把页面的id作为你要抓取的字段进行操作。

  除了这些,还有一个之前的文章曾经提到过的网站一键翻页代码,已经加到教程文章中了,如果大家有相关的需求,可以复制粘贴看看。其中还涉及到一个chrome浏览器插件,就不介绍了,大家自己看看教程就会用了。大家可以自己安装去试试。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线