解决方案:网页抓取数据的话--爬虫浏览器内核方式教程

优采云发布时间: 2022-09-21 21:07

　　网页抓取数据的话，一般有两种方式，一种是爬虫的抓取方式，一种是浏览器内核抓取方式。一般爬虫的抓取方式可以实现这种功能。具体使用请看我写的一篇文章。

　　先给大家看一下我爬取的某儿童网站：url是“-901094-344212.html”第一步，我们需要安装一个抓包工具jsonkpy，首先看一下效果：接下来就按照以下的教程操作：第一步，打开浏览器，进入该网站。很明显，其实页面都已经抓包出来了，我们是无法直接使用id命名的：这时候我们点击右上角的【审查元素】。

　　我们看到有一个【查看源代码】，这样我们就能获取到网页上的js脚本代码。点击【f12】打开开发者工具，找到【network】项，然后就可以清楚的看到所有的js代码了。接下来就可以像上一步一样，右键这段js，拖到execute里面去。然后我们就可以看到爬取出来的数据了：网页上的显示每一个数据都会显示到id命名的字段，如果对id命名不太熟悉的话，可以把页面的id作为你要抓取的字段进行操作。

　　除了这些，还有一个之前的文章曾经提到过的网站一键翻页代码，已经加到教程文章中了，如果大家有相关的需求，可以复制粘贴看看。其中还涉及到一个chrome浏览器插件，就不介绍了，大家自己看看教程就会用了。大家可以自己安装去试试。

0

2022-09-21

网页抓取数据

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

解决方案:网页抓取数据的话--爬虫浏览器内核方式教程

0 个评论

发起人

AI时代内容工厂

解决方案:网页抓取数据的话--爬虫浏览器内核方式教程

0 个评论

发起人

相关问题