动态网页抓取( 微信朋友圈数据入口搞定了，获取外链的方法有哪些？)

优采云发布时间: 2022-01-16 19:12

　　动态网页抓取(

微信朋友圈数据入口搞定了，获取外链的方法有哪些？)

　　2、然后点击首页的【创建图书】-->【微信图书】。

　　3、点击【开始制作】-->【添加随机分配的图书编辑为好友】，然后长按二维码添加好友。

　　4、之后，耐心等待微信书制作完成。完成后会收到小编发送的消息提醒，如下图所示。

　　至此，我们完成了微信朋友圈的数据录入，并获得了外链。

　　确保朋友圈设置为[全部打开]。默认是全部打开。如果不知道怎么设置，请百度。

　　5、点击外部链接，然后进入网页，需要使用微信扫码授权登录。

　　6、扫码授权后，即可进入微信书网页版，如下图。

　　7、接下来，我们就可以编写爬虫程序来正常爬取信息了。这里小编使用Scrapy爬虫框架，Python使用版本3，集成开发环境使用Pycharm。下图为微信书首页，图片由小编定制。

　　二、创建爬虫项目

　　1、确保您的计算机上安装了 Scrapy。然后选择一个文件夹，在文件夹下输入命令行，输入执行命令：

　　scrapy startproject weixin_moment

　　，等待生成Scrapy爬虫项目。

　　2、在命令行输入cd weixin_moment，进入创建好的weixin_moment目录。然后输入命令：

　　scrapy genspider 'moment' 'chushu.la'

　　，创建朋友圈爬虫，如下图。

　　3、执行上述两步后的文件夹结构如下：

　　三、分析网页数据

　　1、进入微信书首页，按F12，推荐使用谷歌浏览器，查看元素，点击“网络”标签，然后勾选“保存日志”保存日志，如图下图。可以看到首页的请求方法是get，返回的状态码是200，表示请求成功。

　　2、点击“Response”（服务器响应），可以看到系统返回的数据是JSON格式的。说明后面我们需要在程序中处理JSON格式的数据。

　　3、点击微信书的“导航”窗口，可以看到数据是按月加载的。单击导航按钮时，它会加载相应月份的 Moments 数据。

　　4、点击月份[2014/04]，再查看服务器响应数据，可以看到页面显示的数据对应服务器响应。

　　5、查看请求方式，可以看到此时的请求方式已经变成了POST。细心的小伙伴可以看到，当点击“下个月”或者其他导航月份时，首页的URL没有变化，说明网页是动态加载的。对比多个网页请求后，我们可以看到“Request Payload”下的数据包参数在不断变化，如下图所示。

　　6、将服务器响应的数据展开，放入JSON在线解析器，如下图：

　　可以看到朋友圈的数据是存放在paras /data节点下的。

　　至此，网页分析和数据的来源已经确定。接下来，我们将编写一个程序来捕获数据。敬请期待下一篇文章~~

0

2022-01-16

动态网页抓取

0 个评论

要回复文章请先登录或注册