动态网页抓取(如何利用Python网络爬虫爬取微信朋友圈数据的上篇（理论篇）)

优采云发布时间: 2022-01-30 03:15

　　前天给大家分享了第一篇（理论篇）如何使用Python网络爬虫爬取微信朋友圈数据。今天给大家分享一下代码实现（实战篇），然后上一篇继续深入。

　　一、代码实现

　　1、修改 Scrapy 项目中的 items.py 文件。我们需要获取的数据是朋友圈和发布日期，所以我们在这里定义了两个属性，日期和动态，如下图所示。

　　2、修改实现爬虫逻辑的主文件moment.py。首先，导入模块，特别是在 items.py 中导入 WeixinMomentItem 类。小心不要错过这一点。然后修改start_requests方法，具体代码实现如下。

　　3、修改parse方法解析导航数据包。代码实现稍微复杂一些，如下图所示。

　　4、定义parse_moment函数，提取朋友圈数据。返回的数据以 JSON 格式加载，JSON 用于提取数据。具体代码实现如下图所示。

　　5、在setting.py文件中取消注释ITEM_PIPELINES，表示数据是通过这个管道处理的。

　　6、之后就可以在命令行运行程序了。在命令行输入scrapy crawl moment -o moment.json，就可以得到朋友圈的数据了。控制台输出的信息如下图所示。

　　7、然后我们得到一个moment.json文件，里面存放着我们朋友圈的数据，如下图所示。

　　8、嗯，你没看错，里面得到的数据确实是看不懂，不过这不是乱码，而是编码问题。解决这个问题的方法是删除原来的moment.json文件，然后在命令行重新输入如下命令：scrapy crawl moment -o moment.json -s FEED_EXPORT_ENCODING=utf-8，可以看到编码问题已解决已解决，如下图所示。

　　在下一篇文章中，小编将为大家直观的展示一下抓拍到的朋友圈数据，敬请期待~~

0

2022-01-30

动态网页抓取

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

动态网页抓取(如何利用Python网络爬虫爬取微信朋友圈数据的上篇（理论篇）)

0 个评论

发起人