动态网页抓取(如何利用Python网络爬虫爬取微信朋友圈数据的上篇(理论篇))

优采云 发布时间: 2022-01-30 03:15

  动态网页抓取(如何利用Python网络爬虫爬取微信朋友圈数据的上篇(理论篇))

  前天给大家分享了第一篇(理论篇)如何使用Python网络爬虫爬取微信朋友圈数据。今天给大家分享一下代码实现(实战篇),然后上一篇继续深入。

  一、代码实现

  1、修改 Scrapy 项目中的 items.py 文件。我们需要获取的数据是朋友圈和发布日期,所以我们在这里定义了两个属性,日期和动态,如下图所示。

  

  2、修改实现爬虫逻辑的主文件moment.py。首先,导入模块,特别是在 items.py 中导入 WeixinMomentItem 类。小心不要错过这一点。然后修改start_requests方法,具体代码实现如下。

  

  3、修改parse方法解析导航数据包。代码实现稍微复杂一些,如下图所示。

  

  4、定义parse_moment函数,提取朋友圈数据。返回的数据以 JSON 格式加载,JSON 用于提取数据。具体代码实现如下图所示。

  

  5、在setting.py文件中取消注释ITEM_PIPELINES,表示数据是通过这个管道处理的。

  

  6、 之后就可以在命令行运行程序了。在命令行输入scrapy crawl moment -o moment.json,就可以得到朋友圈的数据了。控制台输出的信息如下图所示。

  

  7、然后我们得到一个moment.json文件,里面存放着我们朋友圈的数据,如下图所示。

  

  8、嗯,你没看错,里面得到的数据确实是看不懂,不过这不是乱码,而是编码问题。解决这个问题的方法是删除原来的moment.json文件,然后在命令行重新输入如下命令:scrapy crawl moment -o moment.json -s FEED_EXPORT_ENCODING=utf-8,可以看到编码问题已解决 已解决,如下图所示。

  

  在下一篇文章中,小编将为大家直观的展示一下抓拍到的朋友圈数据,敬请期待~~

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线