网页qq抓取什么原理( 翻了翻之前关于QQ空间的登录问题并做可视化分析)

优采云发布时间: 2022-03-31 05:01

　　网页qq抓取什么原理(

翻了翻之前关于QQ空间的登录问题并做可视化分析)

　　浏览了之前关于爬行动物的文章。. .

　　好像一直在欺负小网站，没什么挑战性。. .

　　那么，就来一波TX“试水”吧~~~

　　本着长期流（懒惰）T_T的原则，本期文章决定分成两篇。第一部分主要解决QQ空间的登录问题并尝试抓取一些信息，第二部分专门用于抓取QQ空间的好友信息并做可视化分析。

　　让我们快乐地开始吧~~~

　　开发工具

　　Python 版本：3.6.4

　　相关模块：

　　请求模块；

　　硒模块；

　　lxml 模块；

　　还有一些 Python 自带的模块。

　　环境建设

　　安装Python并添加到环境变量中，pip安装需要的相关模块，进入：

　　下载与您使用的 Chrome 浏览器版本对应的驱动程序文件。下载后，将chromedriver.exe所在的文件夹添加到环境变量中。

　　介绍

　　本文主要解决QQ空间的登录问题。

　　其主要思想是：

　　使用selenium模拟登录QQ空间，获取登录QQ空间所需的cookie值，从而可以使用requests模块抓取QQ空间的数据。

　　为什么要这样转呢？

　　Selenium 好久没用了，写的太慢了。而且，它本身的速度和资源占用也受到了大家的诟病。

　　并且省略了无数的原因。

　　一些细节：

　　(1)第一次获取cookie后，保存，下次登录前，试试看保存的cookie是否有用，如果有用，可以直接使用，可以进一步节省时间.

　　(2)在抓包分析的过程中可以发现，抓QQ空间数据需要的链接都收录参数g_tk。这个参数其实是用cookie中的skey参数计算出来的，所以我' m 懒得打公式了，贴一小段代码：

　　最后：

　　不抓取一些数据，似乎无法证明这个文章真的有用？

　　好吧，然后放：

　　取下来~~~

　　具体实现过程请参考相关文档中的源码。

　　使用演示

　　QQ号（用户名）和密码（password）：

　　填写QQ_Spider.py文件，位置如下图：

　　跑步：

　　只需在 cmd 窗口中运行 QQ_Spider.py 文件即可。

　　结果：

　　在此问题的基础上，抓取好友的个人信息，并对抓取结果进行可视化分析。有兴趣的朋友可以提前试试~~~

　　事实上，微调本文提供的代码，理论上可以捕获所有QQ用户的信息。当然，只是理论上的，而且做了很多有趣的事情。

　　T_T 作为一个什么都不做也不爱喝茶的男孩子，我不会对上述理论的实现负责。

　　相关文件关注+转发，私信回复“07”

0

2022-03-31

网页qq抓取什么原理

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网页qq抓取什么原理( 翻了翻之前关于QQ空间的登录问题并做可视化分析)

0 个评论

发起人

AI时代内容工厂

网页qq抓取什么原理( 翻了翻之前关于QQ空间的登录问题并做可视化分析)

0 个评论

发起人

相关问题