网页qq抓取什么原理( 翻了翻之前关于QQ空间的登录问题并做可视化分析)
优采云 发布时间: 2022-03-31 05:01网页qq抓取什么原理(
翻了翻之前关于QQ空间的登录问题并做可视化分析)
浏览了之前关于爬行动物的文章。. .
好像一直在欺负小网站,没什么挑战性。. .
那么,就来一波TX“试水”吧~~~
本着长期流(懒惰)T_T的原则,本期文章决定分成两篇。第一部分主要解决QQ空间的登录问题并尝试抓取一些信息,第二部分专门用于抓取QQ空间的好友信息并做可视化分析。
让我们快乐地开始吧~~~
开发工具
Python 版本:3.6.4
相关模块:
请求模块;
硒模块;
lxml 模块;
还有一些 Python 自带的模块。
环境建设
安装Python并添加到环境变量中,pip安装需要的相关模块,进入:
下载与您使用的 Chrome 浏览器版本对应的驱动程序文件。下载后,将chromedriver.exe所在的文件夹添加到环境变量中。
介绍
本文主要解决QQ空间的登录问题。
其主要思想是:
使用selenium模拟登录QQ空间,获取登录QQ空间所需的cookie值,从而可以使用requests模块抓取QQ空间的数据。
为什么要这样转呢?
Selenium 好久没用了,写的太慢了。而且,它本身的速度和资源占用也受到了大家的诟病。
并且省略了无数的原因。
一些细节:
(1)第一次获取cookie后,保存,下次登录前,试试看保存的cookie是否有用,如果有用,可以直接使用,可以进一步节省时间.
(2)在抓包分析的过程中可以发现,抓QQ空间数据需要的链接都收录参数g_tk。这个参数其实是用cookie中的skey参数计算出来的,所以我' m 懒得打公式了,贴一小段代码:
最后:
不抓取一些数据,似乎无法证明这个文章真的有用?
好吧,然后放:
取下来~~~
具体实现过程请参考相关文档中的源码。
使用演示
QQ号(用户名)和密码(password):
填写QQ_Spider.py文件,位置如下图:
跑步:
只需在 cmd 窗口中运行 QQ_Spider.py 文件即可。
结果:
在此问题的基础上,抓取好友的个人信息,并对抓取结果进行可视化分析。有兴趣的朋友可以提前试试~~~
事实上,微调本文提供的代码,理论上可以捕获所有QQ用户的信息。当然,只是理论上的,而且做了很多有趣的事情。
T_T 作为一个什么都不做也不爱喝茶的男孩子,我不会对上述理论的实现负责。
相关文件关注+转发,私信回复“07”