网页抓取qq(模拟登陆的问题(图)数据接口进行数据总结)
优采云 发布时间: 2022-03-19 23:03网页抓取qq(模拟登陆的问题(图)数据接口进行数据总结)
毕业设计的题目是用Scrapy抓取QQ空间的数据。最近完成了毕业设计,总结如下:首先是模拟登录的问题:
因为腾讯讨厌模拟登录,有各种预防措施,而且我的能力有限,所以最简单的方法是手动登录,获取cookie信息,然后携带访问。数据库
第二个是数据接口:
分析QQ空间的网页后,数据主要以Json的形式返回。数据采集json选择了两个数据接口
各个QQ的详细信息界面:""+str(self.currentQQ)+"&vuin=QQ&fupdate=1&rd=0.7098397&g_tk="+GTK网络
每个QQ的通话信息接口:""+str(self.currentQQ)+"&ftype=0&sort=0&pos=0&num=40&replynum=100&g_tk="+str(self.getOldGTK(self.skey))+" &callback =_preloadCallback&code_version=1&format=json&need_private_comment=1"ui
最后使用Scrapy完成网络请求,并将数据存入数据库。最后进行简单的统计: