网站调用新浪微博内容(如何使用新浪微博的手机网页版获取cookie:抓取登录微博)
优采云 发布时间: 2021-12-04 16:10网站调用新浪微博内容(如何使用新浪微博的手机网页版获取cookie:抓取登录微博)
爬行方法:
在浏览一个人的微博内容时,我们通常需要登录微博。在微博登录方面,我们使用了一个简单的方法:抓取登录微博的cookie,然后使用cookie登录微博。这样,您就可以浏览某人的微博内容。
为了方便抓取,我们使用新浪微博手机网页版
获取饼干:
① 我们使用的抓包工具是Fiddler。安装好 Fiddler 后,我们来设置 Winconfig 并勾选 IE 项:
然后 SaveChange 就可以了。
②先登录进入微博。(部分手机网页版可能无法登录,一直显示验证码错误,此时可以打开新浪微博电脑网页版登录)。
③打开Fiddler,然后用IE浏览器打开,发现是直接登录的。这是因为cookie。这时候我们使用Fiddler来查找cookie的内容
首先在 Fddler 的左栏中找到该项目并双击它。
然后使用右侧的composer查看一些信息。
cookie 信息正是我们所需要的。我们复制“_T_W...”。
使用python抓包
这里就直接上代码看。
——
# -*- coding: utf-8 -*-
import requests
from bs4 import BeautifulSoup
import time
cook = {"Cookie":" _T_WM....."} #放入你的cookie信息。
for i in range(1,20):
#爬取"头条新闻"的前二十页微博
url = "http://weibo.cn/breakingnews?page=%d"%(i)
html = requests.get(url,cookies=cook).content
#使用Beautiful来解析网页内容。
soup =BeautifulSoup(html,"html.parser")
r = soup.findAll('span',attrs={"class" : "ctt"})
for e in r:
print(e.text)
#设置时间间隔
time.sleep(3)
——
这样我们就可以爬到头条新闻的微博内容了,当然这里我只爬取了文本信息。
项目地址:github