网站调用新浪微博内容(如何使用新浪微博的手机网页版获取cookie:抓取登录微博)

优采云 发布时间: 2021-12-04 16:10

  网站调用新浪微博内容(如何使用新浪微博的手机网页版获取cookie:抓取登录微博)

  爬行方法:

  在浏览一个人的微博内容时,我们通常需要登录微博。在微博登录方面,我们使用了一个简单的方法:抓取登录微博的cookie,然后使用cookie登录微博。这样,您就可以浏览某人的微博内容。

  为了方便抓取,我们使用新浪微博手机网页版

  获取饼干:

  ① 我们使用的抓包工具是Fiddler。安装好 Fiddler 后,我们来设置 Winconfig 并勾选 IE 项:

  

  然后 SaveChange 就可以了。

  ②先登录进入微博。(部分手机网页版可能无法登录,一直显示验证码错误,此时可以打开新浪微博电脑网页版登录)。

  ③打开Fiddler,然后用IE浏览器打开,发现是直接登录的。这是因为cookie。这时候我们使用Fiddler来查找cookie的内容

  首先在 Fddler 的左栏中找到该项目并双击它。

  

  然后使用右侧的composer查看一些信息。

  

  cookie 信息正是我们所需要的。我们复制“_T_W...”。

  使用python抓包

  这里就直接上代码看。

  ——

  # -*- coding: utf-8 -*-

import requests

from bs4 import BeautifulSoup

import time

cook = {"Cookie":" _T_WM....."} #放入你的cookie信息。

for i in range(1,20):

#爬取"头条新闻"的前二十页微博

url = "http://weibo.cn/breakingnews?page=%d"%(i)

html = requests.get(url,cookies=cook).content

#使用Beautiful来解析网页内容。

soup =BeautifulSoup(html,"html.parser")

r = soup.findAll('span',attrs={"class" : "ctt"})

for e in r:

print(e.text)

#设置时间间隔

time.sleep(3)

  ——

  这样我们就可以爬到头条新闻的微博内容了,当然这里我只爬取了文本信息。

  

  项目地址:github

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线