如何抓取网页数据(想象的我正在尝试创建一个数据抓取器来自动从表中读取数据)
优采云 发布时间: 2021-12-07 21:14如何抓取网页数据(想象的我正在尝试创建一个数据抓取器来自动从表中读取数据)
想像力
我正在尝试创建一个数据采集器来自动从表中读取数据。但是,我需要登录才能这样做。
该网页有用户名和密码的输入字段以及这样的验证码
到目前为止,这是我的代码
import requests
s = requests.Session()
data = {'loginName': 'username',
'password': 'password',
}
url = 'https://url/api/account/login'
response = s.post(url, data=data)
print(response)
s = requests.Session()
然后我打算使用BeatuifulSoup 如下图
现在我的回答是。我想我需要在数据中收录验证码和验证码,但我不确定如何。我不知道我是否需要添加任何标题。
空指针
完成验证码需要使用一些第三方服务来完成这个操作,或者使用Selenium之类的东西自己填写。一种选择是尝试登录该页面并使用您的浏览器工具查看该页面是否从公共 API 获取信息,如果是,您可以改为获取该信息。