ajax抓取网页内容(我正在尝试在不执行javascript的情况下在网页上AJAX的部分 )
优采云 发布时间: 2021-11-26 07:05ajax抓取网页内容(我正在尝试在不执行javascript的情况下在网页上AJAX的部分
)
我试图在不执行 javascript 的情况下获取网页的 AJAX 加载部分。通过使用Chrome开发工具,发现AJAX容器是通过POST请求从URL中提取内容,所以想使用python的requests包来复制请求。但奇怪的是,通过使用Chrome提供的Headers信息,我总是得到400错误,从Chrome复制的curl命令也是如此。所以我想知道是否有人可以分享一些见解。
我感兴趣的网站就在这里。使用Chrome:ctrl-shift-I、网络、XHR,我想要的部分是“内容”。我使用的脚本是:
headers = {"authority": "cafe.bithumb.com",
"path": "/boards/43/contents",
"method": "POST",
"origin":"https://cafe.bithumb.com",
"accept-language": "zh-CN,zh;q=0.9,en;q=0.8",
"user-agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.102 Safari/537.36",
"accept-encoding":"gzip, deflate, br",
"content-type": "application/x-www-form-urlencoded; charset=UTF-8",
"accept":"application/json, text/javascript, */*; q=0.01",
"referer":"https://cafe.bithumb.com/view/boards/43",
"x-requested-with":"XMLHttpRequest",
"scheme": "https",
"content-length":"1107"}
s=requests.Session()
s.headers.update(headers)
r = s.post('https://cafe.bithumb.com/boards/43/contents')