输入关键字抓取所有网页(：我有一个静态的.aspxurl)

优采云发布时间: 2021-11-27 21:16

　　我有一个静态的 .aspx 网址，我想抓取它。我有一个静态的 .aspx url，我正在尝试抓取它。我所有的尝试都产生了常规网站的原创 html 数据，而不是我正在查询的数据。我所有的尝试都产生了常规网站的原创 html 数据，而不是我正在查询的数据。

　　我的理解是我正在使用的标题（我从另一篇文章中找到的）是正确且可概括的：我的理解是我正在使用的标题（我从另一篇文章中找到的）是正确且可概括的：可总结：

　　import urllib.request

from bs4 import BeautifulSoup

headers = {

'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',

'User-Agent': 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.17 (KHTML, like Gecko) Chrome/24.0.1312.57 Safari/537.17',

'Content-Type': 'application/x-www-form-urlencoded',

'Accept-Encoding': 'gzip,deflate,sdch',

'Accept-Language': 'en-US,en;q=0.8',

'Accept-Charset': 'ISO-8859-1,utf-8;q=0.7,*;q=0.3'

}

class MyOpener(urllib.request.FancyURLopener):

version = 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.17 (KHTML, like Gecko) Chrome/24.0.1312.57 Safari/537.17'

myopener = MyOpener()

url = 'https://www.mytaxcollector.com/trSearch.aspx'

# first HTTP request without form data

f = myopener.open(url)

soup_dummy = BeautifulSoup(f,"html5lib")

# parse and retrieve two vital form values

viewstate = soup_dummy.select("#__VIEWSTATE")[0]['value']

viewstategen = soup_dummy.select("#__VIEWSTATEGENERATOR")[0]['value']

　　尝试输入表单数据导致什么都没有发生：尝试输入表单数据导致什么也没有发生：

　　这给出了与“soup_dummy”变量几乎完全相同的原创 html 代码。这给出了与“soup_dummy”变量几乎完全相同的原创 html 代码。但是我想看到的是提交的字段的数据（'ctl00_contentHolder_trSearchCharactersAPN', '631091430000'）（这是“包裹号”框。但我想看到的是提交的字段（'ctl00_contentHolder_trSearchCharactersAPN','） 631091430000') 数据（这是“包裹号”框。

　　我非常感谢您的帮助。我真的很感激你的帮助。如果有的话，将我链接到一篇关于 HTML 请求的好文章（一个不仅解释而且实际遍历 aspx 的文章）会很棒。（一个文章不仅解释而且实际上遍历 aspx）会很棒。

0

2021-11-27

输入关键字抓取所有网页

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

输入关键字抓取所有网页(：我有一个静态的.aspxurl)

0 个评论

发起人

AI时代内容工厂

输入关键字 抓取所有网页(：我有一个静态的.aspxurl)

0 个评论

发起人

输入关键字抓取所有网页(：我有一个静态的.aspxurl)