最新版本:爬虫——2020-9-28 requests实例(简易网页采集器)
优采云 发布时间: 2020-11-18 09:00Crawler-2020-9-28请求示例(简单网页采集器)
请求实例UA检测:
门户网站的服务器将检测与请求相对应的运营商身份(用户代理)。如果它检测到所请求的运营商身份是某个浏览器,则该请求是正常请求。但是,如果UA不是基于某个浏览器,则意味着该请求是异常请求(爬网程序),服务器可能会拒绝该请求。
UA伪装:
让对应于采集器的请求载体标识符假装为某个浏览器。将相应的UA封装到字典中
1.简单的网页采集器:
import requests
if __name__ == "__main__":
#UA伪装:将对应的UA封装到一个字典中
headers = {
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36'
}
url = "https://www.sogou.com/web" #1.指定url
key_word = input('enter a key world:')
#带参数的url
param ={
'query':key_word
}
response = requests.get(url=url,params=param,headers=headers) # 2.发起请求
page_text = response.text # 3.获取响应数据
file_name = key_word + '.html'
with open(file_name, 'w', encoding='utf-8') as fp:
fp.write(page_text) # 4.存储
print('保存成功!')
2.破解百度翻译: