最新版本:爬虫——2020-9-28 requests实例(简易网页采集器)

优采云 发布时间: 2020-11-18 09:00

  Crawler-2020-9-28请求示例(简单网页采集器)

  请求实例UA检测:

  门户网站的服务器将检测与请求相对应的运营商身份(用户代理)。如果它检测到所请求的运营商身份是某个浏览器,则该请求是正常请求。但是,如果UA不是基于某个浏览器,则意味着该请求是异常请求(爬网程序),服务器可能会拒绝该请求。

  UA伪装:

  让对应于采集器的请求载体标识符假装为某个浏览器。将相应的UA封装到字典中

  1.简单的网页采集器:

  import requests

if __name__ == "__main__":

#UA伪装:将对应的UA封装到一个字典中

headers = {

'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36'

}

url = "https://www.sogou.com/web" #1.指定url

key_word = input('enter a key world:')

#带参数的url

param ={

'query':key_word

}

response = requests.get(url=url,params=param,headers=headers) # 2.发起请求

page_text = response.text # 3.获取响应数据

file_name = key_word + '.html'

with open(file_name, 'w', encoding='utf-8') as fp:

fp.write(page_text) # 4.存储

print('保存成功!')

  2.破解百度翻译:

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线