最新版本：爬虫——2020-9-28 requests实例（简易网页采集器）

优采云发布时间: 2020-11-18 09:00

　　Crawler-2020-9-28请求示例（简单网页采集器）

　　请求实例UA检测：

　　门户网站的服务器将检测与请求相对应的运营商身份（用户代理）。如果它检测到所请求的运营商身份是某个浏览器，则该请求是正常请求。但是，如果UA不是基于某个浏览器，则意味着该请求是异常请求（爬网程序），服务器可能会拒绝该请求。

　　UA伪装：

　　让对应于采集器的请求载体标识符假装为某个浏览器。将相应的UA封装到字典中

　　1.简单的网页采集器：

　　import requests

if __name__ == "__main__":

#UA伪装：将对应的UA封装到一个字典中

headers = {

'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36'

}

url = "https://www.sogou.com/web" #1.指定url

key_word = input('enter a key world:')

#带参数的url

param ={

'query':key_word

}

response = requests.get(url=url,params=param,headers=headers) # 2.发起请求

page_text = response.text # 3.获取响应数据

file_name = key_word + '.html'

with open(file_name, 'w', encoding='utf-8') as fp:

fp.write(page_text) # 4.存储

print('保存成功！')

　　2.破解百度翻译：

0

2020-11-18

网页文章采集器

0 个评论

要回复文章请先登录或注册