js提取指定网站内容(用requests模块获取网站数据时,网站的编码是个很麻烦的问题)

优采云 发布时间: 2021-11-26 03:22

  js提取指定网站内容(用requests模块获取网站数据时,网站的编码是个很麻烦的问题)

  使用requests模块获取网站数据时,网站的编码是一个很麻烦的问题。一般来说,请求会自动识别网站的编码。如果网页未指定编码,则默认为 ISO-8859-1 编码。这时候可能会出现问题。

  一般有几种方式,最简单的就是手动指定编码r.encoding = ‘utf-8’

  但是,当采集数据时,您可能访问不同域名的网站。这时候,手动为每个网站分配一个正确的代码并不容易。以下是通用方法

   if r.encoding == 'ISO-8859-1':

encodings = requests.utils.get_encodings_from_content(r.text)

if encodings:

encoding = encodings[0]

else:

encoding = r.apparent_encoding

return r.content.decode(encoding, 'replace')

else:

return r.text

  本作品采用《CC协议》,转载需注明作者及本文链接

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线