php网页抓取乱码( kaliwaca一般情况下,原因就是你的解码方式造成的)

优采云 发布时间: 2021-12-24 14:08

  php网页抓取乱码(

kaliwaca一般情况下,原因就是你的解码方式造成的)

  

  卡利瓦卡

  通常情况下,原因是您使用了不同的解码方法。

  不过好在这种解码方式一般都有说明,可以直接从网页截取。一般网站作者防止浏览器从不同的编码方式和乱码转到自己的页面,比如你的网页是utf-8页面,如果浏览器从gb2312页面通过链接地址转过来在这里,您的页面是乱码。为了让浏览器能够自动识别,作者经常添加元数据描述,即:meta http-equiv=content-type Content=text/html;charset=utf-8|gbk|gb2312|big5|.../ ,好在你可以使用任何一种解码,解码后的英文不会出现乱码,然后找到字符串,看看charset后面的编码方式,确定使用哪种解码!

  但是对于一些不知名的作者或者有特效的作者,在源码中根本找不到编码方式。这时候,一般情况下,我们在请求的时候上传一个方法,一般网站基本的上传方法会自动解析对应的编码方法。

  当然,这只是针对httpwebrequest获取页面源码的操作。如果要使用已经封装好的webclient,也可以用同样的方式进行判断。如果用webbroswer就更简单了,因为webbrowser可以像如果浏览器判断的好,就可以知道它的编码方式,同时可以直接使用mshtml空间的内容来获取webbroswer的内容.

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线