php抓取网页指定内容(,如下:file_get_contents函数(,.))
优采云 发布时间: 2021-10-11 23:20php抓取网页指定内容(,如下:file_get_contents函数(,.))
本文章主要介绍PHP中使用file_get_contents抓取网页中文乱码问题的解决方法。可以通过使用 curl 配置 gzip 选项来解决。有一定的参考价值。有需要的朋友可以参考
本文介绍了PHP中使用file_get_contents抓取网页中文乱码问题的解决方案示例。分享给大家,供大家参考。具体方法如下:
file_get_contents 函数本来是一个很好的php内置的本地和远程文件操作函数。它可以让我们不费吹灰之力就可以直接下载远程数据,但是我在使用它阅读网页时会遇到一些问题。页面出现乱码,这里总结一下具体的解决方法。
据网上的朋友说,可能是服务器开启了GZIP压缩的原因。下面是用firebug查看我的网站的header信息。 Gzip 已打开。请求头信息的原创头信息如下:
复制代码代码如下:
接受 text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
接受编码 gzip,放气
接受-语言zh-cn,zh;q=0.8,en-us;q=0.5,en;q=0.3
连接保持活动
Cookie __utma=225240837.787252530.1317310581.1335406161.1335411401.1537; __utmz=225240837.1326850415.887.3.utmcsr=google|utmccn=(organic)|utmcmd=organic|utmctr=%E4%BB%BB%E4% BD%95%E9%A1%B9%E7% 9B%AE%E9%83%BD%E4%B8%8D%E4%BC%9A%E9%82%A3%E4%B9%88%E7%AE% 80%E5%8D%95%20站点%3A; PHPSESSID=888mj4425p8s0m7s0frre3ovc7; __utmc=225240837; __utmb=225240837.1.10.1335411401
主持人
用户代理 Mozilla/5.0 (Windows NT 5.1; rv:12.0) Gecko/20100101 Firefox/12.0
你可以在header信息中找到Content-Encoding项是Gzip。
解决方法比较简单,就是用curl代替file_get_contents来获取,然后在curl配置参数中加一个。代码如下:
复制代码代码如下:
curl_setopt($ch, CURLOPT_ENCODING, "gzip");
今天用file_get_contents抓图的时候,一开始没发现这个问题。
使用内置的 zlib 库。如果服务器已经安装了zlib库,可以用下面的代码轻松解决乱码问题,代码如下:
复制代码代码如下:
$data = file_get_contents("compress.zlib://".$url);
希望本文对您的 PHP 编程有所帮助。
以上是PHP中使用file_get_contents抓取网页中文乱码问题解决的详细内容。更多详情请关注其他相关html中文网站文章!