php抓取网页指定内容(,如下:file_get_contents函数(,.))

优采云 发布时间: 2021-10-11 23:20

  php抓取网页指定内容(,如下:file_get_contents函数(,.))

  本文章主要介绍PHP中使用file_get_contents抓取网页中文乱码问题的解决方法。可以通过使用 curl 配置 gzip 选项来解决。有一定的参考价值。有需要的朋友可以参考

  本文介绍了PHP中使用file_get_contents抓取网页中文乱码问题的解决方案示例。分享给大家,供大家参考。具体方法如下:

  file_get_contents 函数本来是一个很好的php内置的本地和远程文件操作函数。它可以让我们不费吹灰之力就可以直接下载远程数据,但是我在使用它阅读网页时会遇到一些问题。页面出现乱码,这里总结一下具体的解决方法。

  据网上的朋友说,可能是服务器开启了GZIP压缩的原因。下面是用firebug查看我的网站的header信息。 Gzip 已打开。请求头信息的原创头信息如下:

  复制代码代码如下:

  接受 text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8

  接受编码 gzip,放气

  接受-语言zh-cn,zh;q=0.8,en-us;q=0.5,en;q=0.3

  连接保持活动

  Cookie __utma=225240837.787252530.1317310581.1335406161.1335411401.1537; __utmz=225240837.1326850415.887.3.utmcsr=google|utmccn=(organic)|utmcmd=organic|utmctr=%E4%BB%BB%E4% BD%95%E9%A1%B9%E7% 9B%AE%E9%83%BD%E4%B8%8D%E4%BC%9A%E9%82%A3%E4%B9%88%E7%AE% 80%E5%8D%95%20站点%3A; PHPSESSID=888mj4425p8s0m7s0frre3ovc7; __utmc=225240837; __utmb=225240837.1.10.1335411401

  主持人

  用户代理 Mozilla/5.0 (Windows NT 5.1; rv:12.0) Gecko/20100101 Firefox/12.0

  你可以在header信息中找到Content-Encoding项是Gzip。

  解决方法比较简单,就是用curl代替file_get_contents来获取,然后在curl配置参数中加一个。代码如下:

  复制代码代码如下:

  curl_setopt($ch, CURLOPT_ENCODING, "gzip");

  今天用file_get_contents抓图的时候,一开始没发现这个问题。

  使用内置的 zlib 库。如果服务器已经安装了zlib库,可以用下面的代码轻松解决乱码问题,代码如下:

  复制代码代码如下:

  $data = file_get_contents("compress.zlib://".$url);

  希望本文对您的 PHP 编程有所帮助。

  以上是PHP中使用file_get_contents抓取网页中文乱码问题解决的详细内容。更多详情请关注其他相关html中文网站文章!

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线