php如何抓取网页内容( PHP一下对象3.本文的主要方法及使用方法(一))
优采云 发布时间: 2021-12-26 12:13php如何抓取网页内容(
PHP一下对象3.本文的主要方法及使用方法(一))
PHP抓取页面及代码分析推荐
更新时间:2010年7月23日00:22:46 作者:
在做一些天气预报或者RSS订阅节目的时候,经常需要抓取非本地文件。一般使用PHP模拟浏览器访问,通过http请求访问URL地址,然后获取html源代码或者xml数据。
我们不能直接输出得到的数据,往往需要将内容提取出来,然后进行格式化,以更友好的方式展示出来。
先简单说一下本文的主要内容:
一、 PHP抓取页面的主要方法:
1. file() 函数
2. file_get_contents() 函数
3. fopen()->fread()->fclose() 模式
4.卷曲方式
5. fsockopen() 函数套接字模式
6. 使用插件(如:)
二、PHP解析html或xml代码的主要方式:
1. 正则表达式
2. PHP DOMDocument 对象
3. 插件(如:PHP Simple HTML DOM Parser)
如果你对上面的内容有很好的理解,下面的内容可以随...
PHP抓取页面
1. file() 函数
复制代码代码如下:
2. file_get_contents() 函数
使用file_get_contents 和fopen 打开allow_url_fopen。方法:编辑php.ini,设置allow_url_fopen = On。当allow_url_fopen 关闭时,fopen 和file_get_contents 都不能打开远程文件。
复制代码代码如下:
3. fopen()->fread()->fclose() 模式
复制代码代码如下:
4. 卷曲方法
要使用curl,必须在空间中打开curl。方法:修改windows下的php.ini,去掉extension=php_curl.dll前面的分号,将ssleay32.dll和libeay32.dll复制到C:\WINDOWS\system32;在 Linux 下安装 curl 扩展。
复制代码代码如下:
5. fsockopen() 函数套接字模式
socket模式能否正确执行也与服务器的设置有关。具体可以通过phpinfo查看服务器开启了哪些通信协议。比如我本地的php socket没有启用http,所以只能用udp来测试。
复制代码代码如下:
6. 插件
网上应该有很多插件。网上搜到了snoopy插件。如果你有兴趣,你可以研究它。
PHP解析xml(html)
1. 正则表达式:
复制代码代码如下:
2. PHP DOMDocument() 对象
如果远程html或xml有语法错误,php解析dom时会报错。
复制代码代码如下:
3. 插件
本文以PHP Simple HTML DOM Parser为例进行简单介绍。simple_html_dom 的语法类似于 jQuery。它让 PHP 操作 dom 就像使用 jQuery 操作 dom 一样简单。
复制代码代码如下:
当然中国人有创造力,外国人往往技术先进,但中国人往往更擅长使用它,经常做出一些外国人不敢想的功能,比如远程抓取和分析php。为数据整合提供便利。但是中国人很喜欢这个,所以有大量的采集
网站,它们自己不创造任何有价值的内容,而是靠爬取别人网站的内容,把它当成自己的。在百度里输入“php小”关键词,建议列表第一个是“php小偷程序”,然后把同样的关键词放到google里,哥只能笑笑不说话。