php如何抓取网页内容( PHP一下对象3.本文的主要方法及使用方法(一))

优采云 发布时间: 2021-12-26 12:13

  php如何抓取网页内容(

PHP一下对象3.本文的主要方法及使用方法(一))

  PHP抓取页面及代码分析推荐

  更新时间:2010年7月23日00:22:46 作者:

  在做一些天气预报或者RSS订阅节目的时候,经常需要抓取非本地文件。一般使用PHP模拟浏览器访问,通过http请求访问URL地址,然后获取html源代码或者xml数据。

  我们不能直接输出得到的数据,往往需要将内容提取出来,然后进行格式化,以更友好的方式展示出来。

  先简单说一下本文的主要内容:

  一、 PHP抓取页面的主要方法:

  1. file() 函数

  2. file_get_contents() 函数

  3. fopen()->fread()->fclose() 模式

  4.卷曲方式

  5. fsockopen() 函数套接字模式

  6. 使用插件(如:)

  二、PHP解析html或xml代码的主要方式:

  1. 正则表达式

  2. PHP DOMDocument 对象

  3. 插件(如:PHP Simple HTML DOM Parser)

  如果你对上面的内容有很好的理解,下面的内容可以随...

  PHP抓取页面

  1. file() 函数

  复制代码代码如下:

  2. file_get_contents() 函数

  使用file_get_contents 和fopen 打开allow_url_fopen。方法:编辑php.ini,设置allow_url_fopen = On。当allow_url_fopen 关闭时,fopen 和file_get_contents 都不能打开远程文件。

  复制代码代码如下:

  3. fopen()->fread()->fclose() 模式

  复制代码代码如下:

  4. 卷曲方法

  要使用curl,必须在空间中打开curl。方法:修改windows下的php.ini,去掉extension=php_curl.dll前面的分号,将ssleay32.dll和libeay32.dll复制到C:\WINDOWS\system32;在 Linux 下安装 curl 扩展。

  复制代码代码如下:

  5. fsockopen() 函数套接字模式

  socket模式能否正确执行也与服务器的设置有关。具体可以通过phpinfo查看服务器开启了哪些通信协议。比如我本地的php socket没有启用http,所以只能用udp来测试。

  复制代码代码如下:

  6. 插件

  网上应该有很多插件。网上搜到了snoopy插件。如果你有兴趣,你可以研究它。

  PHP解析xml(html)

  1. 正则表达式:

  复制代码代码如下:

  2. PHP DOMDocument() 对象

  如果远程html或xml有语法错误,php解析dom时会报错。

  复制代码代码如下:

  3. 插件

  本文以PHP Simple HTML DOM Parser为例进行简单介绍。simple_html_dom 的语法类似于 jQuery。它让 PHP 操作 dom 就像使用 jQuery 操作 dom 一样简单。

  复制代码代码如下:

  当然中国人有创造力,外国人往往技术先进,但中国人往往更擅长使用它,经常做出一些外国人不敢想的功能,比如远程抓取和分析php。为数据整合提供便利。但是中国人很喜欢这个,所以有大量的采集

网站,它们自己不创造任何有价值的内容,而是靠爬取别人网站的内容,把它当成自己的。在百度里输入“php小”关键词,建议列表第一个是“php小偷程序”,然后把同样的关键词放到google里,哥只能笑笑不说话。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线