snoopy php网页抓取工具(PHP类Snoopy是什么?PHP语言中功能强大的一些特点)
优采云 发布时间: 2022-04-10 16:15snoopy php网页抓取工具(PHP类Snoopy是什么?PHP语言中功能强大的一些特点)
大家都知道,在PHP语言中,有很多强大的功能可以帮助程序员完成各种功能需求。今天要给大家介绍的是PHP类Snoopy的一些相关知识。
什么是 PHP 类 Snoopy?
Snoopy 是一个模仿网络浏览器功能的 php 类,可以执行诸如获取网页内容和发送表单等任务。
PHP 类 Snoopy 的一些特性:
* 轻松抓取网页内容
* 轻松抓取网页文本内容(去除HTML标签)
* 方便抓取网页的链接
* 支持代理主机
* 支持基本的用户名/密码认证
* 支持设置user_agent、referer(来)、cookies和header内容(头文件)
* 支持浏览器转向,可以控制转向深度
* 可以将网页中的链接扩展为高质量的网址(默认)
* 方便提交数据并获取返回值
* 支持跟踪HTML框架(v0.92增加)
* 重定向时支持传递cookie(v0.92增加)
PHP类Snoopy的正确操作需要你的服务器PHP版本在4以上,并且支持PCRE(Perl Compatible Regular Expressions),并且支持基本的LAMP服务。
它提供以下接口或方法:
获取($URI)
这个方法是爬取网页的内容,$URI是要爬取的网页的URL,爬取的结果存放在$this->results中。如果抓取帧,每帧都会被抓取,结果会保存到数组中。
获取文本($URI)
此方法与 fetch() 非常相似,只是它的结果是文本,去掉了 HTML 标记和其他无关信息。
fetchform($URI)
该方法只返回抓取网页上的表单元素。
获取链接($URI)
该方法只返回被抓取网页上的链接。默认链接都是收录域名的链接。
提交($URI,$formvars)
此方法将表单提交到指定的 $URI。 $formvars 是要传递的表单变量数组。
提交文本($URI,$formvars)
这个方法和submit()基本一样,但是它返回文本,去掉了html标签和其他无关数据。
提交链接($URI)
此方法返回一个链接。
以上都是对PHP类Snoopy的介绍,希望对大家有所帮助。