snoopy php网页抓取工具( PHP4BetaorSnoopy4orPHP3.0.12.类方法:方便抓取网页)
优采云 发布时间: 2022-02-21 17:11snoopy php网页抓取工具(
PHP4BetaorSnoopy4orPHP3.0.12.类方法:方便抓取网页)
/**
* @name Snoopy手册中文版
* @author 毛毛虫 wangchong1985@gmail.com
* @version Snoopy - the PHP net client v1.2.2
* @link http://www.wangchong.org
* @since 2008-04-27
*/ <br />名称:<br /><br /> Snoopy - the PHP net client v1.2.2<br /> <br />概要:<br /><br /> include "Snoopy.class.php";
$snoopy = new Snoopy;
$snoopy->fetchtext("http://www.php.net/");
print $snoopy->results;
$snoopy->fetchlinks("http://www.phpbuilder.com/");
print $snoopy->results;
$submit_url = "http://lnk.ispi.net/texis/scripts/msearch/netsearch.html";
$submit_vars["q"] = "amiga";
$submit_vars["submit"] = "Search!";
$submit_vars["searchhost"] = "Altavista";
$snoopy->submit($submit_url,$submit_vars);
print $snoopy->results;
$snoopy->maxframes=5;
$snoopy->fetch("http://www.ispi.net/");
echo "/n";
echo htmlentities($snoopy->results[0]);
echo htmlentities($snoopy->results[1]);
echo htmlentities($snoopy->results[2]);
echo "
/ n“; $ snoopy-> fetchform(”“);打印$ snoopy->结果;
说明:
snoopy是什么?
snoopy是一个php类,用于模仿Web浏览器的功能,可以完成获取Web内容并发送表单的任务。
史努比的一些功能:
* *方便捕获网页
*方便捕获文本内容(删除HTML标记)
*方便捕获网页的链接
*支持代理主机
*支持基本用户名/密码验证
*支持set user_agent,referer,cookie和header内容(头文件)
*支持浏览器转向,并控制转向深度
*可以将网页中的链接扩展为高质量的URL(默认)
*促进数据并获取返回值
*支持跟踪HTML框架(v 0. 92添加)
*支持重新转向(V 0. 92增加)
要求:
snoopy需要php pcre(perl兼容的正则表达式),
哪个商店是php 3. 0. 9和up。对于读取超时支持,它需要
PHP 4 beta 4或更高版本。 Snoopy是通过PHP 3. 0. 1 2.
测试
方法:
获取($ uri)
-----------
这是用于捕获网页内容的方法。
$ uri参数是网页的URL地址。
结果存储在$以下 - >结果中。
如果您爬行是一个框架,snoopy会将每个框架存储到数组中,然后存入$ this->结果。
fetchtext($ uri)
--------------
此方法类似于fetch(),唯一的区别是此方法将删除HTML标记和其他不相关的数据,只返回网页中的文本内容。
fetchform($ uri)
--------------
此方法类似于fetch(),唯一的区别是此方法删除HTML标记和其他不相关的数据,只返回网页中的表单内容(表单)。
fetchlinks($ uri)
----------------
此方法类似于fetch(),唯一的区别是此方法将删除HTML标记和其他不相关的数据,只返回到网页中的链接(链接)。
默认情况下,将自动完成相对链接,转换为完整的URL。
提交($ uri,$ formvars)
-------------------
此方法将确认表单发送到$ URL指定的链接地址。 $ formvars是一系列存储的表单个参数。
submittext($ uri,$ formvars)
--------------------------
此方法类似于提交(),唯一的区别是此方法将删除HTML标记和其他不相关的数据,只返回登录中的文本内容。
submitlinks($ uri)
----------------
此方法类似于提交(),唯一的区别是此方法删除HTML标记和其他不相关的数据,只返回网页中的链接(链接)。
默认情况下,将自动完成相对链接,转换为完整的URL。
类属性:(括号中的默认值)
$ host连接主机
$端口连接端口
$ proxy_host由代理主机使用,如果有的话,
$ proxy_port由代理主机端口使用,如果有的话,
$代理用户代理伪装(snoopy v 0. 1)
$ cremer rogue信息,如果有的话,
$ cookie cookie,如果有的话
$ rawheaders其他标题信息,如果有的话,
$ maxredirs最大重定向,0 =不允许(5)
$ offsiteok是否允许从现场重定向。 (true)
$ odernlinks完全解决了完整的地址(true)
$用户认证用户名,如果有的话,
$ pass身份验证用户名,如果有的话,