snoopy php网页抓取工具( PHP4BetaorSnoopy4orPHP3.0.12.类方法:方便抓取网页)

优采云 发布时间: 2022-02-21 17:11

  snoopy php网页抓取工具(

PHP4BetaorSnoopy4orPHP3.0.12.类方法:方便抓取网页)

  /**

* @name Snoopy手册中文版

* @author 毛毛虫 wangchong1985@gmail.com

* @version Snoopy - the PHP net client v1.2.2

* @link http://www.wangchong.org

* @since 2008-04-27

*/ <br />名称:<br /><br /> Snoopy - the PHP net client v1.2.2<br /> <br />概要:<br /><br /> include "Snoopy.class.php";

$snoopy = new Snoopy;

$snoopy->fetchtext("http://www.php.net/");

print $snoopy->results;

$snoopy->fetchlinks("http://www.phpbuilder.com/");

print $snoopy->results;

$submit_url = "http://lnk.ispi.net/texis/scripts/msearch/netsearch.html";

$submit_vars["q"] = "amiga";

$submit_vars["submit"] = "Search!";

$submit_vars["searchhost"] = "Altavista";

$snoopy->submit($submit_url,$submit_vars);

print $snoopy->results;

$snoopy->maxframes=5;

$snoopy->fetch("http://www.ispi.net/");

echo "/n";

echo htmlentities($snoopy->results[0]);

echo htmlentities($snoopy->results[1]);

echo htmlentities($snoopy->results[2]);

echo "

  / n“; $ snoopy-> fetchform(”“);打印$ snoopy->结果;

  说明:

  snoopy是什么?

  snoopy是一个php类,用于模仿Web浏览器的功能,可以完成获取Web内容并发送表单的任务。

  史努比的一些功能:

  * *方便捕获网页

  *方便捕获文本内容(删除HTML标记)

  *方便捕获网页的链接

  *支持代理主机

  *支持基本用户名/密码验证

  *支持set user_agent,referer,cookie和header内容(头文件)

  *支持浏览器转向,并控制转向深度

  *可以将网页中的链接扩展为高质量的URL(默认)

  *促进数据并获取返回值

  *支持跟踪HTML框架(v 0. 92添加)

  *支持重新转向(V 0. 92增加)

  要求:

  snoopy需要php pcre(perl兼容的正则表达式),

  哪个商店是php 3. 0. 9和up。对于读取超时支持,它需要

  PHP 4 beta 4或更高版本。 Snoopy是通过PHP 3. 0. 1 2.

  测试

  方法:

  获取($ uri)

  -----------

  这是用于捕获网页内容的方法。

  $ uri参数是网页的URL地址。

  结果存储在$以下 - >结果中。

  如果您爬行是一个框架,snoopy会将每个框架存储到数组中,然后存入$ this->结果。

  fetchtext($ uri)

  --------------

  此方法类似于fetch(),唯一的区别是此方法将删除HTML标记和其他不相关的数据,只返回网页中的文本内容。

  fetchform($ uri)

  --------------

  此方法类似于fetch(),唯一的区别是此方法删除HTML标记和其他不相关的数据,只返回网页中的表单内容(表单)。

  fetchlinks($ uri)

  ----------------

  此方法类似于fetch(),唯一的区别是此方法将删除HTML标记和其他不相关的数据,只返回到网页中的链接(链接)。

  默认情况下,将自动完成相对链接,转换为完整的URL。

  提交($ uri,$ formvars)

  -------------------

  此方法将确认表单发送到$ URL指定的链接地址。 $ formvars是一系列存储的表单个参数。

  submittext($ uri,$ formvars)

  --------------------------

  此方法类似于提交(),唯一的区别是此方法将删除HTML标记和其他不相关的数据,只返回登录中的文本内容。

  submitlinks($ uri)

  ----------------

  此方法类似于提交(),唯一的区别是此方法删除HTML标记和其他不相关的数据,只返回网页中的链接(链接)。

  默认情况下,将自动完成相对链接,转换为完整的URL。

  类属性:(括号中的默认值)

  $ host连接主机

  $端口连接端口

  $ proxy_host由代理主机使用,如果有的话,

  $ proxy_port由代理主机端口使用,如果有的话,

  $代理用户代理伪装(snoopy v 0. 1)

  $ cremer rogue信息,如果有的话,

  $ cookie cookie,如果有的话

  $ rawheaders其他标题信息,如果有的话,

  $ maxredirs最大重定向,0 =不允许(5)

  $ offsiteok是否允许从现场重定向。 (true)

  $ odernlinks完全解决了完整的地址(true)

  $用户认证用户名,如果有的话,

  $ pass身份验证用户名,如果有的话,

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线