snoopy php网页抓取工具(如何验证码,简单说下:$URI的验证码本方法介绍)

优采云 发布时间: 2022-03-25 05:14

  snoopy php网页抓取工具(如何验证码,简单说下:$URI的验证码本方法介绍)

  关于如何验证代码,简单说一下:

  先用普通浏览器查看页面,找到验证码对应的sessionid,

  注意 sessionid 和验证码值,

  那就用 snoopy 来伪装吧。

  原理:因为是同一个sessionid,所以得到的验证码和第一次输入的一样。

  有时我们可能需要伪造更多的东西,史努比完全为我们考虑了这一点

  

proxy_host = "www.fruicms.com";   

$snoopy->proxy_port = "8080"; //使用代理   

$snoopy->maxredirs = 2; //重定向次数   

$snoopy->expandlinks = true; //是否补全链接 在采集的时候经常用到   

// 例如链接为 /images/taoav.gif 可改为它的全链接 http://www.taoav.com/images/taoav.gif   

$snoopy->maxframes = 5 //允许的最大框架数   

//注意抓取框架的时候 $snoopy->results 返回的是一个数组   

$snoopy->error //返回报错信息   

?>

  二、类方法:

  获取($URI)

  ———–

  这是用于抓取网页内容的方法。 $URI 参数是被抓取网页的 URL 地址。获取的结果存储在 $this->results 中。如果你正在抓取一个帧,Snoopy 会将每个帧跟踪到一个数组中,然后是 $this->results。

  获取文本($URI)

  ——————

  该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的文本内容。

  fetchform($URI)

  ——————

  该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的表单内容(form)。

  获取链接($URI)

  ——————-

  该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的链接。

  默认情况下,相对链接将自动完成并转换为完整的 URL。

  提交($URI,$formvars)

  —————————-

  此方法向 $URL 指定的链接地址发送确认表单。 $formvars 是一个存储表单参数的数组。

  提交文本($URI,$formvars)

  —————————–

  该方法与submit()类似,唯一不同的是该方法会去除HTML标签等无关数据,登录后只返回网页的文本内容。

  提交链接($URI)

  ——————-

  该方法与submit()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的链接。

  默认情况下,相对链接将自动完成并转换为完整的 URL。

  三、类属性:(括号内为默认值)

  $host 要连接的主机

  $port 连接端口

  $proxy_host 使用的代理主机,如果有的话

  $proxy_port 使用的代理主机端口,如果有的话

  $agent 用户代理伪装 (Snoopy v0.1)

  $referer 信息,如果有的话

  $cookies cookie,如果有的话

  $rawheaders 额外的标题,如果有的话

  $maxredirs 最大重定向次数,0=不允许(5)

  $offsiteok 是否允许异地重定向。(true)

  $expandlinks 是否将所有链接作为完整地址完成(true)

  $user 认证用户名,如果有的话

  $pass 验证用户名,如果有的话

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线