snoopy php网页抓取工具(Snoopy模拟浏览器获取网页内容和发送表单的方法和使用方法)

优采云 发布时间: 2022-02-21 17:09

  snoopy php网页抓取工具(Snoopy模拟浏览器获取网页内容和发送表单的方法和使用方法)

  Snoopy 是一个模拟浏览器获取网页内容和发送表单的 php采集 类。

  以下是一些史努比功能:

  易于抓取网页内容

  易于抓取页面文本(去除 html 标签)

  易于抓取页内链接

  支持代理爬取

  支持基本的用户名和密码认证

  支持设置user-agent、referer、cookies和header内容

  支持浏览器转向,控制转向深度

  将页面上的链接转化为高质量的链接

  轻松提交数据并获取返回值

  可以跟踪 HTML 帧

  支持重定向时传递 cookie

  史努比类,方法:

  获取($URI)

  用于抓取网页内容的方法。$URI 参数是被抓取网页的 URL 地址。获取的结果存储在 $this->results 中。如果你正在抓取一个帧,Snoopy 会将每个帧跟踪到一个数组中,然后是 $this->results。

  获取文本($URI)

  该方法与 fetch() 方法类似,唯一不同的是该方法会去除 HTML 标签等无关数据,只返回网页中的文本内容。

  获取表单($URI)

  该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的表单内容(form)。

  获取链接($URI)

  该方法与 fetch() 方法类似,唯一不同的是该方法会去除 HTML 标签等无关数据,只返回网页中的链接。默认情况下,相对链接将自动完成为完整的 URL。

  提交($URI,$formvars)

  此方法向 $URL 指定的链接地址发送确认表单。$formvars 是一个存储表单参数的数组。

  提交文本($URI,$formvars)

  这个方法和submit()类似,唯一的区别是这个方法会去掉HTML标签等不相关的数据,登录后只返回网页的文本内容。

  提交链接($URI)

  这个方法和submit()类似,唯一的区别是这个方法会去掉HTML标签等不相关的数据,只返回网页中的链接。默认情况下,相对链接将自动完成为完整的 URL。

  类属性:(括号内为默认值)

  $host 要连接的主机

  $port 连接端口

  $proxy_host 要使用的代理主机,如果有的话

  $proxy_port 要使用的代理主机端口,如果有的话

  $agent 用户代理伪装 (Snoopy v0.1)

  $referer 信息,如果有的话

  $cookies,如果有的话

  $rawheaders 其他头文件,如果有的话

  $maxredirs 最大重定向数,0 = 不允许 (5)

  $offsiteok 是否允许异地重定向。(真的)

  $expandlinks 是否完成指向完整地址的链接(true)

  $user 验证用户名,如果有的话

  $pass 认证用户名,如果有的话

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线