snoopy php网页抓取工具(Snoopy模拟浏览器获取网页内容和发送表单的方法和使用方法)
优采云 发布时间: 2021-09-17 01:10snoopy php网页抓取工具(Snoopy模拟浏览器获取网页内容和发送表单的方法和使用方法)
史努比是一只猫php采集Class模拟浏览器以获取web内容并发送表单
以下是史努比的一些功能:
易于抓取web内容
易于抓取页面文本(删除HTML标记)
易于抓取网页中的链接
支持代理抓取
支持基本用户名和密码认证
支持设置用户代理、引用、cookie和标题内容
支持浏览器转向和控制转向深度
可以将页面中的链接转换为高质量链接
方便的数据提交和返回值
可以跟踪HTML框架
支持重定向时传输cookie
史努比类,方法:
获取($URI)
用于抓取网页内容的方法$URI参数是已爬网网页的URL地址。获取的结果存储在$this->results中。如果您正在抓取一帧,Snoopy将跟踪每个帧并将其存储在数组中,然后存储$this->results
fetchtext($URI)
此方法类似于fetch()。唯一的区别是,此方法将删除HTML标记和其他无关数据,并且只返回网页中的文本内容
fetchform($URI)
此方法类似于fetch()。唯一的区别是,此方法将删除HTML标记和其他不相关的数据,并且只返回网页中的表单内容
获取链接($URI)
此方法类似于fetch()。唯一的区别是,此方法将删除HTML标记和其他无关数据,并且只返回网页中的链接。默认情况下,相对链接会自动完成并转换为完整URL
提交($URI,$formvars)
此方法向$URL指定的链接地址发送确认表单$Formvars是存储表单参数的数组
submittext($URI,$formvars)
此方法类似于submit()。唯一的区别是,此方法将删除HTML标记和其他无关数据,并且仅在登录后返回网页中的文本内容
提交链接($URI)
此方法类似于submit()。唯一的区别是,此方法将删除HTML标记和其他无关数据,并且只返回网页中的链接。默认情况下,相对链接会自动完成并转换为完整URL
Class属性:(默认值在括号中)
$host连接的主机
$port连接端口
$proxy\主机使用的代理主机(如果有)
$proxy\端口使用代理主机端口(如果有)
$agent用户代理伪装(史努比)v0.1)
$referer源信息(如果有)
$cookies(如有)
$rawheads其他标题信息(如有)
$maxredrs最大重定向次数,0=不允许(5))@
$offsiteok是否允许场外重定向。(对)
$expandlinks是否完成指向完整地址的所有链接(true)
$user authentication username(如果有)
$pass身份验证用户名(如果有)