snoopy php网页抓取工具(phpsnoopy用法:Snoopy($URI)类方法及示例)
优采云 发布时间: 2021-10-20 12:07snoopy php网页抓取工具(phpsnoopy用法:Snoopy($URI)类方法及示例)
php snoopy 用法:1、[fetch($URI)] 抓取网页内容; 2、[fetchtext($URI)] 删除 HTML 标签和其他无关数据; 3、【fetchform($URI)】返回网页中表单的内容。
本教程运行环境:windows7系统,PHP5.6版本,DELL G3电脑。
php snoopy 用法:
史努比类方法和示例:
1、fetch($URI)
这是用来抓取网页内容的方法。
$URI 参数是被抓取网页的 URL 地址。
获取的结果存储在 $this->results 中。
如果你正在抓取一个帧,史努比会跟踪每一帧并将其存储在一个数组中,然后将其存储在 $this->results 中。
2、fetchtext($URI)
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的文本内容。
3、fetchform($URI)
该方法与fetch()类似,唯一不同的是,该方法会去除HTML标签等无关数据,只返回网页中的表单内容(form)。
4、fetchlinks($URI)
这个方法和fetch()类似,唯一不同的是这个方法会去除HTML标签等无关数据,只返回网页中的链接。
默认情况下,相对链接会自动补全并转换成完整的网址。
5、提交($URI,$formvars)
此方法向$URL 指定的链接地址发送确认表单。 $formvars 是一个存储表单参数的数组。
6、提交文本($URI,$formvars)
该方法与submit()类似,唯一不同的是,该方法会去除HTML标签等无关数据,登录后只返回网页中的文本内容。
7、提交链接($URI)
这个方法类似于submit()。唯一不同的是,该方法会去除HTML标签等无关数据,只返回网页中的链接。
默认情况下,相对链接会自动补全并转换成完整的网址。
Snoopy采集Class 属性:(括号内为默认值)
$host 连接的主机
$port 连接的端口
$proxy_host 使用的代理主机,如果有的话
$proxy_port 使用的代理主机端口,如果有的话
$agent 用户代理伪装(史努比 v0.1)
$referer 传入信息,如果有的话
$cookies cookies(如果有)
$rawheaders 其他头信息,如果有的话
$maxredirs 最大重定向次数,0=不允许 (5)
$offsiteok 是否允许异地重定向。 (真实)
$expandlinks 是否完成所有链接以完成地址(真实)
$user 认证用户名,如果有的话
$pass 认证用户名,如果有的话