抓取网页数据 php(curl()、file_get_contents(.class.phpsnoopy)
优采云 发布时间: 2021-10-18 14:18抓取网页数据 php(curl()、file_get_contents(.class.phpsnoopy)
curl()、file_get_contents()、snoopy.class.php是采集中用到的三个远程页面爬取工具或工具。它们具有相同的功能。有什么优点和缺点吗?这里一一介绍:
史努比.class.php
史努比是用fsockopen自行开发的类。它更高效并且不需要特定于服务器的配置支持。可以在普通的虚拟主机中使用,但是经常会出现问题。官方下载地址:
Snoopy是一个php类,用来模拟浏览器的功能,可以获取网页的内容,并发送表单。
史努比的特点:
1、获取网页内容
2、 获取网页的文本内容(去除HTML标签) fetchtext
3、获取网页链接,表单 fetchlinks fetchform
4、支持代理主机
5、支持基本的用户名/密码验证
6、支持设置user_agent、referer(来源)、cookies和header内容(头文件)
7、支持浏览器重定向,控制重定向深度
8、 可以将网页中的链接扩展为高质量的url(默认)
9、提交数据并获取返回值
10、支持跟踪HTML框架
11、 支持重定向时传递cookies
需要php4或更高版本,因为是php类,不需要扩展支持,服务器不支持curl时的最佳选择。