抓取网页数据 php(curl()、file_get_contents(.class.phpsnoopy)

优采云发布时间: 2021-10-18 14:18

　　curl()、file_get_contents()、snoopy.class.php是采集中用到的三个远程页面爬取工具或工具。它们具有相同的功能。有什么优点和缺点吗？这里一一介绍：

　　史努比.class.php

　　史努比是用fsockopen自行开发的类。它更高效并且不需要特定于服务器的配置支持。可以在普通的虚拟主机中使用，但是经常会出现问题。官方下载地址：

　　Snoopy是一个php类，用来模拟浏览器的功能，可以获取网页的内容，并发送表单。

　　史努比的特点：

　　1、获取网页内容

　　2、获取网页的文本内容（去除HTML标签） fetchtext

　　3、获取网页链接，表单 fetchlinks fetchform

　　4、支持代理主机

　　5、支持基本的用户名/密码验证

　　6、支持设置user_agent、referer（来源）、cookies和header内容（头文件）

　　7、支持浏览器重定向，控制重定向深度

　　8、可以将网页中的链接扩展为高质量的url（默认）

　　9、提交数据并获取返回值

　　10、支持跟踪HTML框架

　　11、支持重定向时传递cookies

　　需要php4或更高版本，因为是php类，不需要扩展支持，服务器不支持curl时的最佳选择。

0

2021-10-18

抓取网页数据 php

0 个评论

要回复文章请先登录或注册