php curl抓取网页指定内容(我用php抓取数据的抓取方法抓的话的错误Youareauthorized)
优采云 发布时间: 2022-02-26 16:08php curl抓取网页指定内容(我用php抓取数据的抓取方法抓的话的错误Youareauthorized)
我用的是php,curl主要是抓取数据,当然我们也可以用其他的方法抓取,比如fsockopen,file_get_contents等等。但它只能抓取那些可以直接访问的页面。如果要抓取有页面访问控制的页面,或者登录后的页面,就比较难了。
1.无访问控制抓取文件
2.使用代理进行爬取
为什么要使用代理进行抓取?以谷歌为例。如果你抓取谷歌的数据,并且在短时间内非常频繁地抓取它,你将无法抓取它。谷歌此时限制了你的ip地址,你可以换个代理重新抓取。
3.post数据后,抓取数据
数据提交数据单独说一下,因为在使用curl的时候,很多情况下都会有数据交互,所以比较重要。
在upload.php 文件中,print_r($_POST); 使用 curl 捕获 upload.php 输出的内容数组( [name] => test [sex] => 1 [birth] => 20101010 )
4.爬取一些带有页面访问控制的页面
之前写过一篇文章,对页面访问控制的3种方法感兴趣的可以看看。
如果使用上面提到的方法进行捕获,会报如下错误
您无权查看此页面
您无权使用您提供的凭据查看此目录或页面,因为您的 Web 浏览器正在发送 Web 服务器未配置为接受的 WWW-Authenticate 标头字段。
这时候,我们将使用 CURLOPT_USERPWD 来验证
以上5个常用php curl的经典例子,都是小编分享的内容。希望能给大家一个参考,也希望大家多多支持脚本之家。