php curl抓取网页指定内容(我用php抓取数据的抓取方法抓的话的错误Youareauthorized)

优采云 发布时间: 2022-02-26 16:08

  php curl抓取网页指定内容(我用php抓取数据的抓取方法抓的话的错误Youareauthorized)

  我用的是php,curl主要是抓取数据,当然我们也可以用其他的方法抓取,比如fsockopen,file_get_contents等等。但它只能抓取那些可以直接访问的页面。如果要抓取有页面访问控制的页面,或者登录后的页面,就比较难了。

  1.无访问控制抓取文件

  2.使用代理进行爬取

  为什么要使用代理进行抓取?以谷歌为例。如果你抓取谷歌的数据,并且在短时间内非常频繁地抓取它,你将无法抓取它。谷歌此时限制了你的ip地址,你可以换个代理重新抓取。

  3.post数据后,抓取数据

  数据提交数据单独说一下,因为在使用curl的时候,很多情况下都会有数据交互,所以比较重要。

  在upload.php 文件中,print_r($_POST); 使用 curl 捕获 upload.php 输出的内容数组( [name] => test [sex] => 1 [birth] => 20101010 )

  4.爬取一些带有页面访问控制的页面

  之前写过一篇文章,对页面访问控制的3种方法感兴趣的可以看看。

  如果使用上面提到的方法进行捕获,会报如下错误

  您无权查看此页面

  您无权使用您提供的凭据查看此目录或页面,因为您的 Web 浏览器正在发送 Web 服务器未配置为接受的 WWW-Authenticate 标头字段。

  这时候,我们将使用 CURLOPT_USERPWD 来验证

  以上5个常用php curl的经典例子,都是小编分享的内容。希望能给大家一个参考,也希望大家多多支持脚本之家。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线