php网页抓取图片(基于Browser创建一个包装器()的代码发起了一个)
优采云 发布时间: 2022-02-09 13:21php网页抓取图片(基于Browser创建一个包装器()的代码发起了一个)
什么是网页抓取?
您是否曾经需要从不提供 API 的站点获取信息?我们可以通过抓取网页然后从目标 网站 的 HTML 中获取我们想要的信息来解决这个问题。当然,我们也可以手动提取这些信息,但是手动提取很繁琐。因此,使用爬虫自动执行此过程会更有效。
在本教程中,我们将从 Pexels 抓取一些猫的照片。这个 网站 提供高质量的免费库存图片。他们提供 API,但这些 API 的频率限制为 200 个请求/小时。
[](
发起并发请求
使用异步 PHP 进行网页抓取(与使用同步方法相比)的最大好处是可以在更短的时间内完成更多的工作。使用异步 PHP 允许我们一次请求尽可能多的页面,而不是一次请求一个页面并等待结果返回。所以一旦请求结果回来,我们就可以开始处理了。
首先,我们从 GitHub 拉取名为 Buzz-react 的异步 HTTP 客户端的代码——它是一个简单的基于 ReactPHP 的异步 HTTP 客户端,专用于同时处理大量 HTTP 请求:
composer require clue/buzz-react
现在,我们可以在 pexels 上请求图像页面:
<p>