网页内容抓取 php(php中根据url来获得网页内容非常的方便,可以通过系统内置函数file_get_contents)

优采云 发布时间: 2021-10-07 14:19

  网页内容抓取 php(php中根据url来获得网页内容非常的方便,可以通过系统内置函数file_get_contents)

  在php中,根据url获取网页内容非常方便。可以通过系统内置函数file_get_contents()传入url,返回网页内容。例如获取百度主页的内容代码为:

  可以显示百度首页的内容,但是这个功能不是万能的,因为有些服务器禁用了这个功能,或者这个功能没有把某些必要的参数传递给服务器,服务器拒绝响应。这时候,我们就需要想其他的办法了。

  这里介绍php的cURL库,可以方便有效的抓取网页。你只需要运行一个脚本,然后分析你抓取的网页,然后你就可以通过编程的方式得到你想要的数据。无论您是想从链接中获取部分数据,还是获取 XML 文件并将其导入数据库,即使只是获取网页内容,cURL 都是一个强大的 PHP 库。要使用它,首先必须在 php 配置文件中打开它。当它打开时,windows 中可能需要一些dll。我不相信这里的介绍。要检查 curl 是否打开,您可以调用 phpinfo(); 检查它是否打开,它将显示在“加载的扩展”中。

  下面是一个使用 curl 获取网页代码的简单示例:

  通过这段代码,可以输出网易首页的内容。这里CURLOPT_USERAGENT是关键,因为它模拟浏览器代理,所以服务器会认为是浏览器访问的,所以会返回正确的html给他。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线