抓取php网页源码(PHP中如何利用爬虫_get_contents()效果 )
优采云 发布时间: 2021-12-06 00:10抓取php网页源码(PHP中如何利用爬虫_get_contents()效果
)
爬虫是按照一定的规则自动抓取万维网上信息的程序或脚本。
我们通常使用搜索引擎浏览网页,有很多与预期信息不匹配的结果;而且信息量巨大,有结果后,我们需要花费大量的精力来过滤信息。爬虫诞生了,我们可以写一个脚本或者程序,让他按照我们的需要按照设定的规则抓取网页信息,过滤出我们需要的结果。
首先,PHP中可以获取万维网页面的函数有很多,比如:file_get_contents()或者curl扩展,或者ob_get_contents()获取缓冲区等,最实用最常用的就是file_get_contents() . 例子:
目标页面
代码和效果
打开文件后的比较
因此,我们可以使用file_get_contents()来开发爬虫。
步:
1. 解析url规则
第一页:
第二页:
第三页:
在第一页后加&pn=0和第一页内容一样,所以每页的pn参数会增加50
可以概括为:&pn=(当前页码-1)*50
2. 根据规则循环抓取内容
3. 正则匹配需求内容根据需求(可根据实际需求做)
4. 积分结果(写入文件)
<p>//爬取前3页
for($i=1;$i