抓取php网页源码(如何利用PHP抓取百度阅读的方法示例的相关内容吗)
优采云 发布时间: 2021-10-24 07:13抓取php网页源码(如何利用PHP抓取百度阅读的方法示例的相关内容吗)
想知道使用PHP抓取百度阅读的方法示例的相关内容吗?在本文中,我将讲解PHP抓取百度阅读的相关知识和一些代码示例。欢迎阅读和指正。我们先重点介绍:php爬虫,php抓取源码,一起来学习。
前言
本文文章主要介绍如何使用PHP抓取百度阅读。话不多说,一起来看看吧。
爬取方法如下
首先在浏览器中打开阅读页面,查看源码,发现页面上并没有直接写小说的内容,也就是说小说的内容是异步加载的。
所以把chrome开发者工具切到网络专栏,刷新阅读页面,重点关注XHR和脚本两大类。
经过排查,发现脚本类下有一个jsonp请求,更像是小说内容,请求地址为
返回的是一个jsonp字符串,然后我发现如果去掉地址中的callback=wenku7,返回的是一个json字符串,这样解析起来更容易,可以直接在php中转成数组。
我们再来分析一下返回数据的结构。返回的json字符串为树状结构后,每个节点都有at属性和ac属性。t属性用于指定节点的标签,如h2 div等,c属性是内容,但是有两种可能,一种是字符串,另一种是数组,每个元素的数组是一个节点。
这个结构最好解析,它可以通过递归来完成。
最终代码如下:
<p>