php网页抓取标题(3.分析网站源码，根据url爬取匹配：通过dump())

优采云发布时间: 2021-11-06 17:05

　　标签，如果有人知道，欢迎评论）。

　　然后调用var_dump($match)函数，看看这个处理的结果：

　　现在可以清楚的看到每个文章的内容已经被分离了，下面就是对每个文章进行处理，得到你想要的内容，或者使用正则匹配：

　　$url = array();

$title = array();

$imgurl = array();

for ($n = 0; $n < sizeof($find[1]); $n++) {

//获取标题和url

preg_match_all('/<a href="(.*?)" target="_blank">(.*?)/', $area, $utitle);

array_push($url, $utitle[1][$n]);

array_push($title, $utitle[2][$n]);

//取出图片

preg_match_all('//is', $find[0][$n], $image);

array_push($imgurl, $image[1]);

}

dump($title);

dump($url);

dump($imgurl);

　　通过dump()函数可以看到我们获取到了标题，每个文章的url，图片的url：

　　至此，您已经基本完成了大部分工作。接下来需要根据每个文章的url获取每个文章的内容。

　　3. 解析网站的源码，根据url抓取每个文章的内容

　　同样的步骤，首先选择要爬取的区域，这里以第一篇文章为例：

　　然后检查它的源代码：

　　在这里选择

　　到达

　　加工区域：

<p> //根据url获取每篇资讯的具体内容

for ($n = 0; $n < sizeof($url); $n++) {

//获取content

$html1 = $this->get($url[$n]);

preg_match('/

0

2021-11-06

php网页抓取标题

0 个评论

要回复文章请先登录或注册