php网页抓取标题(3.分析网站源码,根据url爬取匹配:通过dump())
优采云 发布时间: 2021-11-06 17:05php网页抓取标题(3.分析网站源码,根据url爬取匹配:通过dump())
标签,如果有人知道,欢迎评论)。
然后调用var_dump($match)函数,看看这个处理的结果:
现在可以清楚的看到每个文章的内容已经被分离了,下面就是对每个文章进行处理,得到你想要的内容,或者使用正则匹配:
$url = array();
$title = array();
$imgurl = array();
for ($n = 0; $n < sizeof($find[1]); $n++) {
//获取标题和url
preg_match_all('/<a href="(.*?)" target="_blank">(.*?)/', $area, $utitle);
array_push($url, $utitle[1][$n]);
array_push($title, $utitle[2][$n]);
//取出图片
preg_match_all('//is', $find[0][$n], $image);
array_push($imgurl, $image[1]);
}
dump($title);
dump($url);
dump($imgurl);
通过dump()函数可以看到我们获取到了标题,每个文章的url,图片的url:
至此,您已经基本完成了大部分工作。接下来需要根据每个文章的url获取每个文章的内容。
3. 解析网站的源码,根据url抓取每个文章的内容
同样的步骤,首先选择要爬取的区域,这里以第一篇文章为例:
然后检查它的源代码:
在这里选择
到达
加工区域:
<p> //根据url获取每篇资讯的具体内容
for ($n = 0; $n < sizeof($url); $n++) {
//获取content
$html1 = $this->get($url[$n]);
preg_match('/