php网页抓取标题(3.分析网站源码,根据url爬取匹配:通过dump())

优采云 发布时间: 2021-11-06 17:05

  php网页抓取标题(3.分析网站源码,根据url爬取匹配:通过dump())

  标签,如果有人知道,欢迎评论)。

  然后调用var_dump($match)函数,看看这个处理的结果:

  

  现在可以清楚的看到每个文章的内容已经被分离了,下面就是对每个文章进行处理,得到你想要的内容,或者使用正则匹配:

  $url = array();

$title = array();

$imgurl = array();

for ($n = 0; $n < sizeof($find[1]); $n++) {

//获取标题和url

preg_match_all(&#39;/<a href="(.*?)" target="_blank">(.*?)/&#39;, $area, $utitle);

array_push($url, $utitle[1][$n]);

array_push($title, $utitle[2][$n]);

//取出图片

preg_match_all(&#39;//is&#39;, $find[0][$n], $image);

array_push($imgurl, $image[1]);

}

dump($title);

dump($url);

dump($imgurl);

  通过dump()函数可以看到我们获取到了标题,每个文章的url,图片的url:

  

  

  

  至此,您已经基本完成了大部分工作。接下来需要根据每个文章的url获取每个文章的内容。

  3. 解析网站的源码,根据url抓取每个文章的内容

  同样的步骤,首先选择要爬取的区域,这里以第一篇文章为例:

  

  然后检查它的源代码:

  

  在这里选择

  到达

  加工区域:

<p> //根据url获取每篇资讯的具体内容

for ($n = 0; $n < sizeof($url); $n++) {

//获取content

$html1 = $this->get($url[$n]);

preg_match(&#39;/

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线