php 循环抓取网页内容(这里有新鲜出炉的精品教程,程序狗速度看过来!)

优采云 发布时间: 2021-12-18 06:20

  php 循环抓取网页内容(这里有新鲜出炉的精品教程,程序狗速度看过来!)

  这里有新鲜出炉的优质教程,看节目狗速!

  ThinkPHP开源PHP框架ThinkPHP是一个为简化企业级应用开发和敏捷WEB应用开发而生的开源PHP框架。ThinkPHP可以支持windows/Unix/Liunx等服务器环境。正式版要求PHP5.0以上,支持MySql、PgSQL、Sqlite、PDO等多种数据库。

  本文文章主要介绍thinkphp的相关信息,用于抓取网站的内容并保存到本地。有需要的朋友可以参考

  Thinkphp 捕获网站 的内容并保存到本地实例。

  我需要写一个这样的例子并从电子教科书网站下载一本电子书。

  的电子书把书的每一页看成一幅图,然后一本书就有很多图。我需要批量下载图片。

  这是代码部分:

  

public function download() {

$http = new \Org\Net\Http();

$url_pref = "http://www.dzkbw.com/books/rjb/dili/xc7s/";

$localUrl = "Public/bookcover/";

$reg="|showImg\('(.+)'\);|";

$i=1;

do {

$filename = substr("000".$i,-3).".htm";

$ch = curl_init();

curl_setopt($ch, CURLOPT_URL, $url_pref.$filename);

curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);

curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, 10);

curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1);

$html = curl_exec($ch);

curl_close($ch);

$result = preg_match_all($reg,$html,$out, PREG_PATTERN_ORDER);

if($result==1) {

$picUrl = $out[1][0];

$picFilename = substr("000".$i,-3).".jpg";

$http->curlDownload($picUrl, $localUrl.$picFilename);

}

$i = $i+1;

} while ($result==1);

echo "下载完成";

}

  这里我以人民教育出版社出版的七年级地理第一册为例。

  网页从001.htm开始,然后不断增加

  每个网页都有一张图片,与课本的内容相对应。课本内容以图片的形式展示。

  我的代码是做一个循环,从第一页开始,直到在网页中找不到图片。

  抓取网页内容后,抓取网页中的图片到本地服务器

  爬取后的实际效果:

  

  以上就是thinkphp抓取网站的内容并保存到本地的例子的详细说明。如有疑问,请留言或到本站社区讨论。感谢您的阅读,希望对大家有所帮助。感谢您对本站的支持!

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线