自动采集编写(共享一下我的采集代码!(组图)我采集程序的思路)

优采云 发布时间: 2022-02-07 11:20

  自动采集编写(共享一下我的采集代码!(组图)我采集程序的思路)

  很久没有在论坛上正式发帖了。今天给大家分享一下我的采集代码!思路:采集程序的思路很简单,大致可以分为以下几个步骤:

  1.获取远程文件源代码(file_get_contents 或 fopen)。

  2.分析代码得到你想要的(这里使用正则匹配,一般是分页)

  很久没有在论坛上正式发帖了。今天给大家分享一下我的采集代码!

  想法:

  采集程序的思路很简单,大致可以分为以下几个步骤:

  1.获取远程文件源代码(file_get_contents 或 fopen)。

  2.分析代码得到你想要的(这里使用正则匹配,通常是分页)。

  3.下载并存储从root获取的内容。

  这里的第二步可以重复几次。比如我们需要先分析分页地址,再分析内页的内容,得到我们想要的。

  代码:

  我记得我之前发布的一些代码。今天,我将简单地在这里发布。

  将 PHP 内容复制到剪贴板

  PHP代码:

  @$nl=file_get_contents($rs['url']);//抓取远程内容

  preg_match_all("/var url = "gameswf/(.*?).swf";/is",$nl,$connect);//做正则匹配得到你想要的

  mysql_query("插入...插入数据库部分");

  以上代码是采集使用的全部代码。当然,你也可以使用 fopen 来做。我个人喜欢使用 file_get_contents。

  分享一下我下载图片刷到本地的方法,太简单了两行代码

  将 PHP 内容复制到剪贴板

  PHP代码:

  if(@copy($url,$newurl)){

  回声“好”;

  }

  之前在论坛上也发过图片下载功能,也会贴出来给大家。

  将 PHP 内容复制到剪贴板

  PHP代码:

  /*这个保存图片的功能*/

  函数 getimg($url,$filename){

  /* 判断图片的url是否为空,如果为空则停止函数 */

  如果($url==""){

  返回假;

  }

  /*获取图片的扩展名并存入变量$ext*/

  $ext=strrchr($url,".");

  /* 判断是否为合法图片文件 */

  if($ext!=".gif" && $ext!=".jpg"){

  返回假;

  }

  /* 读取图像 */

  $img=file_get_contents($url);

  /*打开指定文件*/

  $fp=@fopen($filename.$ext,"a");

  /*将图像写入指定文件*/

  fwrite($fp,$img);

  /* 关闭文件 */

  fclose($fp);

  /*返回图片的新文件名*/

  返回 $filename.$ext;

  }

  分享您的个人 采集 道德:

  1.不要用那些用作防盗链的站,其实可以造假,但是这样的站采集成本太高了

  2.采集尽快停止,最好是本地采集

  3.采集很多情况下,可以先将一部分数据存入数据库,再进行下一步处理。

  4.采集 必须正确处理错误。如果 采集 失败 3 次,我通常会跳过它。以前经常因为一个内容不能被挑出来就卡在那里不停的挑。

  5.入库前一定要做好判断,检查内容的合法性,过滤掉不必要的字符串。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线