自动采集编写(共享一下我的采集代码!(组图)我采集程序的思路)
优采云 发布时间: 2022-02-07 11:20自动采集编写(共享一下我的采集代码!(组图)我采集程序的思路)
很久没有在论坛上正式发帖了。今天给大家分享一下我的采集代码!思路:采集程序的思路很简单,大致可以分为以下几个步骤:
1.获取远程文件源代码(file_get_contents 或 fopen)。
2.分析代码得到你想要的(这里使用正则匹配,一般是分页)
很久没有在论坛上正式发帖了。今天给大家分享一下我的采集代码!
想法:
采集程序的思路很简单,大致可以分为以下几个步骤:
1.获取远程文件源代码(file_get_contents 或 fopen)。
2.分析代码得到你想要的(这里使用正则匹配,通常是分页)。
3.下载并存储从root获取的内容。
这里的第二步可以重复几次。比如我们需要先分析分页地址,再分析内页的内容,得到我们想要的。
代码:
我记得我之前发布的一些代码。今天,我将简单地在这里发布。
将 PHP 内容复制到剪贴板
PHP代码:
@$nl=file_get_contents($rs['url']);//抓取远程内容
preg_match_all("/var url = "gameswf/(.*?).swf";/is",$nl,$connect);//做正则匹配得到你想要的
mysql_query("插入...插入数据库部分");
以上代码是采集使用的全部代码。当然,你也可以使用 fopen 来做。我个人喜欢使用 file_get_contents。
分享一下我下载图片刷到本地的方法,太简单了两行代码
将 PHP 内容复制到剪贴板
PHP代码:
if(@copy($url,$newurl)){
回声“好”;
}
之前在论坛上也发过图片下载功能,也会贴出来给大家。
将 PHP 内容复制到剪贴板
PHP代码:
/*这个保存图片的功能*/
函数 getimg($url,$filename){
/* 判断图片的url是否为空,如果为空则停止函数 */
如果($url==""){
返回假;
}
/*获取图片的扩展名并存入变量$ext*/
$ext=strrchr($url,".");
/* 判断是否为合法图片文件 */
if($ext!=".gif" && $ext!=".jpg"){
返回假;
}
/* 读取图像 */
$img=file_get_contents($url);
/*打开指定文件*/
$fp=@fopen($filename.$ext,"a");
/*将图像写入指定文件*/
fwrite($fp,$img);
/* 关闭文件 */
fclose($fp);
/*返回图片的新文件名*/
返回 $filename.$ext;
}
分享您的个人 采集 道德:
1.不要用那些用作防盗链的站,其实可以造假,但是这样的站采集成本太高了
2.采集尽快停止,最好是本地采集
3.采集很多情况下,可以先将一部分数据存入数据库,再进行下一步处理。
4.采集 必须正确处理错误。如果 采集 失败 3 次,我通常会跳过它。以前经常因为一个内容不能被挑出来就卡在那里不停的挑。
5.入库前一定要做好判断,检查内容的合法性,过滤掉不必要的字符串。