php 抓取网页生成图片(强大的PHP采集类,可以用来开发一些采集程序和小偷程序,)

优采云发布时间: 2021-10-22 22:06

　　这个文章主要介绍PHP采集类Snoopy来抓图。Snoopy是一个功能强大的PHP采集类，可以用来开发一些采集程序和小偷程序，有需要的朋友可以参考

　　使用 PHP 的 Snoopy 类两天后，我发现它运行得非常好。要获取请求网页中的所有链接，可以直接使用 fetchlinks。获取所有的文本信息，使用fetchtext（还是用正则表达式处理），还有很多其他的功能，比如模拟提交表单。

　　指示：

　　首先下载史努比类，下载地址：

　　先实例化一个对象，然后调用对应的方法获取爬取的网页信息

　　复制代码代码如下：

　　包括'史努比/史努比.class.php';

　　$史努比 = 新史努比();

　　$sourceURL = "//";

　　$snoopy->fetchlinks($sourceURL);

　　$a = $snoopy->results;

　　不提供获取网页中所有图片地址的方法。它自己的一个需求是获取页面上文章列表中的所有图片地址。然后我自己写了一个，主要是因为常规比赛很重要。

　　复制代码代码如下：

　　//匹配图片的正则表达式

　　$reTag = "/

　　/一世”;

　　由于特殊需要，只需要抓取htp://开头的图片（外网的图片可能是反盗版的，我想先抓取本地的）

　　1. 抓取指定网页，过滤掉所有预期的文章地址；

　　2.循环抓取第一步中文章的地址，然后使用匹配图片的正则表达式进行匹配，得到页面中所有符合规则的图片地址；

　　3.根据图片后缀和ID保存图片（这里只有gif，jpg）---如果图片文件存在，先删除再保存。

　　复制代码代码如下：

　　用php爬网页时：内容、图片、链接，我觉得最重要的是有规律的（根据爬取的内容和指定的规则来获取想要的数据），思路其实比较简单，用到的方法是也不是很多，就那么几个（而且可以直接调用别人写的类中的方法来抓取内容）

　　但是我之前想到的是，PHP似乎没有实现以下方法。比如一个文件有N行（N大），需要替换符合规则的行内容。比如第三行是aaa，需要转成bbbbb。需要修改文件时的常见做法：

　　1.一次读取整个文件（或逐行读取），然后用一个临时文件保存最终的转换结果，然后替换原文件

　　2. 逐行读取，使用fseek控制文件指针位置，然后fwrite写入

　　当文件较大时，不建议方案1一次读取（逐行读取，然后写入临时文件再替换原文件效率不高），方案2是当替换的长度string 小于等于目标值没问题，但是如果超过限制，就会有问题。它将“越界”并破坏下一行中的数据（它不能被新内容替换，例如 JavaScript 中的“选择”概念）。

　　下面是试验场景 2 的代码：

　　复制代码代码如下：

　　先读一行。这时候文件指针实际上指向了下一行的开始。使用 fseek 将文件指针移回上一行的开头，然后使用 fwrite 执行替换操作。因为是替换操作，如果长度不指定next，会影响下一行的数据，而我想要的是只对这一行进行操作，比如删除这一行或者只用一个替换整行1.上面的例子不符合要求，可能是我没找到合适的方法...

0

2021-10-22

php 抓取网页生成图片

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

php 抓取网页生成图片(强大的PHP采集类,可以用来开发一些采集程序和小偷程序,)

0 个评论

发起人

AI时代内容工厂

php 抓取网页生成图片(强大的PHP采集类,可以用来开发一些采集程序和小偷程序,)

0 个评论

发起人

相关问题