php 循环抓取网页内容(【】数组循环的问题代码有点多不方便贴出来)

优采云发布时间: 2022-03-10 17:04

　　关于数组循环

　　代码贴上有点不方便，希望朋友们给个思路，先谢谢了

$_array_article=array("http://blog.csdn.net/anewczs/article/details/6617391");

//$_array_article[]="http://blog.csdn.net/tianlesoftware/article/details/6723117";

foreach($_array_article as $value){

$spider->begin_url=$value;

file_get_contents($spider->begin_url);

_spider($spider->fetch_turl($spider->begin_url));

}

　　这是代码的一部分。每个链接都是通过一个链接数组来处理的，但是还有另一种情况：如果数组元素大于一个，就会出错。我的感觉是循环执行一次后，内存中的一些值影响了第二次循环，从而导致了错误。如何在需要的两个全局数组中不断添加新元素，而内存中的其他值全部清空？

　　--------解决方案--------

　　不能这样抢，很容易陷入无限循环的抢。

　　爬取一般是这样的

　　#1.创建文件保存url

　　#2.抓到的url附加到文件中

　　#3.读取文件中的url，逐行抓取数据，重复#2,#3

　　这里会出现一些问题，比如如何避免两次爬取同一个链接，如何将爬取目标限制在某个域名。等等，相信你能解决这些小问题。

0

2022-03-10

php 循环抓取网页内容

0 个评论

要回复文章请先登录或注册