php 循环抓取网页内容(【】数组循环的问题代码有点多不方便贴出来)
优采云 发布时间: 2022-03-10 17:04php 循环抓取网页内容(【】数组循环的问题代码有点多不方便贴出来)
关于数组循环
代码贴上有点不方便,希望朋友们给个思路,先谢谢了
$_array_article=array("http://blog.csdn.net/anewczs/article/details/6617391");<br />
//$_array_article[]="http://blog.csdn.net/tianlesoftware/article/details/6723117";<br />
<br />
foreach($_array_article as $value){<br />
$spider->begin_url=$value;<br />
file_get_contents($spider->begin_url);<br />
_spider($spider->fetch_turl($spider->begin_url));<br />
}<br />
这是代码的一部分。每个链接都是通过一个链接数组来处理的,但是还有另一种情况:如果数组元素大于一个,就会出错。我的感觉是循环执行一次后,内存中的一些值影响了第二次循环,从而导致了错误。如何在需要的两个全局数组中不断添加新元素,而内存中的其他值全部清空?
--------解决方案--------
不能这样抢,很容易陷入无限循环的抢。
爬取一般是这样的
#1.创建文件保存url
#2.抓到的url附加到文件中
#3.读取文件中的url,逐行抓取数据,重复#2,#3
这里会出现一些问题,比如如何避免两次爬取同一个链接,如何将爬取目标限制在某个域名。 等等,相信你能解决这些小问题。