php 循环抓取网页内容(【】数组循环的问题代码有点多不方便贴出来)

优采云 发布时间: 2022-03-10 17:04

  php 循环抓取网页内容(【】数组循环的问题代码有点多不方便贴出来)

  关于数组循环

  代码贴上有点不方便,希望朋友们给个思路,先谢谢了

  $_array_article=array("http://blog.csdn.net/anewczs/article/details/6617391");<br />

//$_array_article[]="http://blog.csdn.net/tianlesoftware/article/details/6723117";<br />

<br />

foreach($_array_article as $value){<br />

$spider->begin_url=$value;<br />

file_get_contents($spider->begin_url);<br />

_spider($spider->fetch_turl($spider->begin_url));<br />

}<br />

  这是代码的一部分。每个链接都是通过一个链接数组来处理的,但是还有另一种情况:如果数组元素大于一个,就会出错。我的感觉是循环执行一次后,内存中的一些值影响了第二次循环,从而导致了错误。如何在需要的两个全局数组中不断添加新元素,而内存中的其他值全部清空?

  --------解决方案--------

  不能这样抢,很容易陷入无限循环的抢。

  爬取一般是这样的

  #1.创建文件保存url

  #2.抓到的url附加到文件中

  #3.读取文件中的url,逐行抓取数据,重复#2,#3

  这里会出现一些问题,比如如何避免两次爬取同一个链接,如何将爬取目标限制在某个域名。 等等,相信你能解决这些小问题。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线