php网页抓取标题(网络爬虫可能需要很长时间来执行任务,我一直在环顾互联网)

优采云 发布时间: 2021-12-15 03:09

  php网页抓取标题(网络爬虫可能需要很长时间来执行任务,我一直在环顾互联网)

  一直在网上找,希望有这个可能,我基本上只需要获取页面的标题,别的什么都没有。

  网络爬虫可能需要很长时间才能执行任务,因为他们必须在检查页面之前加载页面,这对于我想要实现的目标来说效率低下......这是我目前拥有的

  代码

  $url = 'http://www.ebay.com/itm/300702997750#ht_500wt_1156';

$str = file_get_contents($url);

$title = '';

if(strlen($str)>0){

preg_match("/\(.*)\/",$str,$titleArr);

$title = $titleArr[1];

}

  我想知道是否可以只抓取页面的一部分(例如,页面的前 2000 个字符)。

  任何帮助将不胜感激,谢谢。

  解决方案

  您可以使用 substr 获取前 1000 个字符,也可以使用

  $ch = curl_init();

curl_setopt($ch, CURLOPT_URL, 'http://www.example.com/');

curl_setopt($ch, CURLOPT_RANGE, '0-500');

curl_setopt($ch, CURLOPT_BINARYTRANSFER, 1);

curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);

$result = curl_exec($ch);

curl_close($ch);

echo $result;

  那只会下载前 500 个字节。你可以通过运行如下极其丑陋的垃圾代码来解决这个问题:

<p>$url = 'http://www.example.com/';

$range = array();

$repeats = 10;

function average($a){

return array_sum($a)/count($a) ;

}

for ($i=0;$i

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线