php网页抓取标题(网络爬虫可能需要很长时间来执行任务,我一直在环顾互联网)
优采云 发布时间: 2021-12-15 03:09php网页抓取标题(网络爬虫可能需要很长时间来执行任务,我一直在环顾互联网)
一直在网上找,希望有这个可能,我基本上只需要获取页面的标题,别的什么都没有。
网络爬虫可能需要很长时间才能执行任务,因为他们必须在检查页面之前加载页面,这对于我想要实现的目标来说效率低下......这是我目前拥有的
代码
$url = 'http://www.ebay.com/itm/300702997750#ht_500wt_1156';
$str = file_get_contents($url);
$title = '';
if(strlen($str)>0){
preg_match("/\(.*)\/",$str,$titleArr);
$title = $titleArr[1];
}
我想知道是否可以只抓取页面的一部分(例如,页面的前 2000 个字符)。
任何帮助将不胜感激,谢谢。
解决方案
您可以使用 substr 获取前 1000 个字符,也可以使用
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, 'http://www.example.com/');
curl_setopt($ch, CURLOPT_RANGE, '0-500');
curl_setopt($ch, CURLOPT_BINARYTRANSFER, 1);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
$result = curl_exec($ch);
curl_close($ch);
echo $result;
那只会下载前 500 个字节。你可以通过运行如下极其丑陋的垃圾代码来解决这个问题:
<p>$url = 'http://www.example.com/';
$range = array();
$repeats = 10;
function average($a){
return array_sum($a)/count($a) ;
}
for ($i=0;$i