php网页抓取标题(网络爬虫可能需要很长时间来执行任务，我一直在环顾互联网)

优采云发布时间: 2021-12-15 03:09

　　一直在网上找，希望有这个可能，我基本上只需要获取页面的标题，别的什么都没有。

　　网络爬虫可能需要很长时间才能执行任务，因为他们必须在检查页面之前加载页面，这对于我想要实现的目标来说效率低下......这是我目前拥有的

　　代码

　　$url = 'http://www.ebay.com/itm/300702997750#ht_500wt_1156';

$str = file_get_contents($url);

$title = '';

if(strlen($str)>0){

preg_match("/\(.*)\/",$str,$titleArr);

$title = $titleArr[1];

}

　　我想知道是否可以只抓取页面的一部分（例如，页面的前 2000 个字符）。

　　任何帮助将不胜感激，谢谢。

　　解决方案

　　您可以使用 substr 获取前 1000 个字符，也可以使用

　　$ch = curl_init();

curl_setopt($ch, CURLOPT_URL, 'http://www.example.com/');

curl_setopt($ch, CURLOPT_RANGE, '0-500');

curl_setopt($ch, CURLOPT_BINARYTRANSFER, 1);

curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);

$result = curl_exec($ch);

curl_close($ch);

echo $result;

　　那只会下载前 500 个字节。你可以通过运行如下极其丑陋的垃圾代码来解决这个问题：

<p>$url = 'http://www.example.com/';

$range = array();

$repeats = 10;

function average($a){

return array_sum($a)/count($a) ;

}

for ($i=0;$i

0

2021-12-15

php网页抓取标题

0 个评论

要回复文章请先登录或注册