php禁止网页抓取(用浏览器打开没有问题.(函数获取内容) )

优采云发布时间: 2022-02-20 02:03

　　php禁止网页抓取(用浏览器打开没有问题.(函数获取内容)

)

　　由 admin 于 2019 年 8 月 7 日发布

　　使用 curl 单独获取有效，但是如果获取相同类型的系列网站会失败，请将它们放入数组中

　　$linkList，分别以此类推。

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 function getJobsHubuNotice()

{

$curl = curl_init('http://jobs.hubu.edu.cn/List.aspx?ArticleChannelId=81');

curl_setopt($curl, CURLOPT_RETURNTRANSFER, 1);

$result = curl_exec($curl);

//内容处理

$result = strip_tags($result,'<a>');

$result = stristr($result, 'nbsp当前位置：');

$result = str_replace('nbsp当前位置：', '', $result);

$result = stristr($result, '当前1/2页',true);

$result = stristr($result, '通知公告');

$result = str_replace('通知公告</a>', '', $result);

preg_match_all('/(?<=href=").*?(?=")/', $result, $arrayTemp);

$linkList = $arrayTemp[0];

preg_match_all('/(?<=title=").*?(?=")/', $result, $arrayTemp);

$titleList = $arrayTemp[0];

preg_match_all('/(?<=\[)\d*\-\d*(?=\])/', $result, $arrayTemp);

$dateList_temp = $arrayTemp[0];

$dateList = array();

$linkList = str_replace('Detail.aspx', 'http://jobs.hubu.edu.cn/Detail.aspx', $linkList);

foreach ($dateList_temp as $key => $value) {

$dateList[$key] = date('Y').'-'.$value;

}

$JobsHubu = array();

//分别获得网页上的每条通知的标题，链接，时间

$JobsHubu[0] = $dateList;

$JobsHubu[1] = $titleList;

$JobsHubu[2] = $linkList;

return $JobsHubu;

}

//

function makePage($link)

{

....... //省略部分代码

else if(starts($link,'jobs.hubu'))

{

echo "进入makePage函数";

echo "处理网页".$link.' ';

$curl = curl_init();

curl_setopt($curl, CURLOPT_URL , $link);

curl_setopt($curl, CURLOPT_RETURNTRANSFER, 1);

$result = curl_exec($curl);

//echo $result;

//echo "result结束";

$result = strip_tags($result);

$result = stristr($result, '&nbsp;>&nbsp;通知公告');

$result = str_replace('&nbsp;>&nbsp;通知公告', '', $result);

$result = stristr($result, '$(document).ready',true);

$result = trim($result);

$result = str_replace("\r\n", ' ', $result);

$result = preg_replace('/(\<br\/\>){1,}/', ' ', $result);

echo $result;

echo ' ';

echo "退出makePage函数";

return $result;

}

}

　　先使用getJobsHubuNotice()函数获取新闻的链接、标题、日期，再使用makePage()函数获取内容

　　这是在makePage里面打印链接的结果，用浏览器打开链接没有问题。

0

2022-02-20

php禁止网页抓取

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

php禁止网页抓取(用浏览器打开没有问题.(函数获取内容) )

0 个评论

发起人

AI时代内容工厂

php禁止网页抓取(用浏览器打开没有问题.(函数获取内容) )

0 个评论

发起人

相关问题