浏览器抓取网页(求高手，模拟浏览器抓取网页（宁贵银十）)

优采云发布时间: 2022-03-17 03:28

　　求高手，模拟浏览器抓取网页

　　比如爬取这个网页，如果我写的程序不收录URL末尾的“/”，是不会被爬取的，但是没有最后一个“/”（即：）可以爬取，什么是他的原则？在下面发布我的代码，请改进

function file_get($url){ ob_start(); $ch = curl_init(); curl_setopt($ch, CURLOPT_COOKIEJAR, "./cookie.txt"); curl_setopt($ch, CURLOPT_USERAGENT, "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; .NET CLR 2.0.50727; InfoPath.1; CIBA)"); curl_setopt($ch, CURLOPT_URL, $url); curl_setopt($ch, CURLOPT_HEADER, FALSE); curl_setopt($ch, CURLOPT_COOKIESESSION, TRUE); curl_setopt($ch, CURLOPT_NOBODY, FALSE); curl_exec($ch); curl_close($ch); $content = ob_get_clean(); return $content; }

　　- - - 解决方案 - - - - - - - - - -

　　CURLOPT_FOLLOWLOCATION

0

2022-03-17

浏览器抓取网页

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

浏览器抓取网页(求高手，模拟浏览器抓取网页（宁贵银十）)

0 个评论

发起人