百度网页关键字抓取(实习导师又没得项目让我一起一边瞎东西那闲着)

优采云发布时间: 2021-09-10 21:14

　　最近在实习，导师没有项目让我一起做事，就坐在一边摆弄东西

　　闲也是闲，想写爬虫

　　百度百科对爬虫的定义如下

　　网络爬虫（也称为网络蜘蛛、网络机器人，在 FOAF 社区中，更常见的是网络追逐）是根据某些规则自动抓取万维网上信息的程序或脚本。其他不太常用的名称是蚂蚁、自动索引、模拟器或蠕虫。

　　即从网页中抓取你想要的数据，获取的数据可以做进一步的处理。

　　因为实习的是PHP，所以用PHP写，环境是Win10+php7.1+nginx

　　先打开curl扩展，去掉php.ini中extension=php_curl.dll前面的分号，然后重启php和nginx

　　然后开始写最简单的爬虫，抓取百度首页的内容到本地

　　//初始话curl句柄

$ch = curl_init();

//要抓取的网页

$url = "https://www.baidu.com";

//设置访问的URL,curl_setopt就是设置连接参数

curl_setopt($ch, CURLOPT_URL, $url);

//不需要报文头

curl_setopt($ch, CURLOPT_HEADER, FALSE);

//跳过https验证，访问https网站必须加上这两句

curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, FALSE);

curl_setopt($ch, CURLOPT_SSL_VERIFYHOST, FALSE);

//返回响应信息而不是直接输出，默认将抓取的页面直接输出的

curl_setopt($ch, CURLOPT_RETURNTRANSFER, TRUE);

//开始执行

if (!$output = curl_exec($ch)) {

echo "Curl Error:". curl_error($ch);

}

//执行结束后必须将句柄关闭

curl_close($ch);

//保存页面信息

$html = fopen('D:/baidu_data.html', 'w');

fwrite($html, $output);

fclose($html);

echo '保存成功';

　　好了，现在我们可以抓取页面了，接下来我们来处理数据

0

2021-09-10

百度网页关键字抓取

0 个评论

要回复文章请先登录或注册