百度网页关键字抓取(实习导师又没得项目让我一起一边瞎东西那闲着)
优采云 发布时间: 2021-09-10 21:14百度网页关键字抓取(实习导师又没得项目让我一起一边瞎东西那闲着)
最近在实习,导师没有项目让我一起做事,就坐在一边摆弄东西
闲也是闲,想写爬虫
百度百科对爬虫的定义如下
网络爬虫(也称为网络蜘蛛、网络机器人,在 FOAF 社区中,更常见的是网络追逐)是根据某些规则自动抓取万维网上信息的程序或脚本。其他不太常用的名称是蚂蚁、自动索引、模拟器或蠕虫。
即从网页中抓取你想要的数据,获取的数据可以做进一步的处理。
因为实习的是PHP,所以用PHP写,环境是Win10+php7.1+nginx
先打开curl扩展,去掉php.ini中extension=php_curl.dll前面的分号,然后重启php和nginx
然后开始写最简单的爬虫,抓取百度首页的内容到本地
//初始话curl句柄
$ch = curl_init();
//要抓取的网页
$url = "https://www.baidu.com";
//设置访问的URL,curl_setopt就是设置连接参数
curl_setopt($ch, CURLOPT_URL, $url);
//不需要报文头
curl_setopt($ch, CURLOPT_HEADER, FALSE);
//跳过https验证,访问https网站必须加上这两句
curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, FALSE);
curl_setopt($ch, CURLOPT_SSL_VERIFYHOST, FALSE);
//返回响应信息而不是直接输出,默认将抓取的页面直接输出的
curl_setopt($ch, CURLOPT_RETURNTRANSFER, TRUE);
//开始执行
if (!$output = curl_exec($ch)) {
echo "Curl Error:". curl_error($ch);
}
//执行结束后必须将句柄关闭
curl_close($ch);
//保存页面信息
$html = fopen('D:/baidu_data.html', 'w');
fwrite($html, $output);
fclose($html);
echo '保存成功';
好了,现在我们可以抓取页面了,接下来我们来处理数据