百度网页关键字抓取(实习导师又没得项目让我一起一边瞎东西那闲着)

优采云 发布时间: 2021-09-10 21:14

  百度网页关键字抓取(实习导师又没得项目让我一起一边瞎东西那闲着)

  最近在实习,导师没有项目让我一起做事,就坐在一边摆弄东西

  

  闲也是闲,想写爬虫

  百度百科对爬虫的定义如下

  网络爬虫(也称为网络蜘蛛、网络机器人,在 FOAF 社区中,更常见的是网络追逐)是根据某些规则自动抓取万维网上信息的程序或脚本。其他不太常用的名称是蚂蚁、自动索引、模拟器或蠕虫。

  即从网页中抓取你想要的数据,获取的数据可以做进一步的处理。

  因为实习的是PHP,所以用PHP写,环境是Win10+php7.1+nginx

  先打开curl扩展,去掉php.ini中extension=php_curl.dll前面的分号,然后重启php和nginx

  然后开始写最简单的爬虫,抓取百度首页的内容到本地

  //初始话curl句柄

$ch = curl_init();

//要抓取的网页

$url = "https://www.baidu.com";

//设置访问的URL,curl_setopt就是设置连接参数

curl_setopt($ch, CURLOPT_URL, $url);

//不需要报文头

curl_setopt($ch, CURLOPT_HEADER, FALSE);

//跳过https验证,访问https网站必须加上这两句

curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, FALSE);

curl_setopt($ch, CURLOPT_SSL_VERIFYHOST, FALSE);

//返回响应信息而不是直接输出,默认将抓取的页面直接输出的

curl_setopt($ch, CURLOPT_RETURNTRANSFER, TRUE);

//开始执行

if (!$output = curl_exec($ch)) {

echo "Curl Error:". curl_error($ch);

}

//执行结束后必须将句柄关闭

curl_close($ch);

//保存页面信息

$html = fopen('D:/baidu_data.html', 'w');

fwrite($html, $output);

fclose($html);

echo '保存成功';

  好了,现在我们可以抓取页面了,接下来我们来处理数据

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线