网页抓取数据百度百科(如何定义网络爬虫(二):爬虫、爬虫从哪里爬取)

优采云 发布时间: 2021-11-24 11:05

  网页抓取数据百度百科(如何定义网络爬虫(二):爬虫、爬虫从哪里爬取)

  一、前言

  您是否急于想采集数据却不知道如何采集数据?

  您是否正在为尝试学习爬虫却找不到专门为小白写的教程而苦恼?

  答对了!你没看错,这是专门为小白学习爬虫写的!我会用例子把每个部分和实际例子结合起来,帮助朋友们理解。最后,我会写几个实际的例子。

  我们使用 Python 编写爬虫。一方面,因为Python是一门特别适合入门的语言,另一方面,Python也有很多爬虫相关的工具包,可以简单快速的开发我们的小爬虫。

  本系列使用的是Python3.5版本,毕竟2.7会慢慢退出历史舞台的~

  所以,接下来,你必须知道爬虫是什么,它在哪里爬取数据,以及学习爬虫要学什么。

  二、什么是爬虫

  来看看百度百科是如何定义的

  网络爬虫(也称为网络蜘蛛、网络机器人,在 FOAF 社区中,更常见的是网络追逐)是根据某些规则自动抓取万维网上信息的程序或脚本。其他不太常用的名称是蚂蚁、自动索引、模拟器或蠕虫。

  什么?没看懂?没关系,我给你解释一下

  打开一个收录网页内容的网页。想象一下,有一个工具可以获取网页上的内容并将其保存在您想要的位置。这个工具就是我们今天的主角:爬虫。

  这是否使它更清楚?

  既然了解了爬虫是什么,那么爬虫是如何爬取数据的呢?

  三、爬虫从哪里爬取数据

  打开浏览器(强烈推荐使用谷歌浏览器),找到浏览器地址栏,然后输入,就可以看到网页的内容了。

  

  图中的两个人在做什么?(单身狗请主动防守,这是意外伤害,这真的是意外伤害!)

  用鼠标右键单击页面,然后单击查看页面源。你看到这些词了吗?这就是网站的样子。

  

  其实所有的网页都是HTML代码,只是浏览器把这些代码解析成上面的网页。我们的小爬虫抓取的实际上是 HTML 代码中的文本。

  这不合理,难不成那些图片也是文字?

  恭喜你,你明白了。返回浏览器中带有图片的标签页,右键单击,然后单击“检查”。将弹出一个面板。点击面板左上角的箭头,点击虐狗图片,你会看到下面的红圈,就是图片的网络地址。图片可以通过这个地址保存到本地。

  

  你猜对了,我们的小爬虫抓取网页中的数据。您需要知道您想要获取哪些数据以及您的目标 网站 是将您的想法变为现实。哦。你不能说,我要这个,这个,这个,然后数据会自动来。. . (这让你想起了你的导师或老板吗?)

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线