网页抓取数据百度百科(如何定义网络爬虫（二）：爬虫、爬虫从哪里爬取)

优采云发布时间: 2021-11-24 11:05

　　一、前言

　　您是否急于想采集数据却不知道如何采集数据？

　　您是否正在为尝试学习爬虫却找不到专门为小白写的教程而苦恼？

　　答对了！你没看错，这是专门为小白学习爬虫写的！我会用例子把每个部分和实际例子结合起来，帮助朋友们理解。最后，我会写几个实际的例子。

　　我们使用 Python 编写爬虫。一方面，因为Python是一门特别适合入门的语言，另一方面，Python也有很多爬虫相关的工具包，可以简单快速的开发我们的小爬虫。

　　本系列使用的是Python3.5版本，毕竟2.7会慢慢退出历史舞台的~

　　所以，接下来，你必须知道爬虫是什么，它在哪里爬取数据，以及学习爬虫要学什么。

　　二、什么是爬虫

　　来看看百度百科是如何定义的

　　网络爬虫（也称为网络蜘蛛、网络机器人，在 FOAF 社区中，更常见的是网络追逐）是根据某些规则自动抓取万维网上信息的程序或脚本。其他不太常用的名称是蚂蚁、自动索引、模拟器或蠕虫。

　　什么？没看懂？没关系，我给你解释一下

　　打开一个收录网页内容的网页。想象一下，有一个工具可以获取网页上的内容并将其保存在您想要的位置。这个工具就是我们今天的主角：爬虫。

　　这是否使它更清楚？

　　既然了解了爬虫是什么，那么爬虫是如何爬取数据的呢？

　　三、爬虫从哪里爬取数据

　　打开浏览器（强烈推荐使用谷歌浏览器），找到浏览器地址栏，然后输入，就可以看到网页的内容了。

　　图中的两个人在做什么？（单身狗请主动防守，这是意外伤害，这真的是意外伤害！）

　　用鼠标右键单击页面，然后单击查看页面源。你看到这些词了吗？这就是网站的样子。

　　其实所有的网页都是HTML代码，只是浏览器把这些代码解析成上面的网页。我们的小爬虫抓取的实际上是 HTML 代码中的文本。

　　这不合理，难不成那些图片也是文字？

　　恭喜你，你明白了。返回浏览器中带有图片的标签页，右键单击，然后单击“检查”。将弹出一个面板。点击面板左上角的箭头，点击虐狗图片，你会看到下面的红圈，就是图片的网络地址。图片可以通过这个地址保存到本地。

　　你猜对了，我们的小爬虫抓取网页中的数据。您需要知道您想要获取哪些数据以及您的目标网站是将您的想法变为现实。哦。你不能说，我要这个，这个，这个，然后数据会自动来。. . （这让你想起了你的导师或老板吗？）

0

2021-11-24

网页抓取数据百度百科

0 个评论

要回复文章请先登录或注册