从网页抓取数据( 如何向完全没有背景知识的人解释爬虫为何物? )

优采云 发布时间: 2021-09-20 04:21

  从网页抓取数据(

如何向完全没有背景知识的人解释爬虫为何物?

)

  

  

  “当我们在网站上看到一系列地址信息、商品信息,甚至天气、新闻等真实信息,但由于数量庞大,很难通过手动复制和粘贴完全获取时,爬虫可以代替您完成所有工作

  -“如何向没有背景知识的人解释爬行动物是什么?”

  -“爬虫程序是一种程序,它可以浏览网页,并根据特定规则为您复制和粘贴内容。”

  是的,听起来很高级。你想写代码吗?!在互联网上搜索Python+scratch功能强大,具有爆炸性。但即便如此,对于一些仅用于江湖紧急救援的简单网站数据采集来说,还是有点小题大做,普通用户可能会专注于安装Python+scratch软件包

  韦伯夏普首次亮相

  此时,一个chrome的爬虫插件脱颖而出!(它的名字是web scraper。web可以指网络爬虫和在线爬虫。这是一个双关语(或者我想太多了…)

  这里省略了如何安装插件,在网站.简而言之,安装完成后,按chrome下的F12启动

  吃椰子

  别说太多,来看看椰子!哦,不,栗子

  让我们在天猫上攀登“业庆”的价格吧

  一,

  打开页面

  让我们看看我们感兴趣的“椰子绿和价格”页面

  

  没错!我对椰子绿很感兴趣

  二,

  大声说出爬行动物的界面

  因此,我们根据提示打开在线爬虫界面

  

  最右边的web scraper标签是我们以前安装的crawler插件。从现在开始,我们需要为crawler建立复制和粘贴数据的规则,以防止获取一些不应该获取的不需要的数据

  三,

  制定规则

  如前所述,爬虫是指浏览网页并为您复制和粘贴内容的东西,因此它应该模拟您的行为。首先,您打开此界面,知道此网页是“我想要的数据起点”,因此对于爬虫来说,这是它的根。因此,让我们创建一个新的爬虫并告诉他:

  

  我们点击新建站点地图创建一个爬虫,并给它一个名称~顺便说一下,告诉它起点(当前浏览器中的网址)。然后我们将进入爬虫的根目录(淘宝):

  

  四,

  选择元素

  然后我们开始获取每个商品的集合,单击添加新选择器,添加过滤器,并选择所有“椰子绿商品”元素:

  

  同样,取一个名称,选择类型作为元素,选择商品元素。当选择两个相同的属性元素时,插件将自动检查页面上的所有属性元素

  单击完成选择以完成选择并勾选多个。保存选择器

  此时,我们只需要从先前筛选的项目元素中获取所需字段。同样,我们在项目目录中创建一些选择器。因为我们需要获取文本信息,所以需要将类型更改为文本

  

  此时,一个简单的单页爬虫已经准备就绪。您也可以在sitemap的下拉菜单中选择graph来查看爬虫的结构

  

  五,

  单击“刮擦”开始攀爬

  

  六,

  下载数据

  之后,数据将在窗口中自动生成。该插件具有导出为CSV的功能,只需单击一下即可下载。如果您意外关闭它,则无所谓。您可以在浏览器中看到最后捕获的数据

  翻一页怎么样

  如果你想翻页,那就更难了。Rocket Jun可能给出了一个想法:正如将遍历并获取项中的元素一样,同样地,在根目录中创建一个翻页链接选择器来实现“下一页”功能

  将项目链接到链接选择器,并将链接选择器和先前创建的项目选择器链接到您自己,以实现无休止的循环,直到下一页不存在或下一页不可用

  

  建立循环后,可以如下所示:

  

  那又怎样

  你可能会问:那又怎样

  Rocket Jun使用此工具了解了全国各地销售的数百辆二手宝马3系车的价格。看看不同年龄段的宝马3系车在使用数年后的价格下降情况~

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线