从网页抓取数据( 如何向完全没有背景知识的人解释爬虫为何物? )
优采云 发布时间: 2021-09-20 04:21从网页抓取数据(
如何向完全没有背景知识的人解释爬虫为何物?
)
“当我们在网站上看到一系列地址信息、商品信息,甚至天气、新闻等真实信息,但由于数量庞大,很难通过手动复制和粘贴完全获取时,爬虫可以代替您完成所有工作
-“如何向没有背景知识的人解释爬行动物是什么?”
-“爬虫程序是一种程序,它可以浏览网页,并根据特定规则为您复制和粘贴内容。”
是的,听起来很高级。你想写代码吗?!在互联网上搜索Python+scratch功能强大,具有爆炸性。但即便如此,对于一些仅用于江湖紧急救援的简单网站数据采集来说,还是有点小题大做,普通用户可能会专注于安装Python+scratch软件包
韦伯夏普首次亮相
此时,一个chrome的爬虫插件脱颖而出!(它的名字是web scraper。web可以指网络爬虫和在线爬虫。这是一个双关语(或者我想太多了…)
这里省略了如何安装插件,在网站.简而言之,安装完成后,按chrome下的F12启动
吃椰子
别说太多,来看看椰子!哦,不,栗子
让我们在天猫上攀登“业庆”的价格吧
一,
打开页面
让我们看看我们感兴趣的“椰子绿和价格”页面
没错!我对椰子绿很感兴趣
二,
大声说出爬行动物的界面
因此,我们根据提示打开在线爬虫界面
最右边的web scraper标签是我们以前安装的crawler插件。从现在开始,我们需要为crawler建立复制和粘贴数据的规则,以防止获取一些不应该获取的不需要的数据
三,
制定规则
如前所述,爬虫是指浏览网页并为您复制和粘贴内容的东西,因此它应该模拟您的行为。首先,您打开此界面,知道此网页是“我想要的数据起点”,因此对于爬虫来说,这是它的根。因此,让我们创建一个新的爬虫并告诉他:
我们点击新建站点地图创建一个爬虫,并给它一个名称~顺便说一下,告诉它起点(当前浏览器中的网址)。然后我们将进入爬虫的根目录(淘宝):
四,
选择元素
然后我们开始获取每个商品的集合,单击添加新选择器,添加过滤器,并选择所有“椰子绿商品”元素:
同样,取一个名称,选择类型作为元素,选择商品元素。当选择两个相同的属性元素时,插件将自动检查页面上的所有属性元素
单击完成选择以完成选择并勾选多个。保存选择器
此时,我们只需要从先前筛选的项目元素中获取所需字段。同样,我们在项目目录中创建一些选择器。因为我们需要获取文本信息,所以需要将类型更改为文本
此时,一个简单的单页爬虫已经准备就绪。您也可以在sitemap的下拉菜单中选择graph来查看爬虫的结构
五,
单击“刮擦”开始攀爬
六,
下载数据
之后,数据将在窗口中自动生成。该插件具有导出为CSV的功能,只需单击一下即可下载。如果您意外关闭它,则无所谓。您可以在浏览器中看到最后捕获的数据
翻一页怎么样
如果你想翻页,那就更难了。Rocket Jun可能给出了一个想法:正如将遍历并获取项中的元素一样,同样地,在根目录中创建一个翻页链接选择器来实现“下一页”功能
将项目链接到链接选择器,并将链接选择器和先前创建的项目选择器链接到您自己,以实现无休止的循环,直到下一页不存在或下一页不可用
建立循环后,可以如下所示:
那又怎样
你可能会问:那又怎样
Rocket Jun使用此工具了解了全国各地销售的数百辆二手宝马3系车的价格。看看不同年龄段的宝马3系车在使用数年后的价格下降情况~