从网页抓取数据( 如何向完全没有背景知识的人解释爬虫为何物？ )

优采云发布时间: 2021-09-20 04:21

　　从网页抓取数据(

如何向完全没有背景知识的人解释爬虫为何物？

)

　　“当我们在网站上看到一系列地址信息、商品信息，甚至天气、新闻等真实信息，但由于数量庞大，很难通过手动复制和粘贴完全获取时，爬虫可以代替您完成所有工作

　　-“如何向没有背景知识的人解释爬行动物是什么？”

　　-“爬虫程序是一种程序，它可以浏览网页，并根据特定规则为您复制和粘贴内容。”

　　是的，听起来很高级。你想写代码吗？！在互联网上搜索Python+scratch功能强大，具有爆炸性。但即便如此，对于一些仅用于江湖紧急救援的简单网站数据采集来说，还是有点小题大做，普通用户可能会专注于安装Python+scratch软件包

　　韦伯夏普首次亮相

　　此时，一个chrome的爬虫插件脱颖而出！（它的名字是web scraper。web可以指网络爬虫和在线爬虫。这是一个双关语（或者我想太多了…）

　　这里省略了如何安装插件，在网站.简而言之，安装完成后，按chrome下的F12启动

　　吃椰子

　　别说太多，来看看椰子！哦，不，栗子

　　让我们在天猫上攀登“业庆”的价格吧

　　一,

　　打开页面

　　让我们看看我们感兴趣的“椰子绿和价格”页面

　　没错！我对椰子绿很感兴趣

　　二,

　　大声说出爬行动物的界面

　　因此，我们根据提示打开在线爬虫界面

　　最右边的web scraper标签是我们以前安装的crawler插件。从现在开始，我们需要为crawler建立复制和粘贴数据的规则，以防止获取一些不应该获取的不需要的数据

　　三,

　　制定规则

　　如前所述，爬虫是指浏览网页并为您复制和粘贴内容的东西，因此它应该模拟您的行为。首先，您打开此界面，知道此网页是“我想要的数据起点”，因此对于爬虫来说，这是它的根。因此，让我们创建一个新的爬虫并告诉他：

　　我们点击新建站点地图创建一个爬虫，并给它一个名称~顺便说一下，告诉它起点（当前浏览器中的网址）。然后我们将进入爬虫的根目录（淘宝）：

　　四,

　　选择元素

　　然后我们开始获取每个商品的集合，单击添加新选择器，添加过滤器，并选择所有“椰子绿商品”元素：

　　同样，取一个名称，选择类型作为元素，选择商品元素。当选择两个相同的属性元素时，插件将自动检查页面上的所有属性元素

　　单击完成选择以完成选择并勾选多个。保存选择器

　　此时，我们只需要从先前筛选的项目元素中获取所需字段。同样，我们在项目目录中创建一些选择器。因为我们需要获取文本信息，所以需要将类型更改为文本

　　此时，一个简单的单页爬虫已经准备就绪。您也可以在sitemap的下拉菜单中选择graph来查看爬虫的结构

　　五,

　　单击“刮擦”开始攀爬

　　六,

　　下载数据

　　之后，数据将在窗口中自动生成。该插件具有导出为CSV的功能，只需单击一下即可下载。如果您意外关闭它，则无所谓。您可以在浏览器中看到最后捕获的数据

　　翻一页怎么样

　　如果你想翻页，那就更难了。Rocket Jun可能给出了一个想法：正如将遍历并获取项中的元素一样，同样地，在根目录中创建一个翻页链接选择器来实现“下一页”功能

　　将项目链接到链接选择器，并将链接选择器和先前创建的项目选择器链接到您自己，以实现无休止的循环，直到下一页不存在或下一页不可用

　　建立循环后，可以如下所示：

　　那又怎样

　　你可能会问：那又怎样

　　Rocket Jun使用此工具了解了全国各地销售的数百辆二手宝马3系车的价格。看看不同年龄段的宝马3系车在使用数年后的价格下降情况~

0

2021-09-20

从网页抓取数据

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

从网页抓取数据( 如何向完全没有背景知识的人解释爬虫为何物？ )

0 个评论

发起人