WebScraper:从网页中提取数据的Chrome网页数据提取插件

优采云 发布时间: 2021-04-05 03:06

  

WebScraper:从网页中提取数据的Chrome网页数据提取插件

  

  我要共享的工具是一个称为Chrome的插件:Web Scraper,这是一个可以从网页中提取数据的Chrome网页数据提取插件。从某种意义上讲,您还可以将其用作采集器工具。

  这也是因为我最近正在整理一些36氪文章的标签,并且计划查看可以参考与风险资本网站相关的其他标准,所以我找到了一家名为“ Enox Data”的公司“ 网站,它提供的“工业系统”标签集具有很大的参考价值。我想捕获页面上的数据并将其集成到我们自己的标记库中,如下图的红色字母部分所示:

  

  如果它是规则显示的数据,则还可以使用鼠标来选择它,然后将其复制并粘贴,但是您仍然必须考虑一些将其嵌入页面的方法。这时候,我记得以前已经安装了Web Scraper,所以我尝试了。它非常易于使用,并且采集效率立即得到提高。也给大家安利〜

  Web Scraper是Chrome插件。一年前,我在一个三节课的公开课上看到了它。它声称是一种黑色技术,可以在不知道编程的情况下实现爬网程序爬网,但是似乎您无法在这三个类别的官方网站上找到它。您可以在百度上找到“三课程爬虫”,仍然可以找到它,名字叫“每个人都可以学习的数据爬虫类”,但似乎要付出100元。我认为可以通过在互联网上查看文章来了解这件事,例如我的文章〜

  简单地说,Web Scraper是基于Chrome的网页元素解析器,可以通过可视化的单击操作提取自定义区域中的数据/元素。同时,它还提供了定时自动提取功能,可以用作一组简单的采集器工具。

  在这里,我将通过方式解释网页提取器抓取与实际代码抓取之间的区别。使用网页提取器自动提取页面数据的过程有点类似于模拟手动点击的机器人。它使您可以首先在页面上定义需求。抓取哪个元素,抓取哪些页面,然后让机器代表他人进行操作;如果您使用Python编写采集器,则最好使用Web页面请求命令先下载整个Web页面,然后再使用代码来解析HTML页面元素。提取您想要的内容,并继续循环。相比之下,使用代码会更灵活,但是解析的成本会更高。如果这是简单的页面内容提取,则我也建议使用Web Scraper。

  关于Web Scraper的特定安装过程以及如何使用完整功能,我今天将不在文章中讨论。第一个是我只用了我需要的东西,第二个是市场上有太多Web Scraper教程,您可以自己找到它。

  这只是一个实用的过程,可以为您简要介绍我的使用方式。

  第一步是创建站点地图

  打开Chrome浏览器,按F12调用开发人员工具,Web Scraper在最后一个选项卡上,单击,然后选择“创建站点地图”菜单,然后单击“创建站点地图”选项。

  

  首先输入要抓取的网站 URL,以及您自定义的抓取任务的名称。例如,我的名字是:xiniulevel,URL是:

  第二步是创建抓取节点

  我想获取第一级标签和第二级标签,因此首先单击我刚刚创建的站点地图,然后单击“添加新选择器”以进入获取节点选择器配置页面,然后单击“在“按钮”页面上选择“”,然后您会看到一个浮动层出现

  

  这时,将鼠标移至网页时,它将自动以绿色突出显示鼠标悬停的特定位置。此时,您可以先单击要选择的块,然后您会发现该块变为红色。如果要选择同一级别的所有块,则可以继续单击下一个相邻的块,该工具将默认选择同一级别的所有块,如下所示:

  

  我们将发现下面的浮动窗口的文本输入框自动填充了该块的XPATH路径,然后单击“完成选择!”。要结束选择,浮动框将消失,并且所选的XPATH将自动填充到下面的选择器行中。另外,请确保选择“多个”以声明要选择多个块。最后,单击“保存”选择器按钮结束。

  

  第三步是获取元素值

  完成选择器的创建后,返回上一页,您会发现选择器表中有多余的一行,然后您可以直接在“操作”中的“数据”预览上单击以查看所有您想要获取的元素值。

  

  

  上图中显示的部分是我添加了两个选择器(主要标签和次要标签)的情况。单击数据预览的弹出窗口的内容实际上是我想要的,只需将其直接复制到EXCEL,就不需要什么对于自动爬网处理来说太复杂了。

  上面是对使用Web Scraper的过程的简要介绍。当然,我的用法并不完全有效,因为每次我想要获取第二级标签时,都需要先手动切换第一级标签,然后执行抓取指令。应该有更好的方法,但是对我来说已经足够了。本文文章主要是希望与您一起推广此工具。这不是教程。应该根据您的需要探索更*敏*感*词*〜

  怎么样,它对您有帮助吗?

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线