chrome抓取网页插件(WebScraper插件安装使用方法及安装流程：安装方法)

优采云发布时间: 2021-10-08 02:07

　　Web Scraper是一款chrome网页数据提取插件，用于从网页中提取数据。只需四步，用户就可以使用该插件建立页面数据提取规则，从而快速提取网页中需要的内容。Web Scraper插件的整个爬取逻辑都是从设置一级Selector和选择爬取范围开始，然后在一级Selector下设置好二级Selector后，再次选择爬取字段，然后你可以抓取网页数据。插件抓取数据后，可将数据导出为CSV文件，欢迎免费下载。

　　插件安装和使用

　　一、安装

　　1、编辑器使用chrome浏览器，首先在标签页输入【chrome://extensions/】进入chrome扩展，将你在本页下载的Web Scraper插件解压，拖入扩展页面就是这样。

　　2、安装完成后，赶紧试试插件的具体功能吧。

　　3、当然可以先在设置页面设置插件的存储设置和存储类型功能。

　　二、使用fetch函数

　　安装完成后，只需四步即可完成爬取操作。具体流程如下：

　　1、打开网页爬虫

　　首先，您需要使用该插件来提取网页数据。您需要在开发者工具模式下使用它。使用快捷键Ctrl+Shift+I/F12，在出现的开发工具窗口中找到与插件同名的列。

　　2、创建一个新的站点地图

　　单击创建新站点地图，其中有两个选项。导入站点地图是导入现成站点地图的指南。我们没有现成的，所以我们一般不选择这个，只选择创建站点地图。

　　然后执行这两个操作：

　　（1)Sitemap Name：代表你的sitemap适用于哪个网页，所以你可以根据自己的名字给网页命名，但是需要用英文字母。比如我从今天的头条中抓取数据，那我就用今日头条来命名

　　（2)Sitemap URL：将网页链接复制到Star URL栏。例如，在图片中，我将“吴晓波频道”的首页链接复制到该栏，然后点击下面的创建站点地图创建一个新的站点地图。

　　3、设置此站点地图

　　整个Web Scraper的爬取逻辑如下：设置一级Selector，选择爬取范围；在一级Selector下设置二级Selector，选择爬取字段，然后爬取。

　　对于文章，一级Selector意味着你要圈出这块文章的元素。这个元素可能包括标题、作者、发布时间、评论数等，然后我们会从关卡Selector中选择我们想要的元素，比如标题、作者、阅读次数。

　　下面我们来拆解一下设置primary和secondary Selector的工作流程：

　　（1)单击添加新选择器以创建一级选择器。

　　然后按照以下步骤操作：

　　-输入id：id代表你爬取的整个范围，比如这里是文章，我们可以命名为wuxiaobo-articles；

　　-Select Type：type代表你抓取的这部分的类型，比如element/text/link，因为这是整个文章元素范围的选择，所以我们需要先用Element来选择整个（如果此页面需要滑动加载（更多选择Element Scroll Down）；

　　-Check Multiple：勾选 Multiple 前面的小方框，因为要选择多个元素而不是单个元素。我们检查的时候，爬虫插件会帮我们识别多篇相同类型的文章文章；

　　-保留设置：其余未提及的部分保留默认设置。

　　（2)点击select选择范围，按照以下步骤操作：

　　-选择范围：用鼠标选择要爬取的数据范围，绿色为要选择的区域，鼠标点击后区域变为红色，此区域被选中；

　　- 多选：不要只选一个，选择以下，否则只会爬出一行数据；

　　- 完成选择：记得点击完成选择；

　　- 保存：单击保存选择器。

　　（3)设置好这个一级Selector后，点击进入设置二级Selector，步骤如下：

　　- 新建选择器：点击添加新选择器；

　　-输入id：id代表你抓的是哪个字段，这样你就可以取字段的英文了。比如我要选择“作者”，我就写“作者”；

　　-Select Type：选择Text，因为你要抓取的是文本；

　　-Do not check Multiple：不要勾选 Multiple 前面的小方框，因为我们这里要抓取的是单个元素；

　　-保留设置：其余未提及的部分保留默认设置。

　　（4)点击选择，然后点击要爬取的字段，按照以下步骤操作：

　　-选择字段：这里要爬取的字段为单个字段，可以通过鼠标点击该字段进行选择。比如要爬取标题，用鼠标点击某篇文章的标题，该字段所在的区域会变成红色被选中

　　- 完成选择：记得点击完成选择；

　　- 保存：单击保存选择器。

　　（5)重复以上操作，直到选好要攀登的场地。

　　4、爬取数据

　　（1) 之后只需要设置好所有的Selector就可以开始爬取数据了：

　　点击Scrape，然后点击Start Scraping，弹出一个小窗口，爬虫就开始工作了。您将获得收录您想要的所有数据的列表。

　　（2)如果想对数据进行排序，比如按阅读、喜欢、作者等排序，让数据更清晰，那么可以点击Export Data as CSV，导入到Excel表格中。

　　(3)导入Excel表格后，可以过滤数据。

　　插件功能

　　1、抓取多个页面

　　2、读取的数据存储在本地存储或CouchDB

　　3、多种数据选择类型

　　4、从动态页面中提取数据（JavaScript + AJAX）

　　5、浏览抓取的数据

　　6、将数据导出为 CSV

　　7、导入、导出站点地图

　　8、仅依赖于Chrome浏览器

0

2021-10-08

chrome抓取网页插件

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

chrome抓取网页插件(WebScraper插件安装使用方法及安装流程：安装方法)

0 个评论

发起人