chrome抓取网页插件(WebScraper插件安装使用方法及安装流程:安装方法)

优采云 发布时间: 2021-10-08 02:07

  chrome抓取网页插件(WebScraper插件安装使用方法及安装流程:安装方法)

  Web Scraper是一款chrome网页数据提取插件,用于从网页中提取数据。只需四步,用户就可以使用该插件建立页面数据提取规则,从而快速提取网页中需要的内容。Web Scraper插件的整个爬取逻辑都是从设置一级Selector和选择爬取范围开始,然后在一级Selector下设置好二级Selector后,再次选择爬取字段,然后你可以抓取网页数据。插件抓取数据后,可将数据导出为CSV文件,欢迎免费下载。

  

  插件安装和使用

  一、安装

  1、编辑器使用chrome浏览器,首先在标签页输入【chrome://extensions/】进入chrome扩展,将你在本页下载的Web Scraper插件解压,拖入扩展页面就是这样。

  

  2、安装完成后,赶紧试试插件的具体功能吧。

  

  3、当然可以先在设置页面设​​置插件的存储设置和存储类型功能。

  

  二、使用fetch函数

  安装完成后,只需四步即可完成爬取操作。具体流程如下:

  1、打开网页爬虫

  首先,您需要使用该插件来提取网页数据。您需要在开发者工具模式下使用它。使用快捷键Ctrl+Shift+I/F12,在出现的开发工具窗口中找到与插件同名的列。

  

  2、创建一个新的站点地图

  单击创建新站点地图,其中有两个选项。导入站点地图是导入现成站点地图的指南。我们没有现成的,所以我们一般不选择这个,只选择创建站点地图。

  

  然后执行这两个操作:

  (1)Sitemap Name:代表你的sitemap适用于哪个网页,所以你可以根据自己的名字给网页命名,但是需要用英文字母。比如我从今天的头条中抓取数据,那我就用今日头条来命名

  (2)Sitemap URL:将网页链接复制到Star URL栏。例如,在图片中,我将“吴晓波频道”的首页链接复制到该栏,然后点击下面的创建站点地图创建一个新的站点地图。

  

  3、设置此站点地图

  整个Web Scraper的爬取逻辑如下: 设置一级Selector,选择爬取范围;在一级Selector下设置二级Selector,选择爬取字段,然后爬取。

  对于文章,一级Selector意味着你要圈出这块文章的元素。这个元素可能包括标题、作者、发布时间、评论数等,然后我们会从关卡Selector中选择我们想要的元素,比如标题、作者、阅读次数。

  

  下面我们来拆解一下设置primary和secondary Selector的工作流程:

  (1)单击添加新选择器以创建一级选择器。

  然后按照以下步骤操作:

  -输入id:id代表你爬取的整个范围,比如这里是文章,我们可以命名为wuxiaobo-articles;

  -Select Type:type代表你抓取的这部分的类型,比如element/text/link,因为这是整个文章元素范围的选择,所以我们需要先用Element来选择整个(如果此页面需要滑动加载(更多选择Element Scroll Down);

  -Check Multiple:勾选 Multiple 前面的小方框,因为要选择多个元素而不是单个元素。我们检查的时候,爬虫插件会帮我们识别多篇相同类型的文章文章;

  -保留设置:其余未提及的部分保留默认设置。

  

  (2)点击select选择范围,按照以下步骤操作:

  -选择范围:用鼠标选择要爬取的数据范围,绿色为要选择的区域,鼠标点击后区域变为红色,此区域被选中;

  - 多选:不要只选一个,选择以下,否则只会爬出一行数据;

  - 完成选择:记得点击完成选择;

  - 保存:单击保存选择器。

  

  (3)设置好这个一级Selector后,点击进入设置二级Selector,步骤如下:

  - 新建选择器:点击添加新选择器;

  -输入id:id代表你抓的是哪个字段,这样你就可以取字段的英文了。比如我要选择“作者”,我就写“作者”;

  -Select Type:选择Text,因为你要抓取的是文本;

  -Do not check Multiple:不要勾选 Multiple 前面的小方框,因为我们这里要抓取的是单个元素;

  -保留设置:其余未提及的部分保留默认设置。

  

  (4)点击选择,然后点击要爬取的字段,按照以下步骤操作:

  -选择字段:这里要爬取的字段为单个字段,可以通过鼠标点击该字段进行选择。比如要爬取标题,用鼠标点击某篇文章的标题,该字段所在的区域会变成红色被选中

  - 完成选择:记得点击完成选择;

  - 保存:单击保存选择器。

  (5)重复以上操作,直到选好要攀登的场地。

  4、 爬取数据

  (1) 之后只需要设置好所有的Selector就可以开始爬取数据了:

  点击Scrape,然后点击Start Scraping,弹出一个小窗口,爬虫就开始工作了。您将获得收录您想要的所有数据的列表。

  

  (2)如果想对数据进行排序,比如按阅读、喜欢、作者等排序,让数据更清晰,那么可以点击Export Data as CSV,导入到Excel表格中。

  (3)导入Excel表格后,可以过滤数据。

  

  插件功能

  1、抓取多个页面

  2、读取的数据存储在本地存储或CouchDB

  3、多种数据选择类型

  4、 从动态页面中提取数据(JavaScript + AJAX)

  5、浏览抓取的数据

  6、将数据导出为 CSV

  7、导入、导出站点地图

  8、仅依赖于Chrome浏览器

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线