excel抓取网页动态数据(一个基于浏览器的爬虫插件InstantDataScraper抓取评论(一))
优采云 发布时间: 2022-01-04 13:12excel抓取网页动态数据(一个基于浏览器的爬虫插件InstantDataScraper抓取评论(一))
使用 Chrome 插件 Instant Data Scraper 抓取评论
通常我们要分析一个产品的负面评论,我们需要捕获所有负面评论(1、2、3 星)进行分析和总结。一般的做法是将评论一条一条的复制到表格中,但是这种做法效率太低了。今天推荐一个基于Chrome浏览器的爬虫插件Instant Data Scraper。
插件安装地址:(需要VPN翻墙)
使用方法如下:
1. 进入要提取差评的listing详情页面,进入评论列表页面,删除差评
2. 在这个页面打开 Instant Data Scraper 插件
图中红框是插件自动识别的数据表。默认是拉出整个页面的数据,但是我们只想评论,所以需要切换我们需要的数据表。
3. 找到我们需要的数据表
点击“Try another table”按钮,插件会自动识别当前页面的其他数据表,提取的数据会显示在插件下方的表格中。我们需要检查提取的数据是否正确。如果不是我们想要的,那么继续点击“Try another table”按钮,让插件继续寻找其他数据表;如果检查表中的数据是我们想要的,那么我们可以进行下一步。
4. 设置下一页按钮(不是必须的,如果插件检测到下一页按钮就不需要设置,如果没有检测到我们需要设置)
比如一个产品有10页的差评,如果我们想一次性完成爬取,就要告诉插件哪个按钮是下一页,这样插件才能自动翻页爬取它。
如果插件页面出现Locate“Next”按钮,说明插件无法识别下一页是哪个按钮。这时候我们需要点击这个按钮,然后点击页面上的下一步按钮。
5. 获取数据
设置好数据表和下一页按钮后,就可以开始取数据了。点击“开始爬取”按钮开始爬取数据。
6. 数据导出
插件提供“CSV(逗号分隔值,通用数据表格式,几乎兼容所有电子表格软件)”、“XLSX(Excel电子表格)”、“COPYALL(复制到剪贴板)”,点击相应按钮即可获取对应的文件或数据。
备注:Instant Data Scraper是一款基于Chrome的爬虫工具,用途非常广泛。你可以尽情发挥你的想象力,爬取几乎所有你能看到的东西。