chrome插件网页抓取(如何抓取亚马逊的商品评价(InstantDataScraper),当时我差点被感动哭了)
优采云 发布时间: 2022-01-02 13:13chrome插件网页抓取(如何抓取亚马逊的商品评价(InstantDataScraper),当时我差点被感动哭了)
如何抓取亚马逊产品评论?
本来想给大家介绍一下市面上常见的或者付费的爬虫工具。直到发现这个免费的Chrome插件Instant Data Scraper,我差点被感动哭了。比起学一门编程语言来写爬虫,我还要下功夫去研究各种网页的结构和层次,总得担心我的爬虫会被亚马逊干掉。
只需拥有即时数据抓取工具!
不要害怕改变网页结构,采集规则无效的问题!
小白也可以轻松使用亚马逊评测采集爬虫技术!
什么是即时数据抓取工具?
本插件使用AI(人工智能)技术,可以判断页面上最相关的内容进行抓取,不需要您了解晦涩难懂的编程技术。 Amazon、eBay、Best Buy、Walmart、Etsy、Home Depot、Craigslist、Yelp 等。网站 均受支持。
在我初次使用后,我发现它不太可能导致“人工智力低下”的问题。至少爬取一些亚马逊商品评论(Customer Reviews)、listing和QA等基础数据,Instant Data Scraper很方便,喜欢!
如何使用即时数据抓取工具?
在Chrome网上应用店搜索并安装插件“Instant Data Scraper”。如果您无法访问 Chrome 网上应用店,您可以离线安装插件。
插件使用起来真的很简单。以采集亚马逊评论为例:
即时数据抓取
1.打开商品评论页面第一页,URL格式如:+商品ASIN
如下图:
2.然后选择“最近”,按照产品自然留待审核的时间排序。
3.排序完成后,点击浏览器右上角的Instant Data Scraper插件图标“Poke Ball Plug-in”,如下图
4.进入爬虫抓取页面的设置,如下图
5.在精灵球插件中,点击定位“下一步”按钮,然后回到产品Review页面底部,点击“下一页”再点击“开始爬行”开始自动爬行查看数据。
当然,我们也可以在这里删除不需要的信息。稍后下载表单时,我们不需要的信息将不会显示。
这里需要注意的是Min delay和Max delay。当您的网速过快时,您需要将 Min delay 设置为较大的值。当您的网速太慢时,您应该将最小延迟和最大延迟设置为较大的值。只有这样,才能稳定抓取数据。
6. Review下载完成后,页面会弹出错误信息“Error getting table: Table not found”,然后我们点击绿色按钮“CSV”,我们将下载其中一个我们的评论。下载它。如果下载一千多个Review数据,数据下载时间会稍长一些。可能有错觉,感觉卡住了。我们只需稍等片刻即可下载。下载完成,左下角的底部会有一个文件下载提示框,这样我们就知道Review是否已经下载了。
7.打开下载的CSV或Excel文件,整理我们需要的数据列
当然,除了爬取亚马逊评论数据,我们还可以爬取QA等其他信息。
获取评论信息时,可以获取姓名、评分、评论时间、关键词、购买的款式等信息。
我们也可以使用这个工具来选择产品。快速对产品的特点和消费者的情绪做出粗略的判断,而不是一个一个的阅读Review,更适合大范围的批量选择。
当然,除了在亚马逊上爬取信息,我们也可以在其他平台或独立网站上使用这个插件。
从上图可以看出对应的抓取信息是比较准确的。