chrome网页视频抓取( 如何抓取亚马逊的商品评价?DataScraper技术分享)
优采云 发布时间: 2022-02-13 08:28chrome网页视频抓取(
如何抓取亚马逊的商品评价?DataScraper技术分享)
如何抓取亚马逊产品评论?
本来想介绍市面上常见或者付费爬虫工具的使用方法,直到发现了这个免费的Chrome插件——Instant Data Scraper,感动落泪。比起学习编程语言写爬虫,我要努力学习各种网页结构和层次,而且总是担心自己的爬虫会被亚马逊干掉。
只需拥有即时数据抓取工具!
不要害怕改变网页的结构,采集规则失效的问题就解决了!
小白也可以轻松使用亚马逊评论采集爬虫技术!
什么是即时数据抓取工具?
该插件使用 AI(人工智能)技术来确定页面上最相关的内容以进行爬取,而无需您了解晦涩的编程技术。Amazon、eBay、Best Buy、Walmart、Etsy、Home Depot、Craigslist、Yelp 等等 网站 都支持它。
初次使用后,发现不太可能引起“人工智障”的问题。至少爬取亚马逊的产品评论(Customer Reviews)、listing和QA等一些基础数据,Instant Data Scraper很方便,喜欢!
如何使用即时数据抓取工具?
在 Chrome 网上应用店中搜索并安装插件“Instant Data Scraper”。如果您无权访问 Chrome 网上应用店,则可以离线安装插件。
该插件使用起来真的非常简单,以采集Amazon Review为例:
即时数据抓取工具
1. 打开商品Reviews页面首页,URL格式为:+商品ASIN
如下所示:
2. 然后选择“最近”按天然产品评论的时间排序。
3. 排序后点击浏览器右上角Instant Data Scraper插件图标“Poké Ball Plugin”,如下图
4.进入爬虫爬取页面的设置,如下图
5. 在Poke Ball插件中,点击按钮Locate“next”按钮,然后回到产品Review页面底部,点击“Next page”再点击“Start crawl”开始自动抓取Review数据。
当然,我们也可以在这里删除不需要的信息。稍后下载表单时,我们不需要的信息将不会显示。
这里需要注意的是Min delay和Max delay。当您的网速过快时,您需要将最小延迟设置得大一些。当你的网速太慢时,Min delay 和 Max delay 也应该设置得大一些,这样才能保证稳定的抓到Data。
6.Review 下载完成后,页面会弹出错误信息“Error getting table: Table not found,然后我们点击绿色按钮“CSV”下载我们的Review 不会掉下来。如果你下载1000多条Review数据,数据下载时间会长一点,可能会有假象,感觉卡住了,我们只需要等一会就可以下载了,下载后左下角的底部会有文件下载的提示框,让我们知道Review是否已经下载。
7.打开下载的CSV或Excel文件,整理我们需要的数据列
当然,除了爬取亚马逊的评论数据,我们还可以爬取QA等其他信息。
在获取评论信息时,您可以获取包括姓名、评分、评论时间、评论关键词和购买的款式等信息。
我们也可以使用此工具进行选择。快速对产品特性和消费者情绪做出粗略判断,无需逐条阅读评论,更适合大批量选择。
当然,除了在亚马逊上抓取信息外,我们还可以在其他平台或独立站点上使用这个插件。
从上图可以看出,抓取对应的信息是比较准确的。