集搜客网页抓取软件(快速有效地将小红书的商品信息采集下来的步骤(组图) )
优采云 发布时间: 2022-03-19 20:10集搜客网页抓取软件(快速有效地将小红书的商品信息采集下来的步骤(组图)
)
小红书是在线社区、跨境电商、分享平台、口碑数据库。最近很多小伙伴都在讨论这个网站的产品信息抓取,讨论的更多是关于如何抓取瀑布网页下面的内容。这里不想讨论技术方法,直接介绍一个快速的采集软件,可以直接使用,不讲技术细节。
下面给大家分享一下快速有效下载小红书采集产品信息的步骤。
1.准备工具——吉索克网络爬虫
下载、安装、打开、登录账号,这里不废话,直接上干货
2.利用小红书商品列表数据DIY,快采集
数据DIY是一款快速采集工具,无需编程即可直接使用
1)输入数据DIY,从GooSeeker顶部菜单进入路线网站:资源->数据DIY
2)在Data DIY网页上,选择Category — 网站 — Web Pages
小红书的具体种类有:
参考下图
3)比较示例页面并观察页面结构。输入的 URL 必须具有相同的页面结构,否则将 采集 失败。
小红书的示例页面是这样的
产品列表网址来自手机小红书APP。获取网址的方法是:在手机上打开小红书APP->点击商城中的产品目录(不要点击更多)->然后点击分类选择/热门,就会看到产品列表,然后点击右上角的分享按钮,然后用电脑上的社交软件接收。
您可能会看到像这样需要 采集 的页面,您可以比较它们,它们是相同的。
可以看出,两个页面几乎一样,但产品不同。
4)输入你想要的网址采集,选择采集一直向下滚动,点击获取数据,启动采集
您将看到要求启动爬虫窗口的提示。并将启动 2 个窗口,一个用于 采集 数据,一个用于打包数据。不要在运行时关闭它们,也不要最小化它们。但是这些窗口可以覆盖其他窗口
5)等待采集完成,打包下载数据
注意:提示采集完成后不要立即关闭窗口,需要等待打包按钮变为绿色,采集的状态变为采集,请见下图
6)包数据
7)下载数据
8)这里我们的数据是采集下来的,我们来看看我们采集收到的数据