自动采集工具(京东商品详情页采集工具使用方法及技巧汇总(组图))

优采云 发布时间: 2021-11-28 23:07

  自动采集工具(京东商品详情页采集工具使用方法及技巧汇总(组图))

  可以下载京东商城商品详情页的图片、主图、SKU图片,以及大尺寸高清原图无损下载。还支持下载京东主图视频。软件特点: 下载后以产品名称为文件夹名称,然后将sku图片、主图片、详细图片分成三个小文件夹,sku图片也有名称,方便查看。

  

  京东商品详情页采集工具介绍

  打开京东商品详情页(示例网址:#crumb-wrap),采集点击不同参数(颜色、版本等)获取数据(商品编号、价格、主图链接等字段)随参数变化)和变化)。

  京东商品详情页采集工具播放

  鼠标放在图片上,右击,选择【在新标签页中打开图片】查看高清大图

  这同样适用于下面的其他图片

  采集字段

  产品名称、颜色、版本、价格、产品名称、产品编号、图片网址等。

  采集结果

  采集 结果可以导出为Excel、CSV、HTML、数据库等多种格式。导出到 Excel 示例:

  京东商品详情页采集工具技巧

  步骤一、打开网页

  Step 二、 点击颜色属性循环,提取对应的文字

  步骤三、循环点击version属性,提取对应文本

  步骤 四、 提取其他字段

  步骤 五、 编辑字段

  步骤六、开始采集

  京东商品详情页采集工具使用

  以下是具体步骤:

  步骤一、打开网页

  在首页输入框中输入网址#crumb-wrap,然后点击【开始采集】,优采云会自动打开网页。

  特别说明:

  一种。打开网页后,如果开始【自动识别】,请等待自动识别完成。优采云 支持网页自动识别列表、滚动和翻页。识别成功后可以直接启动采集获取数据。如果【自动识别】的结果不是我们需要的,可以点击【取消】关闭智能识别,自行配置采集流程。详情点击查看【自动识别】

  Step 二、 点击颜色属性循环,提取对应的文字

  通过以下步骤,点击每个颜色属性,提取对应的文字

  1、循环点击颜色属性

  2、提取颜色属性文本

  3、 将循环点击颜色属性与提取的颜色文本关联起来

  1、循环点击颜色属性

  ① 选择页面第一个颜色属性

  ② 在*敏*感*词*的操作提示框中,选择【全选】

  ③ 选择【循环点击各个链接】

  特别说明:

  一种。经过以上3个连续的步骤,就完成了【循环点击元素】的创建。[Cycle]中的项目对应页面上的所有颜色属性。启动采集后,优采云会在循环中依次点击每个颜色属性。

  湾 为什么我们可以通过以上3个步骤来设置【循环点击元素】?详情请点击多个链接查看采集详细页面资料教程。

  2、提取颜色属性文本

  选择页面上的颜色属性框,在操作提示框中选择【采集此链接文本】,提取颜色属性文本。

  3、 将循环点击颜色属性与提取的颜色文本关联起来

  进入【提取数据】设置页面,勾选【当前循环中设置的采集元素】并保存。

  点击【颜色】栏后面的按钮,勾选【相对于循环中的XPath】并保存。

  特别说明:

  一种。什么是[相对于循环中的 XPath]?点击查看相关XPath教程

  Step 三、 循环点击version属性,提取对应的版本文本

  通过以下步骤,点击各个版本属性,提取对应的文字

  1、循环点击版本属性

  2、提取版本属性的文本

  3、 将循环点击版本属性与提取的版本文本链接

  1、循环点击版本属性

  ① 选择页面第一个版本属性

  ② 在*敏*感*词*的操作提示框中,选择【全选】

  ③ 选择【循环点击各个链接】

  特别说明:

  一种。经过以上3个连续的步骤,就完成了【循环点击元素】的创建。[Cycle]中的项目对应页面上的所有版本属性。启动采集后,优采云会在循环中依次点击各个版本属性。

  湾 为什么我们可以通过以上3个步骤来设置【循环点击元素】?详情请点击多个链接查看采集详细页面资料教程。

  2、提取版本属性的文本

  选择页面上的版本属性框,在操作提示框中选择【采集此链接文本】,提取版本属性文本。

  3、 将循环点击版本属性与提取的版本文本链接

  进入【提取数据】设置页面,勾选【当前循环中设置的采集元素】并保存。

  点击[Version]栏后面的按钮,勾选[Relative to XPath in the loop]并保存。

  特别说明:

  一种。什么是[相对于循环中的 XPath]?点击查看相关XPath教程

  湾 经过第2步和第3步后,将version属性的[loop-click元素]嵌入到color属性的[loop-click元素]中。根据从采集的原理和流程执行逻辑中学到的知识,我们知道它会从上到下,从里到外执行流程,表现出每个颜色属性和版本属性的组合,对应的采集的数据,如下图所示。如果有更多其他属性,则继续向内构建嵌套循环。

  步骤 四、 提取其他字段

  选中页面上的文字,然后在操作提示框中点击【采集该元素的文字】。

  可以通过这种方式提取文本字段。在示例中,我们提取了产品标题、产品价格、主图链接和产品编号等多个字段。

  特别说明:

  一种。文字、图片、视频、源代码是不同的数据形式,在操作提示框中选择提取方式时略有不同。文字一般为【采集元素的文字】,图片一般为【采集图片地址】。更多提取方法请点击查看不同数据类型(文本、图片、链接、源代码等)的提取方法教程

  步骤 五、 编辑字段

  1、编辑字段

  进入【提取数据1】设置页面,可以删除冗余字段、修改字段名称、移动字段顺序等。

  2、格式字段

  [商品名称]和[商品编号]这两个字段,默认提取的内容有一部分与头部重叠。如果没有关系,可以跳过这一步。

  如果要删除多余的部分内容,可以使用数据格式化功能。

  以【产品名称】格式化为例:点击字段后面的按钮,选择【格式化数据】→点击【添加步骤】,选择【替换】,将【产品名称:】替换为【空】,输出【华为P40】亲]并保存。

  特别说明:

  一种。什么是数据格式化?点击查看数据格式化教程。

  步骤六、开始采集

  1、 单击 [采集] 和 [启动本地采集]。启动优采云后自动采集数据。

  特别说明:

  一种。[本地采集]为采集使用自己的电脑,[cloud采集]为优采云提供的云服务器采集,点击进入查看本地采集和cloud采集的详解。

  2、采集 完成后,选择合适的导出方式导出数据。支持导出到 Excel、CSV、HTML、数据库等。这里导出到 Excel。

  进一步阅读

  上面的教程详细讲解了如何采集京东单品详情页数据,多个商品详情页怎么做?

  如果已经有一批京东商品详情页链接,可以使用网址循环功能

  也可以通过京东商品列表数据采集(搜索关键词)和京东商品列表数据采集(分类)获取一批京东商品详情页链接,然后使用URL循环功能

  PC正式版

  安卓官方手机版

  IOS官方手机版

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线