excel抓取多页网页数据(京东搜索页输入关键词搜索结果采集步骤及步骤)

优采云 发布时间: 2021-11-09 22:15

  excel抓取多页网页数据(京东搜索页输入关键词搜索结果采集步骤及步骤)

  采集场景

  在京东搜索页面输入关键词搜索,采集搜索后得到多个商品列表数据。

  

  鼠标放在图片上,右击,选择【在新标签页中打开图片】查看高清大图

  这同样适用于下面的其他图片

  采集字段

  商品名称、商品描述、商品详情、价格、评论数、店铺名称、店铺链接等字段。

  采集结果

  采集 结果可以导出为Excel、CSV、HTML、数据库等格式。导出到 Excel 示例:

  

  教程说明

  本文制作时间:2020/4/24 优采云版本:V8.1.8

  如因网页改版导致网址或步骤无效,目标数据无法为采集,请联系官方客服,我们会及时更正。

  采集步骤

  步骤一、打开网页

  Step 二、 批量输入多个关键词并搜索

  Step 三、 创建【循环列表】,采集 产品列表中的所有数据

  步骤 四、 编辑字段

  步骤五、创建【循环翻页】,采集多页数据

  步骤六、 设置滚动和修改【循环翻页】XPath

  步骤七、开始采集

  以下是具体步骤:

  步骤一、打开网页

  在首页【输入框】输入目标网址,点击【开始采集】,优采云会自动打开网页。

  

  特别说明:

  一种。打开网页后,如果开启【自动识别】,请点击【不再自动识别】或【取消识别】将其关闭。因为本文不适合使用【自动识别】。

  湾 【自动识别】适用于自动识别网页列表、滚动、翻页。识别成功后可以直接启动采集获取数据。详情请点击查看【自动识别】教程

  Step 二、 批量输入多个关键词并搜索

  打开网页后,通过以下步骤批量输入多个关键词。

  1、输入1关键词并搜索

  2、批量输入多个关键词

  1、输入1关键词并搜索

  选择京东搜索框,在操作提示框中点击【输入文字】,输入关键词并保存。

  选择【搜索】按钮,在操作提示框中点击【点击此按钮】,会出现关键词的搜索结果。

  

  2、批量输入多个关键词

  ① 在【打开网页1】的步骤后,添加一个【循环】。

  ② 将【输入文本】和【点击元素】都拖到【循环】中。

  

  ③ 进入【周期】设置页面。选择循环方式为【文本列表】,点击

  

  按钮,输入我们准备好的关键词(可以同时输入多个关键词,每行一个)并保存。

  ④ 进入【输入文本】设置页面,勾选【使用当前循环中的文本填充输入框】并保存。

  

  特别说明:

  一种。示例中输入的关键词分别为【耐克】、【阿迪达斯】、【李宁】、【安踏】,可以根据自己的需要更换。

  湾 一次最多输入 2W 个关键字。可以先准备一个收录多个关键字的文档,然后复制粘贴到优采云中。

  Step 三、 创建【循环列表】,采集 产品列表中的所有数据

  通过以下4个连续步骤,采集产品列表中的所有数据:

  1、在页面上选择1个产品列表(注意必须选择整个列表,包括所有必填字段)

  2、 在*敏*感*词*操作提示框中,点击【选择子元素】

  3、点击【全选】

  4、点击【采集数据】

  

  特别说明:

  一种。经过以上4个连续的步骤,就完成了【Cycle-Extract Data】的创建。【Loop】中的项目对应页面上的所有产品列表,【Extract Data】中的字段对应每个产品列表中的字段。启动采集后,优采云会按照循环中的顺序依次提取每个列表中的字段。

  湾 为什么我们可以通过以上4个步骤来设置【循环-提取数据】?点击查看更多细节

  步骤 四、 编辑字段

  在【当前页面数据预览】页面,可以删除冗余字段、修改字段名称、移动字段顺序等。

  步骤五、创建【循环翻页】,带有采集多页数据

  1、创建循环翻页

  如果只有采集一页数据,可以跳过这一步。

  如果需要翻页到采集多页数据:选择页面中的【下一页】按钮,在操作提示上点击【循环点击下一页】,创建一个【循环翻页】。

  

  特别说明:

  一种。创建完【循环翻页】后,优采云会自动点击【下一页】按钮进行翻页,从第一页、第二页……一直到最后一页。如果只需要特定页面采集的数据,可以在优采云中设置翻页的周期数。细节

  湾 选择【下一页】范围时,选择的范围不同,弹出的提示也不同。如果最内层文字为【下一页】,*敏*感*词*操作提示框中弹出的提示为【循环点击下一页】。如果整个【下一页】按钮被选中,*敏*感*词*操作提示框中弹出的提示为【循环点击单个链接】。这两个功能是一样的,都是实现翻页的。

  步骤六、 设置滚动和修改【循环翻页】XPath

  1、设置滚动

  点击搜索翻页后,京东默认只显示前30个商品列表。向下滚动到页面底部以加载所有 60 种产品的列表。您还需要在 优采云 中设置滚动。

  进入【点击元素】和【点击翻页】设置页面,点击【页面加载后】,设置【页面加载后向下滚动】,滚动方式为【向下滚动一屏】,【滚动次数】为6次,【每间隔时间】2秒,设置后保存。

  2、修改【圆形翻页】XPath

  默认的【循环翻页】XPath会在最后一页重复翻页,导致其他关键词无法输入和采集,需要修改【循环翻页】XPath。

  进入【循环翻页】设置页面,修改XPath为://a[@class="pn-next"]/EM[text()="Next page"]。

  

  特别说明:

  一种。为什么翻页没有结束?这是因为在【循环翻页】中默认生成的XPath仍然可以定位到最后一页的【下一页】按钮,这会导致它一直点击【下一页】按钮而没有结束翻页。为了解决这个问题,我们需要手动写一个XPath,当当前页面不是最后一页时,可以定位到【下一页】按钮,这样就可以连续点击【下一页】按钮翻页。同时,当前页为最后一页时,不要定位到【下一页】按钮结束翻页。这里需要一些 XPath 知识。点击查看

  湾 设置中的滚动次数和时间间隔,请根据采集要求和网页加载情况进行设置。它们不是静态的。详情请点击查看处理滚动加载数据的网页教程

  

  步骤七、开始采集

  1、 单击 [采集] 和 [启动本地采集]。启动优采云后自动采集数据。

  

  特别说明:

  一种。[本地采集]为采集使用自己的电脑,[cloud采集]为优采云提供的云服务器采集,点击进入查看本地采集和cloud采集的详解。

  2、采集 完成后,选择合适的导出方式导出数据。支持导出到 Excel、CSV、HTML、数据库等。这里导出到 Excel。

  

  数据示例:

  

  进一步阅读

  通过以上操作,我们可以获得一批京东商品详情页链接,可以使用

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线