excel抓取多页网页数据(京东搜索页输入关键词搜索结果采集步骤及步骤)
优采云 发布时间: 2021-11-09 22:15excel抓取多页网页数据(京东搜索页输入关键词搜索结果采集步骤及步骤)
采集场景
在京东搜索页面输入关键词搜索,采集搜索后得到多个商品列表数据。
鼠标放在图片上,右击,选择【在新标签页中打开图片】查看高清大图
这同样适用于下面的其他图片
采集字段
商品名称、商品描述、商品详情、价格、评论数、店铺名称、店铺链接等字段。
采集结果
采集 结果可以导出为Excel、CSV、HTML、数据库等格式。导出到 Excel 示例:
教程说明
本文制作时间:2020/4/24 优采云版本:V8.1.8
如因网页改版导致网址或步骤无效,目标数据无法为采集,请联系官方客服,我们会及时更正。
采集步骤
步骤一、打开网页
Step 二、 批量输入多个关键词并搜索
Step 三、 创建【循环列表】,采集 产品列表中的所有数据
步骤 四、 编辑字段
步骤五、创建【循环翻页】,采集多页数据
步骤六、 设置滚动和修改【循环翻页】XPath
步骤七、开始采集
以下是具体步骤:
步骤一、打开网页
在首页【输入框】输入目标网址,点击【开始采集】,优采云会自动打开网页。
特别说明:
一种。打开网页后,如果开启【自动识别】,请点击【不再自动识别】或【取消识别】将其关闭。因为本文不适合使用【自动识别】。
湾 【自动识别】适用于自动识别网页列表、滚动、翻页。识别成功后可以直接启动采集获取数据。详情请点击查看【自动识别】教程
Step 二、 批量输入多个关键词并搜索
打开网页后,通过以下步骤批量输入多个关键词。
1、输入1关键词并搜索
2、批量输入多个关键词
1、输入1关键词并搜索
选择京东搜索框,在操作提示框中点击【输入文字】,输入关键词并保存。
选择【搜索】按钮,在操作提示框中点击【点击此按钮】,会出现关键词的搜索结果。
2、批量输入多个关键词
① 在【打开网页1】的步骤后,添加一个【循环】。
② 将【输入文本】和【点击元素】都拖到【循环】中。
③ 进入【周期】设置页面。选择循环方式为【文本列表】,点击
按钮,输入我们准备好的关键词(可以同时输入多个关键词,每行一个)并保存。
④ 进入【输入文本】设置页面,勾选【使用当前循环中的文本填充输入框】并保存。
特别说明:
一种。示例中输入的关键词分别为【耐克】、【阿迪达斯】、【李宁】、【安踏】,可以根据自己的需要更换。
湾 一次最多输入 2W 个关键字。可以先准备一个收录多个关键字的文档,然后复制粘贴到优采云中。
Step 三、 创建【循环列表】,采集 产品列表中的所有数据
通过以下4个连续步骤,采集产品列表中的所有数据:
1、在页面上选择1个产品列表(注意必须选择整个列表,包括所有必填字段)
2、 在*敏*感*词*操作提示框中,点击【选择子元素】
3、点击【全选】
4、点击【采集数据】
特别说明:
一种。经过以上4个连续的步骤,就完成了【Cycle-Extract Data】的创建。【Loop】中的项目对应页面上的所有产品列表,【Extract Data】中的字段对应每个产品列表中的字段。启动采集后,优采云会按照循环中的顺序依次提取每个列表中的字段。
湾 为什么我们可以通过以上4个步骤来设置【循环-提取数据】?点击查看更多细节
步骤 四、 编辑字段
在【当前页面数据预览】页面,可以删除冗余字段、修改字段名称、移动字段顺序等。
步骤五、创建【循环翻页】,带有采集多页数据
1、创建循环翻页
如果只有采集一页数据,可以跳过这一步。
如果需要翻页到采集多页数据:选择页面中的【下一页】按钮,在操作提示上点击【循环点击下一页】,创建一个【循环翻页】。
特别说明:
一种。创建完【循环翻页】后,优采云会自动点击【下一页】按钮进行翻页,从第一页、第二页……一直到最后一页。如果只需要特定页面采集的数据,可以在优采云中设置翻页的周期数。细节
湾 选择【下一页】范围时,选择的范围不同,弹出的提示也不同。如果最内层文字为【下一页】,*敏*感*词*操作提示框中弹出的提示为【循环点击下一页】。如果整个【下一页】按钮被选中,*敏*感*词*操作提示框中弹出的提示为【循环点击单个链接】。这两个功能是一样的,都是实现翻页的。
步骤六、 设置滚动和修改【循环翻页】XPath
1、设置滚动
点击搜索翻页后,京东默认只显示前30个商品列表。向下滚动到页面底部以加载所有 60 种产品的列表。您还需要在 优采云 中设置滚动。
进入【点击元素】和【点击翻页】设置页面,点击【页面加载后】,设置【页面加载后向下滚动】,滚动方式为【向下滚动一屏】,【滚动次数】为6次,【每间隔时间】2秒,设置后保存。
2、修改【圆形翻页】XPath
默认的【循环翻页】XPath会在最后一页重复翻页,导致其他关键词无法输入和采集,需要修改【循环翻页】XPath。
进入【循环翻页】设置页面,修改XPath为://a[@class="pn-next"]/EM[text()="Next page"]。
特别说明:
一种。为什么翻页没有结束?这是因为在【循环翻页】中默认生成的XPath仍然可以定位到最后一页的【下一页】按钮,这会导致它一直点击【下一页】按钮而没有结束翻页。为了解决这个问题,我们需要手动写一个XPath,当当前页面不是最后一页时,可以定位到【下一页】按钮,这样就可以连续点击【下一页】按钮翻页。同时,当前页为最后一页时,不要定位到【下一页】按钮结束翻页。这里需要一些 XPath 知识。点击查看
湾 设置中的滚动次数和时间间隔,请根据采集要求和网页加载情况进行设置。它们不是静态的。详情请点击查看处理滚动加载数据的网页教程
步骤七、开始采集
1、 单击 [采集] 和 [启动本地采集]。启动优采云后自动采集数据。
特别说明:
一种。[本地采集]为采集使用自己的电脑,[cloud采集]为优采云提供的云服务器采集,点击进入查看本地采集和cloud采集的详解。
2、采集 完成后,选择合适的导出方式导出数据。支持导出到 Excel、CSV、HTML、数据库等。这里导出到 Excel。
数据示例:
进一步阅读
通过以上操作,我们可以获得一批京东商品详情页链接,可以使用