优采云中如何判断网页是否需要设置页面滚动的设置

优采云 发布时间: 2021-08-19 02:14

  优采云中如何判断网页是否需要设置页面滚动的设置

  网站很多,页面中的数据需要向下滚动才能加载出来。相应地,需要在优采云中设置【页面滚动】。

  如何判断一个网页是否需要设置为【页面滚动】? 【页面滚动】如何设置滚动方式、滚动次数、每次间隔?

  本教程将讲解【Page Scroll】的设置方法和常见应用场景。

  一、[直接滚动到底部]

  如果直接将滚动条拖到底部,出现类似【Loading】的字样,很快就会出现新数据,滚动条变短又弹回来,需要设置【直接滚动到底部】 ,【滚动次数】】根据网页情况和采集要求,【每次间隔】时间需要稍长于数据加载时间,与网速等因素有关。

  常见应用场景一:没有翻页按钮,需要不断向下滚动才能加载新数据。常见的网页有:今日头条首页、百度图片搜索、新浪微博首页。

  以今日头条首页为例。 , 我们需要采集新闻列表数据。首先按照前面列表数据采集的方法配置采集任务。

  

  鼠标移到图片上,右击选择【在新标签页中打开图片】查看高清大图

  同样适用于下面的其他图片

  观察网页,发现这个网页没有翻页按钮。直接将滚动条拉到底部,出现【加载中】字样。过一会,新数据出现,滚动条变短又弹回来。

  

  这也可以在优采云中验证。网页默认打开,【循环列表】中有6条新闻。滚动到底部一次,加载新数据,【循环列表】中的新闻增加到24条。再次滚动到底部,[循环列表]中的新闻增加到34条。

  

  所以,我们需要在优采云中设置[page scroll]。选择【打开网页】的步骤,打开【高级选项】,勾选【页面加载后向下滚动】,设置【滚动次数】5次,【间隔时间】2秒,【滚动模式】为【滚动到页面】末部】。然后点击【确定】保存。

  

  启动采集查看采集的结果。 优采云自动执行[直接滚动到底部]5次,然后采集滚动数据5次。

  

  特别说明:

  一个。此网页无限向下滚动以加载数据,优采云 无法一次获取所有数据采集。上例设置滚动5次,实际采集进程可按需,建议不要超过x次。

  B.这类网页常用于数据实时性较高的新闻网站。可以在优采云设置定时启动,少量多次采集最新数据。

  c.有时候网页速度很快,像【加载中】这样的提示不明显。 【是否有新数据】和【观察滚动条的反弹次数】是比较有用的判断标准。

  二、[向下滚动一屏]

  剩余数据需要在当前屏幕显示一段时间才能完全加载,然后到达采集。需要设置【向下滚动一屏】,【滚动次数】根据网页本身和采集的需要进行设置,【每次间隔】时间需要比数据加载时间稍长,与因素有关比如网速。

  常见应用场景一:数据需要在当前屏幕显示一段时间才能完全加载,然后采集才能到达。

  以京东商品列表为例。 %E6%89%8B%E6%9C%BA&enc=utf-8&suggest=1.his.0.0&wq=&pvid=1b312c8afe2845bd94fe55ff1b6165a8,我们想要所有产品的清单采集。首先按照前面列表数据采集的方法配置采集任务。下面是一个配置好的任务,需要特别注意【主图链接】字段。

  

  启动采集查看采集的结果。我们发现【主图链接】中该字段没有采集。

  

  返回进程,手动执行采集进程。我们发现当主图显示在当前屏幕上时(循环中的1、2、3项),采集可以访问到它的链接。当前屏幕上没有显示主图(循环底部的项目)时,链接采集不可用。

  

  我们也需要在优采云中做同样的设置。选择【打开网页】的步骤,打开【高级选项】,勾选【页面加载后向下滚动】,设置【滚动次数】10次,【每次间隔】2秒,【滚动模式】为【向下滚动】一屏]。

  

  再次启动采集 看看。 优采云自动执行【向下滚动一屏】10次。 60个产品列表的主图在当前屏幕显示2秒,主图链接也正常采集down。

  

  特别说明:

  一个。如果某个字段或几项数据中没有采集,您可以手动执行规则进行检查。很有可能需要设置【向下滚动一屏】。

  B.在示例中,滚动次数设置为 10,可以在当前屏幕上显示所有列表。在实际的采集过程中,采集的数量是根据网页的情况具体设置的。

  c. 【向下滚动一屏】的每一屏都与运行采集任务时的窗口显示区域相关。如下图,左边一屏滚动>右边一屏滚动。

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线