网页新闻抓取(优采云中如何判断网页是否需要设置页面滚动的设置 )

优采云 发布时间: 2021-10-09 13:14

  网页新闻抓取(优采云中如何判断网页是否需要设置页面滚动的设置

)

  网站有很多,页面中的数据需要向下滚动才能加载出来。相应的,还需要在优采云中设置【页面滚动】。

  如何判断一个网页是否需要设置为【页面滚动】?【页面滚动】如何设置滚动方式、滚动次数、每次间隔?

  本教程将讲解【页面滚动】的设置方法和常见应用场景。

  一、【直接滚动到底部】

  如果直接将滚动条拖到底部,出现类似【Loading】的字样,很快又出现新数据,滚动条变短反弹,需要设置【直接滚动到底部】,【Scrolling】次]根据网页根据自身情况和采集要求设置。[每个间隔]时间需要比数据加载时间稍长,这与网络速度等因素有关。

  常见应用场景一:没有翻页按钮,需要不断向下滚动才能加载新数据。常见的网页有:今日头条首页、百度图片搜索、新浪微博首页。

  以今日头条首页为例。, 我们需要采集 新闻列表数据。首先按照之前列出数据采集的方法配置采集的任务。

  

  鼠标放在图片上,右击,选择【在新标签页中打开图片】查看高清大图

  这同样适用于下面的其他图片

  观察网页,发现这个网页没有翻页按钮。将滚动条直接拉到底部,出现“Loading”字样。新数据很快就会出现,滚动条会变短并反弹回来。

  

  这也可以在 优采云 中验证。网页默认打开,【循环列表】中有6条新闻。滚动到底部一次,加载新数据,【循环列表】中的新闻增加到24条。再次滚动到底部,[循环列表]中的新闻增加到34条。

  

  因此,我们需要在优采云中设置【页面滚动】。选择【打开网页】的步骤,打开【高级选项】,勾选【页面加载后向下滚动】,设置【滚动次数】5次,【每次间隔时间】2秒,【滚动方式】为【滚动】到末】部】。然后点击【确定】保存。

  

  启动采集,看看采集的结果。优采云自动执行【直接滚动到底部】5次,然后采集5次后滚动数据。

  

  特别说明:

  一种。此网页无限向下滚动加载数据,优采云 无法采集 一次获取所有数据。上面的例子设置滚动5次,在实际采集过程中可以按需,建议不要超过x次。

  湾 这类网页常用于数据实时性较高的新闻网站,可以设置定时启动优采云,少量次采集最新数据。

  C。有时候网页速度很快,像【加载中】这样的提示不明显。【是否有新数据】和【观察滚动条的反弹次数】是比较有用的判断标准。

  二、【向下滚动一屏】

  其他数据需要在当前屏幕上显示一段时间才能完全加载,然后被采集接收。需要设置【向下滚动一屏】,【滚动次数】根据网页本身和采集要求设置,【每次间隔】时间需要略大于数据加载时间,这与网速等因素。

  常见应用场景一:数据需要在当前屏幕上显示一段时间才能完全加载,然后才可以采集。

  以京东商品列表为例。%E6%89%8B%E6%9C%BA&enc=utf-8&suggest=1.his.0.0&wq=&pvid=1b312c8afe2845bd94fe55ff1b6165a8,我们想要一份所有产品的清单。首先按照之前列出数据采集的方法配置采集的任务。下面是一个配置好的任务,需要特别注意【主图片链接】字段。

  

  启动采集,看看采集的结果。我们发现【主图链接】字段没有采集到达。

  

  返回流程,手动执行采集流程。我们发现当主图显示在当前屏幕上时(循环中的item1、2、3),它的链接可以通过采集到达。当主图像未显示在当前屏幕上时(循环后面的项目),其链接 采集 不可用。

  

  我们还需要在 优采云 中进行相同的设置。选择【打开网页】的步骤,打开【高级选项】,勾选【页面加载后向下滚动】,设置【滚动次数】10次,【每次间隔】2秒,【滚动模式】为【向下滚动】一屏]。

  

  重新开始采集看看。优采云【向下滚动一屏】自动执行了10次。60个产品列表的主图在当前屏幕上显示2秒,主图链接也正常采集down。

  

  特别说明:

  一种。如果某个字段或某些数据项没有采集到达,您可以手动执行规则进行检查。很有可能需要设置【向下滚动一屏】。

  湾 本例中设置滚动次数为10次,可以在当前屏幕上显示所有列表。在采集的实际过程中,根据网页的情况设置采集的数量。

  C。[向下滚动一屏]的一屏与运行采集任务时的窗口显示区域有关。如下图,左边的滚*敏*感*词*面>右边的滚*敏*感*词*面。

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线