采集器(AJAX点击和翻页教程定义:AJAX即延时加载异步更新)
优采云 发布时间: 2021-10-03 15:10采集器(AJAX点击和翻页教程定义:AJAX即延时加载异步更新)
AJAX点击和翻页教程
定义: AJAX 是一种延迟加载和异步更新的脚本技术。通过在后台与服务器进行少量的数据交换,它可以在不重新加载整个网页的情况下更新网页的某个部分。
性能特点:
1、 当你点击网页上的一个选项时,网站的大部分网址不会改变;
2、网页没有完全加载,只是部分加载了数据,数据发生了变化。
如何验证:点击操作后,URL输入栏在浏览器中不会出现加载状态或转动状态。
应用情况:
1.点击后出现新内容的所有内容,但网页链接保持不变。
2.点击后网页链接有一小部分变化,但采集卡在某个步骤。
3.网页加载太慢,可以使用AJAX超时结束操作。
示例 网站:
AJAX点击示例:
第一步:新建自定义任务并打开网页→点击刷新元素并点击链接
第二步:采集评论内容并刷新元素文本→保存并开始
阐明:
在示例中,我们可以看到我们正在打开新浪微博的网页。进入循环后,我们先点击页面右侧的刷新,然后是采集微博内容,在本地点击刷新后采集采集如果没有数据就表示采集步骤在数据提取步骤中不断等待。这时候应该在刷新步骤中设置AJAX。
回到刷新步骤设置AJAX,设置时间为2秒,进入本地采集界面,运行到刷新步骤,因为设置了AJAX,2秒后自动进入下一步,并且您可以采集 到数据。
本例中,点击刷新按钮后,网页网址没有变化,说明该按钮使用的是AJAX方式。优采云采集器默认点击一步后重新加载页面,加载完成后进行下一步;而AJAX方式导致页面点击后不重新加载,所以使用AJAX之后的时间来设置点击后等待。例子中第一次采集没有数据是因为优采云一直在刷新步骤等待,没有进入下一步。设置AJAX后,优采云在刷新步骤自动等待2秒继续下一步获取数据采集。
AJAX翻页:
注意:示例中第一个打开的网页已设置为页面加载后向下滚动。示例网页必须向下滚动 2 次,才会出现翻页操作。向下滚动查看AJAX滚动教程;第二个点击元素是页面底部的Click to view more按钮,点击查看更多,可以发现网页URL没有变化,说明应用了AJAX方式,本地采集启动任务后无法提取数据。任务在这一步继续等待,无法执行。下一步。
返回流程图修改此步骤。添加AJAX设置后,第二次运行本地采集,发现可以成功采集到数据。
AJAX点击和翻页的其他应用:
使用AJAX实现加班结束步骤:
这种情况是针对非 AJAX 网页的,是对 AJAX 操作的一种非正式使用。使用方法是:当规则中有点击元素操作时,经过这一步,页面会被加载,因为是非AJAX操作。如果页面加载时间过长,一般情况下优采云会等待页面加载完成。然后继续下一步。这时候如果我们发现页面中需要采集的内容已经加载完毕,但是加载状态没有消失,我们可以在点击步骤中设置AJAX操作,效果是多少秒网页加载完毕后停止加载状态,进入下一步。
如图所示,在本例中,网页在加载状态4秒后停止加载,进入下一步。
AJAX和执行前等待可以看作是一对操作。执行前等待是进入步骤前等待多少秒,而AJAX操作是步骤被点击结束操作后的秒数,一个为前一个等待,另一个为后续等待。