优采云的五种流通方式的详细说明
优采云 发布时间: 2020-08-08 00:14
②循环方式为“单元素循环”,通过在“单元素循环”中定位XPath,单击“下一页”按钮进行翻页.
有关详细信息,请参阅分页列表的信息采集教程
四个固定元素列表循环(可以加速云采集)
适用情况: 网页上要采集的行数是固定数.
如何实现: 循环浏览固定元素列表以循环显示页面中的固定元素.
位置: 使用XPath定位,一个XPath对应于循环列表中的一个元素.
示例网址:
操作示例:
①选择文章链接→“全选”→“循环单击每个链接”以创建循环列表.
②自动生成的循环方法为: 固定元素列表. 打开固定元素列表以查看20个XPath,它们与循环列表中的20个固定元素一一对应(也可以视为与浏览器页面相对应的20个文章链接).
此处涉及XPath相关的内容,请参考此XPath教程
第五,未固定元素列表的循环
适用情况: 网页上要采集的行数不是固定数量.
实施方法: 循环遍历可变因素列表以循环页面中的可变元素.
定位方法: 使用XPath进行定位,其中一个XPath对应于循环列表中的多个元素.
示例网址:
操作示例:
①通过观察在优采云的固定元素列表循环中生成的XPath:
// UL [@ class ='新闻列表'] / LI [1] / DIV [2] / H3 [1] / A [1]
// UL [@ class ='新闻列表'] / LI [2] / DIV [2] / H3 [1] / A [1]
......
// UL [@ class ='新闻列表'] / LI [20] / DIV [2] / H3 [1] / A [1]
20个XPath具有相同的特征: 仅LI后面的数字不同. 根据此功能,我们可以编写一个通用的XPath: // UL [@ class ='news-list'] / LI / DIV [2] / H3 [1] / A [1],通过该通用Xpath,您可以在页面上找到所有10条文章的链接.
将循环方法更改为“未固定元素列表循环”,并填写修改后的XPath.
②可以看出,该通用XPath对应于循环列表中的所有20个元素(也可以看作对应于浏览器页面的20个文章链接).
以同样的方式,您还可以将非固定元素列表更改为固定元素列表.
此处涉及XPath相关内容,请参考XPath教程