自动采集器怎么用(【知识点】关联区域功能的用法——提取sku)
优采云 发布时间: 2021-09-04 15:02自动采集器怎么用(【知识点】关联区域功能的用法——提取sku)
1、★其他标签的值可以作为数据获取的拦截条件
数据抽取方式支持调用其他标签值,让采集流程更加灵活。在提取过程中单击标记符号以调用其他标记值。使用方法如下:
我们以URL:/item.htm?id=644685533017为例,目的是提取sku对应的颜色名称,以一种颜色为例:
目标网站获取数据部分的源代码:
(1)先获取颜色的sku值
(2)点击标签选择要调用的标签
以下是操作的结果:
注意:call标签可以用于拦截前后和正则提取,使用方法相同。
2、★数据采集支持CSS选择器★
优采云采集器数据获取支持CSS选择器。许多网页都有独特的 css 属性。此功能更有利于批量提取网页数据。
如果想系统的学习css提取的知识,可以先阅读教程:/cssref/css_selectors.asp。
在优采云采集器集成css提取功能中,直接在界面中填写css路径即可使用。在Selector中填写css路径,节点属性选择需要采集属性。
例如:
注意:使用css只能获取网页源代码中的元素。如果源代码中没有css但是浏览器渲染后显示,则无法通过优采云采集器
获取
3、★添加相关区域功能★
关联区域功能,可以先截取网页中指定区域的内容,然后将该区域作为数据源
继续采集 处理。
关联区域功能有利于分析重复的网页结构或复杂的网页形式和采集。
相关区域函数的使用介绍如下:
以网址:/download 为例。比如我只想要采集2020的下载链接。如果直接循环采集,那么采集到其他年份的链接会干扰结果,所以我们可以使用关联区域来指定采集的区域。
下面介绍具体的设置方法:
(1)添加相关区域
(2)选择数据源中的关联区域,然后按照一般的方式采集就可以了
采集 结果如下图。可以看到采集只在关联区域执行。
以上只是一个例子,还有其他适用场景,实际使用中可以灵活运用。
4、★批量增加网址间隔改变网址增加方法★
区间变化的变化原理是:地址中的两个参数以固定的间隔递增,相邻两组值的结束值和开始值之间的间隔为1,地址这种形式变化和增加的格式可以使用间隔变化来处理。
例如以/col/col7440/index.html?uid=46098&pageNum=1这个URL为例,我们使用fiddler来抓取数据包的URL,修改如下:
第一页:/module/web/jpage/dataproxy.jsp?startrecord=1&endrecord=16&perpage=16
第二页:/module/web/jpage/dataproxy.jsp?startrecord=17&endrecord=32&perpage=16
第三页:/module/web/jpage/dataproxy.jsp?startrecord=33&endrecord=48&perpage=16
。 . .
如下图所示,我们可以清楚地看到,在列表URL中,每页的起始值和结束值相差15,相邻页数、上一页的结束值和start of next page 值差为1,符合区间变化规律。
所以你可以如下图设置。更改字段使用地址参数,起始值使用[地址参数],结束值使用[地址参数1],间隔步长使用起始值和结束值之间的间隔。
然后在采集器中填写fiddler捕获的post值,使用自动获取链接捕获列表页数据
注意:间隔变化不能与批处理URL中的其他方法混用,必须有两个地址参数
5、★在批量设置步骤中添加新功能的相关设置★
6、★在运行统计日志设置中添加默认关机功能★
7、★oss 相关问题已修复★
8、★URL空间问题导致列表页标签错误问题修复★
9、★下载相关问题修复★
10、★修复“任务数据批处理”中空记录删除无效的问题★
11、★文件下载插件增加文件下载后处理接口★