无需规则自动采集(优采云采集平台在采集部分时提问频率比较高的疑问 )
优采云 发布时间: 2022-02-03 18:22无需规则自动采集(优采云采集平台在采集部分时提问频率比较高的疑问
)
我们在采集部分总结了您使用优采云采集平台时的一些常见问题,供您回顾,希望您能有更好的体验。详细问答如下:
1.任务开始后可以切换或关闭页面吗?
行。启动采集(包括定时采集,自动发布),根据条件发布,或者执行这些激活后,页面可以关闭,包括shutdown。任务将在云中自动运行。
“按列表发布”发布过程不会关闭页面。
2.如何采集把图片保存到自己的服务器,替换掉原来的图片地址?
在采集之前,设置图片下载存储优采云,当采集时,图片下载完成后会自动下载并替换为新地址。发布文章时,默认为文章 APP中对应下载的图片一并传输到用户服务器;
3.任务一直在运行,但是没有更新提示或者没有采集到数据
可能原因:程序更新维护,服务器重启。此时,您可以在继续采集 之前暂停任务。注意不能用stop,如果stop,会重新采集list details链接,浪费时间。
4.如何设置detail extractor的description和keywords字段?
详情提取器的description和keywords字段用于获取页面对应的meta标签的content属性中的内容。如果使用智能向导创建采集任务,这两个字段会自动生成,不需要配置;
提示:有些页面没有对应的meta标签,所以采集的内容为空;
一、填写详情提取器【当前字段Xpath】:
描述字段://元[@name="description"]
关键字字段://meta[@name="keywords"]
二、在描述和关键字字段的【高级设置】中,提取值类型并选择“节点属性”,并为属性值填写内容;
5.如何采集删除数据?
不能批量采集删除的数据,因为系统会记录已经采集的数据url(即使数据已经被删除),采集默认是跳过没有采集 @采集 的重复数据。
有两种方法可以解决它:
一、清除采集 URL
清除系统的采集 URL记录:【结果数据&发布】===【更多操作】==清除采集URL==开始采集;
二、重复数据覆盖采集
启动任务采集时,选择【覆盖已有数据】进行重复数据处理;(采集之后,建议改回skip,不再采集保存,避免下次重复采集同样的数据)
6.解决办法经常进入控制台后跳回登录界面
如果进入优采云控制台后,每次请求都会重定向到登录界面,请检查你的网络IP地址是否不固定,可以多次刷新登录页面查看IP地址下方,或联系管理员。
7.绑定用户失败导致登录失败?
登录优采云控制台时提示:登录失败,请重试,原因:绑定用户失败,请重试!
解决方法是重新登录,忽略绑定用户失败的提示。
8.如何获取任务id?
任务 ID 只有 优采云 管理员有权查看或复制任务。
进入任务界面,左上角或url地址后面有一个任务id:
9.如何删除 采集 数据?
当采集(任务采集入站数据+链接段库段数)总数据存储量超过包限制时,需要删除已发布或无用数据(链接段)以腾出空间继续采集;
查看当前总数据存储量:点击控制台界面左侧列表中的【账户与套餐余额】。总存储量是所有 采集 任务中存储的数据和链接段落库中的段落数之和。和;
以下是删除数据(链接段落)的多种方法:
一、根据任务删除不需要的数据:
输入任务的【结果数据&发布】栏:
- 您可以选择勾选不需要的部分数据,然后点击删除按钮;
- 可根据数据状态批量删除;
- 可以直接删除所有数据;
二、从任务列表中删除数据:
点击任务数据量栏对应的红色垃圾桶按钮,删除任务的所有数据;
三、批量删除多个任务的数据:
在任务列表中,选择并勾选要删除的任务,然后点击【更多操作】按钮,再点击【删除所有任务数据】;
四。删除链接段落
在[站群&sprocket]--》[链接段落库]中,可以删除一个库或批量删除多个库的段落,也可以进入库删除部分选中的段落;
10.从内容中快速删除链接或图片
如果在采集之前,在detail extractor的字段数据处理设置中删除链接或图片,采集时系统会自动处理:
如果是采集已经收到的数据,可以在【结果数据&发布】栏的【批量修改工具】中设置,暂时只支持手动:
11.我如何采集获取链接的文章页面的内容?
如果你想分散采集几篇文章文章,或者文章页面的URL有规律的变化(比如数量增加),不需要获取链接从列表页面,可以使用采集模式[详情页面(散点采集)],记得点击保存,然后只设置详情提取器的采集规则;
12.你能采集视频吗?
优采云暂时不支持下载视频或音频文件,只能保留原视频或采集视频链接;
保留视频操作:
打开详情提取器的文本字段设置,点击【HTML标签过滤器】栏,然后点击【重置为默认】按钮,然后勾选video和iframe标签,并保存;
13.采集 收录一些乱码
一般采集目标站使用GBK或GB2312字符编码,系统无法识别,导致采集部分内容出现乱码。
有两种解决方法:
一、详细解压器网络配置
点击详情提取器左下角的【网络配置】,在弹出的【页面编码】中选择GBK或GB2312,保存后再测试采集试试;
二、开始采集接口网络配置
或者在启动采集界面的【网络配置】中设置,在弹窗的【页面编码】中选择GBK或者GB2312,保存后启动采集试试;