无需规则自动采集(优采云采集平台在采集部分时提问频率比较高的疑问 )

优采云 发布时间: 2022-02-03 18:22

  无需规则自动采集(优采云采集平台在采集部分时提问频率比较高的疑问

)

  我们在采集部分总结了您使用优采云采集平台时的一些常见问题,供您回顾,希望您能有更好的体验。详细问答如下:

  1.任务开始后可以切换或关闭页面吗?

  行。启动采集(包括定时采集,自动发布),根据条件发布,或者执行这些激活后,页面可以关闭,包括shutdown。任务将在云中自动运行。

  “按列表发布”发布过程不会关闭页面。

  2.如何采集把图片保存到自己的服务器,替换掉原来的图片地址?

  在采集之前,设置图片下载存储优采云,当采集时,图片下载完成后会自动下载并替换为新地址。发布文章时,默认为文章 APP中对应下载的图片一并传输到用户服务器;

  3.任务一直在运行,但是没有更新提示或者没有采集到数据

  可能原因:程序更新维护,服务器重启。此时,您可以在继续采集 之前暂停任务。注意不能用stop,如果stop,会重新采集list details链接,浪费时间。

  4.如何设置detail extractor的description和keywords字段?

  详情提取器的description和keywords字段用于获取页面对应的meta标签的content属性中的内容。如果使用智能向导创建采集任务,这两个字段会自动生成,不需要配置;

  提示:有些页面没有对应的meta标签,所以采集的内容为空;

  一、填写详情提取器【当前字段Xpath】:

  描述字段://元[@name="description"]

  关键字字段://meta[@name="keywords"]

  

  

  

  二、在描述和关键字字段的【高级设置】中,提取值类型并选择“节点属性”,并为属性值填写内容;

  

  5.如何采集删除数据?

  不能批量采集删除的数据,因为系统会记录已经采集的数据url(即使数据已经被删除),采集默认是跳过没有采集 @采集 的重复数据。

  有两种方法可以解决它:

  一、清除采集 URL

  清除系统的采集 URL记录:【结果数据&发布】===【更多操作】==清除采集URL==开始采集;

  

  二、重复数据覆盖采集

  启动任务采集时,选择【覆盖已有数据】进行重复数据处理;(采集之后,建议改回skip,不再采集保存,避免下次重复采集同样的数据)

  

  6.解决办法经常进入控制台后跳回登录界面

  如果进入优采云控制台后,每次请求都会重定向到登录界面,请检查你的网络IP地址是否不固定,可以多次刷新登录页面查看IP地址下方,或联系管理员。

  

  7.绑定用户失败导致登录失败?

  登录优采云控制台时提示:登录失败,请重试,原因:绑定用户失败,请重试!

  解决方法是重新登录,忽略绑定用户失败的提示。

  

  8.如何获取任务id?

  任务 ID 只有 优采云 管理员有权查看或复制任务。

  进入任务界面,左上角或url地址后面有一个任务id:

  

  9.如何删除 采集 数据?

  当采集(任务采集入站数据+链接段库段数)总数据存储量超过包限制时,需要删除已发布或无用数据(链接段)以腾出空间继续采集;

  查看当前总数据存储量:点击控制台界面左侧列表中的【账户与套餐余额】。总存储量是所有 采集 任务中存储的数据和链接段落库中的段落数之和。和;

  

  以下是删除数据(链接段落)的多种方法:

  一、根据任务删除不需要的数据:

  输入任务的【结果数据&发布】栏:

  - 您可以选择勾选不需要的部分数据,然后点击删除按钮;

  - 可根据数据状态批量删除;

  - 可以直接删除所有数据;

  

  二、从任务列表中删除数据:

  点击任务数据量栏对应的红色垃圾桶按钮,删除任务的所有数据;

  

  三、批量删除多个任务的数据:

  在任务列表中,选择并勾选要删除的任务,然后点击【更多操作】按钮,再点击【删除所有任务数据】;

  

  四。删除链接段落

  在[站群&sprocket]--》[链接段落库]中,可以删除一个库或批量删除多个库的段落,也可以进入库删除部分选中的段落;

  

  

  10.从内容中快速删除链接或图片

  如果在采集之前,在detail extractor的字段数据处理设置中删除链接或图片,采集时系统会自动处理:

  

  如果是采集已经收到的数据,可以在【结果数据&发布】栏的【批量修改工具】中设置,暂时只支持手动:

  

  11.我如何采集获取链接的文章页面的内容?

  如果你想分散采集几篇文章文章,或者文章页面的URL有规律的变化(比如数量增加),不需要获取链接从列表页面,可以使用采集模式[详情页面(散点采集)],记得点击保存,然后只设置详情提取器的采集规则;

  

  12.你能采集视频吗?

  优采云暂时不支持下载视频或音频文件,只能保留原视频或采集视频链接;

  保留视频操作:

  打开详情提取器的文本字段设置,点击【HTML标签过滤器】栏,然后点击【重置为默认】按钮,然后勾选video和iframe标签,并保存;

  

  13.采集 收录一些乱码

  一般采集目标站使用GBK或GB2312字符编码,系统无法识别,导致采集部分内容出现乱码。

  有两种解决方法:

  一、详细解压器网络配置

  点击详情提取器左下角的【网络配置】,在弹出的【页面编码】中选择GBK或GB2312,保存后再测试采集试试;

  

  二、开始采集接口网络配置

  或者在启动采集界面的【网络配置】中设置,在弹窗的【页面编码】中选择GBK或者GB2312,保存后启动采集试试;

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线