采集器采集 关于优采云增值服务的一些常见问题
优采云 发布时间: 2021-07-26 22:12采集器采集 关于优采云增值服务的一些常见问题
1、积分
积分用于支付优采云增值服务。在优采云采集器采集数据之后,它们用于导出数据。免费版导出数据需要加分,专业版及以上导出数据无限制。积分可以单独购买,也可以通过登录、完善*敏*感*词*、绑定社会账户等方式获得
注:使用优采云增值服务时,不同的账户类型有不同的收费策略。在版本描述中详细说明了具体的计费策略和区别
2、规则(也称为任务)
型@
Rule是一个程序脚本,优采云Rule configurator记录手动操作过程,在优采云客户端显示,并可以导入和导出。配置规则后,优采云可以根据配置的规则自动执行数据采集,而不是手动执行采集@
3、云加速
优采云系统部署在分布式集群中。每个集群由大量的云节点组成。单个节点的采集容量相当于一台PC,通过优采云后台版本资源分配策略,分配的云节点资源数量将享受数倍的加速,版本越高的账号加速次数越高
4、云优先
如果多个用户共享一个集群的资源,那么集群的大小就有一个上限。如果同时提交的集群任务过多,造成资源拥塞,优采云系统默认按照用户账号版本进行排序。版本高、优先级高的,优先获得资源配置权益。未临时分配给资源的任务将排队
@你知道吗5、URL你知道吗
型@
URL是指正常的网站URL
6、本地采集
型@
Local采集表示它不占用集群的资源,只能通过优采云客户机所在的PC工作。在工作期间,计算机和软件需要运行。电源中断或网络中断将导致数据采集任务中断
7、云采集
型@
云采集指通过优采云提供的服务器集群工作,该集群处于7*24小时工作状态。客户端完成任务设置并提交到云服务执行后,可以关闭软件并关闭计算机离线采集真正实现无人值守。另外,云采集通过分布式部署ECS集群,同时进行多节点操作,可以有效提高采集效率,避免各种网站IP阻塞策略
8、正时采集
型@
Scheduled采集表示用户可以设置优采云的采集规则,在云采集集群上定期运行任务。任务将根据定期设置的时间定期运行几次,并支持实时采集
@你知道吗9、URL流通
型@
URL looping是指在URL中设置优采云looping采集一批数据
你知道吗10、自动导出
号@
自动导出是指用户可以通过一定的设置自动导出数据,并支持自动导出到数据库。自动导出到数据库只支持cloud采集,可以同时导出采集。导出的数据是目前尚未导出的数据
你知道吗11、饼干
号@
1)cookie birth:当用户打开浏览器并发出一个页面请求时,web服务器只做一个简单的响应,然后关闭与用户的连接。因此,当用户向web服务器发起打开网页的请求时,无论是否是第一次打开同一网页,web服务器都会将该请求视为第一次。这种缺陷可想而知。例如,每次打开登录页时都需要输入用户名和密码。为了弥补这一缺陷,cookies应运而生
2)cookie概述:cookie是服务器临时存储在您计算机上的一段数据,以便服务器能够识别您的计算机。当您浏览网站时,web服务器将首先向您的计算机发送小数据,cookie将帮助您记录在网站上键入的文本(如用户名、密码)和其他操作。下次你再打开同样的网站. web服务器将首先查看上次是否有任何cookie。如果有,它会根据cookie的内容判断用户,并向您发送特定的web内容
3)cookie登录:优采云内置cookie记录功能,通过获取登录后的cookie来记忆登录状态,从而达到采集数据的目的。只能在优采云打开的网页中获取cookie,不支持自定义添加或修改cookie
你知道吗12、XPath格式
型@
XPath:它是一种路径查询语言。简而言之,它使用一个路径表达式来找到我们需要的数据位置。XPath专门用于在XML中沿路径查找数据。有一套用于HTML的XPath引擎,因此您可以直接使用XPath准确地查找和定位web页面中的数据
你知道吗13、HTML格式
型@
HTML概念HTML:超文本标记语言,是一种用来描述网页的语言。它主要用于控制数据的显示和外观。HTML文档也称为网页
HTML结构:完整的HTML文件至少收录标记
标记、标记和标记,这些标记成对出现,以标记开头,以>;结尾;,在两个标记之间添加内容。可以通过这些标签中的相关属性设置页面的背景色和背景图像
你知道吗14、固定元素列表和非固定元素列表
型@
固定元素列表是一种精确定位方法。它适用于网页上采集元素个数固定的情况。XPath可以精确地定位到元素。如图所示:三个XPath可以准确定位三个a标签
//DIV[@class='video-list']/DIV[1]/A[1]/H3[1]
//DIV[@class='video-list']/DIV[2]/A[1]/H3[1]
//DIV[@class='video-list']/DIV[3]/A[1]/H3[1]
型@
非固定元素列表是一种模糊定位方法,用于解决某些网页列表元素不是固定数目的情况。例如,有些网页的第一页上有8个相似元素,第二页上有14个相似元素。如图所示:XPath可以直接收录所有三个a标记
//a[@class='test']
你知道吗1@5、阿贾克斯
型@
Ajax:Ajax是一种延迟加载和异步更新的脚本技术。通过在后台与服务器进行少量的数据交换,您可以在不重新加载整个网页的情况下更新网页的一部分。在优采云中,如果网页上只有本地数据更新,并且网站的URL没有更改,优采云无法接收到网页更改信号,导致采集停止或采集没有数据
网页上的Ajax特性:1、当您单击网页中的某个选项时,大多数网站网址不会更改2、网页未完全加载,但数据在本地加载并更改
你知道吗16、Iframe框架
公里@
Iframe是一个HTML标记,它创建一个收录另一个文档的内联框架(即内联框架),也就是web页面中的web页面。例如,我们可以通过Firefox获取1688登录框的详细地址,然后直接输入详细地址进行流程设计。右键单击Firefox浏览器中的登录框→ 选择此框架→ 图幅信息→ 地址。此地址是登录框的真实网址。获取此地址后,通常在优采云中输入此网址