优采云采集器必须知道关键字. docx 13页
优采云 发布时间: 2020-08-08 11:57使用优采云采集器时必须知道的关键字. 积分积分是一种支付Youcai Cloud增值服务的方式. 优采云采集器采集数据后,将其用于导出数据. 免费版需要点才能导出数据,而专业版及更高版本没有限制. 积分可以单独购买,也可以通过各种方法获得,例如登录,改善个人信息和绑定社交帐户. 注意: 使用优采云增值服务时,不同的帐户类型将具有不同的计费策略. 具体的计费策略和差异将在版本说明中详细说明. 2.规则规则是一种程序规则,它由优采云规则配置程序记录手动操作过程,并显示在优采云客户端中,并且可以导入和导出. 配置规则后,Ucai Cloud可以根据配置的规则自动采集数据,而无需手动采集. 3.云加速优采云系统采用分布式集群部署. 每个集群由大量的云节点组成. 单个节点的采集容量等于PC的采集容量. 通过优采云后台的版本资源分配策略,分配给它的云节点资源数量将获得数倍的加速,具有较高版本的帐户将具有更高的加速倍数. 4.首先云. 如果多个用户共享云群集的资源,则群集的大小会有上限. 如果同时提交太多云集群任务,导致资源拥塞,则根据不同的用户帐号版本,由彩云系统将执行默认排序,版本越高,优先级越高,将获得优先级资源分配的权益. 未分配资源的任务将排队.
5. URLURL是指普通网站的URL. 独立采集独立采集意味着它不占用云群集的资源,并且只能通过优采云客户端所在的PC进行工作. 在工作期间,计算机和软件必须处于运行状态. 电源中断或网络中断将导致数据采集任务中断. 云采集云采集是指使用优采云提供的服务器群集进行工作. 群集工作7 * 24小时. 客户端完成任务设置并将其提交给云服务以进行云采集后,可以关闭该软件,关闭计算机以进行脱机采集,这确实是无人值守的. 此外,云采集使用云服务器群集的分布式部署,并且多个节点同时工作,这可以提高采集效率并有效避免各种网站的IP阻塞策略. 定时采集定时采集是指在设置优采云的采集规则后,用户可以将任务设置为定期在云采集集群上运行,并且该任务将根据当时设置的时间定期运行. 9. URL周期URL周期是指设置优采云以采集一批URL中的数据. 10.自动导出自动导出是指用户可以通过某些设置实现自动数据导出,并支持自动导出到数据库. 自动导出到数据库仅支持云采集,这可以在采集和导出时实现,并且当前已导出未导出的数据. Cookie1)Cookie的诞生: 当用户打开浏览器进行页面请求时,Web服务器会简单地响应,然后关闭与用户的连接.
因此,每当用户向Web服务器发起打开网页的请求时,无论是否是第一次打开同一网页,Web服务器都会将请求视为第一次. 然后可以想象出这样的缺陷. 知道,例如,每次打开登录页面时都需要输入用户名和密码. 为了弥补这一缺点,Cookie应运而生. 2)Cookie概述: Cookie是服务器临时存储在您计算机上的一条数据,以便服务器可以识别您的计算机. 当您浏览网站时,Web服务器将首先发送少量信息并将其放在您的计算机上. Cookie将帮助您记录文本(例如用户名,密码)以及您在网站上键入的其他操作. 下次打开同一网站时. Web服务器将首先检查上次留下的cookie信息,如果有的话,它将根据cookie内容判断用户并向您发送特定的Web内容. 3)Cookie登录: 优采云中内置了记录Cookie的功能. 登录后可以通过获取cookie来记住登录状态,以达到采集数据的目的. 12. XPATHXPATH: 这是一种路径查询语言. 简而言之,它使用路径表达式来查找所需的数据位置. XPATH专门用于沿XML路径查找数据. 优采云采集器具有一组用于HTML的XPATH引擎,这使得可以直接使用XPATH在网页中查找和定位数据.
13. HTML HTML概念HTML: 超文本标记语言,一种用于描述网页的语言. 主要用于控制数据的显示和外观. HTML文档也称为网页. HTML结构: 完整的HTML文件至少包括标记,标记,标记和标记,并且这些标记成对出现,开始标记为,结束标记为. 在这两个标签之间添加内容. 可以通过这些标签中的相关属性来设置页面的背景色和背景图像. 14.固定元素列表和非固定元素列表固定元素列表是一种精确的定位方法,适用于网页上要采集的元素数量固定且xpath可以精确定位元素的情况. 如图所示: 3个xpath可以准确定位3个a标签. // DIV [@ class ='视频列表'] / DIV [1] / A [1] / H3 [1] // DIV [@ class ='视频列表'] / DIV [2] / A [1 ] / H3 [1] // DIV [@ class ='视频列表'] / DIV [3] / A [1] / H3 [1]不固定元素列表,这是一种解决某些网页列表的模糊定位方法元素不是固定数字. 例如,某些网页的第一页上有8个相似元素,第二页上有14个相似元素. 如图所示: xpath可以直接收录所有三个a标签. // a [@ class ='test'] 15. AJAXAJAX: AJAX是延迟加载和异步更新的脚本技术. 通过在后台与服务器进行少量数据交换,无需重新加载整个网页即可使用它. 更新页面的一部分.
在优采云中,如果网页上仅部分数据更新,并且网站的URL没有更改,则优采云将无法收到网页更改信号,从而导致采集停止或无数据采集. 网页上AJAX的特征: 1.单击网页上的一个选项时,大多数网站的URL不会更改; 2.网页未完全加载,仅部分加载了数据,这些数据会发生变化. 16. iframe框架iframe是html标记,它将创建一个收录另一个文档的内联框架(即内联框架),这意味着该网页中的网页. 我们可以通过Firefox获取登录框的详细地址,然后直接输入详细地址进行设计,在Firefox浏览器上的登录框上单击鼠标右键→选择此框→查看框信息→地址,此地址为实际的登录框URL. 获取此地址后,在Ucai Cloud中输入此URL即可制定规则. 相关集合教程: 优采云网站抓取功能/ tutorial / xsksrm / rmgnjs循环页面抓取网页数据/ tutorial / gnd / xunhuan模拟登录并识别验证码以捕获数据/ tutorial / gnd / dlyzmxpath抓取网页Text / tutorial / gnd / xpath云采集功能点描述/ tutorial / gnd / yuncaiji优采云-90万用户选择的Web数据采集器. 1.操作简单,任何人都可以使用: 不需要技术背景,可以通过浏览互联网进行采集.
完全可视化该过程,单击鼠标以完成操作,您可以在2分钟内快速上手. 2.强大的功能,可以在任何网站上采集: 单击,登录,翻页,识别验证码,瀑布流,Ajax脚本异步加载数据页,所有这些都可以通过简单的设置进行采集. 3.云采集,也可以关闭. 配置采集任务后,可以将其关闭,并可以在云中执行该任务. 庞大的云采集集群不间断运行24 * 7,因此无需担心IP被阻塞和网络中断. 4.免费功能+增值服务,可以按需选择. 免费版具有所有功能,可以满足用户的基本采集需求. 同时,建立了一些增值服务(例如私有云)以满足高端付费企业用户的需求.