网页抓取数据百度百科(优采云采集器过程中涉及到的一些名词-乐题库)
优采云 发布时间: 2021-10-15 03:41网页抓取数据百度百科(优采云采集器过程中涉及到的一些名词-乐题库)
以下是优采云采集器使用中涉及到的一些名词。
采集 规则:
这是一个优采云采集器记录采集任务具体设置信息的程序脚本,可以进行导入导出操作。导入现有规则后,您可以对其进行修改,也可以根据配置的规则自动执行数据,无需修改。导出的规则可以发送给其他用户使用。
X路径:
这是一种路径查询语言。简单的说,就是通过一个路径表达式来查找我们需要的数据在网页中的位置。
以下介绍来自百度百科,详情请点击这里:
XPath 是 XML 路径语言,它是一种用于确定 XML(标准通用标记语言的子集)文档某个部分的位置的语言。XPath 基于 XML 树结构,具有不同类型的节点,包括元素节点、属性节点和文本节点,并提供在数据结构树中查找节点的能力。最初,XPath 的初衷是将其用作 XPointer 和 XSLT 之间的通用语法模型。但是 XPath 很快就被开发人员采用为一种小型查询语言。
如果您想更深入地学习,请点击此处查看W3school中的学习教程。
HTML:
这是一种用于描述网页的语言,主要用于控制数据的显示和外观。HTML 文档也称为网页。
以下介绍来自百度百科,更多详细内容请点击这里。
超文本标记语言,标准通用标记语言下的应用。“超文本”是指页面可以收录非文本元素,例如图片、链接,甚至音乐和程序。
超文本标记语言的结构包括“head”部分(英文:Head)和“body”部分(英文:Body),其中“head”部分提供网页信息,“body”部分提供网页信息。网页的具体内容。
如果您想更深入地学习,请点击此处查看W3school中的学习教程。
网址:
URL是网站的网址。
以下介绍来自百度百科,更多详细内容请点击这里。
统一资源定位符是互联网上可用资源的位置和访问方式的简明表示,是互联网上标准资源的地址。Internet 上的每个文件都有一个唯一的 URL,其中收录指示文件位置以及浏览器应如何处理它的信息。[1]
它最初是由蒂姆·伯纳斯·李 (Tim Berners Lee) 发明的,作为万维网上的一个地址。它现已被万维网联盟编译为 Internet 标准 RFC1738。
饼干:
Cookie是服务器临时存储在您计算机上的一段信息(例如您在网站上输入的文字,如用户名、密码等,以及一些其他操作记录),以便服务器可以识别你的电脑。
以下介绍来自百度百科,更多详细内容请点击这里。
Cookie,有时也以复数形式使用,是指存储在用户本地终端上的某些网站数据(通常是加密的),以识别用户身份并进行会话跟踪。RFC2109 和 2965 中定义的定义已经过时,最新的替代规范是 RFC6265 [1]。(可以称为浏览器缓存)
正则表达式:
这是一个过滤数据的规则,用于在采集期间提取和替换数据。
以下介绍来自百度百科,更多详细内容请点击这里。
正则表达式,也称为正则表达式。(英文:Regular Expression,在代码中常缩写为regex、regexp或RE),计算机科学的一个概念。正则表达式通常用于检索和替换符合某种模式(规则)的文本。
许多编程语言都支持使用正则表达式进行字符串操作。例如,强大的正则表达式引擎内置于 Perl 中。正则表达式的概念首先由 Unix 中的工具(如 sed 和 grep)普及。正则表达式通常缩写为“regex”。单数包括regexp和regex,复数包括regexps、regexes和regexen。