网页抓取数据百度百科(优采云采集器过程中涉及到的一些名词-乐题库)

优采云发布时间: 2021-10-15 03:41

　　以下是优采云采集器使用中涉及到的一些名词。

　　采集规则：

　　这是一个优采云采集器记录采集任务具体设置信息的程序脚本，可以进行导入导出操作。导入现有规则后，您可以对其进行修改，也可以根据配置的规则自动执行数据，无需修改。导出的规则可以发送给其他用户使用。

　　X路径：

　　这是一种路径查询语言。简单的说，就是通过一个路径表达式来查找我们需要的数据在网页中的位置。

　　以下介绍来自百度百科，详情请点击这里：

　　XPath 是 XML 路径语言，它是一种用于确定 XML（标准通用标记语言的子集）文档某个部分的位置的语言。XPath 基于 XML 树结构，具有不同类型的节点，包括元素节点、属性节点和文本节点，并提供在数据结构树中查找节点的能力。最初，XPath 的初衷是将其用作 XPointer 和 XSLT 之间的通用语法模型。但是 XPath 很快就被开发人员采用为一种小型查询语言。

　　如果您想更深入地学习，请点击此处查看W3school中的学习教程。

　　HTML：

　　这是一种用于描述网页的语言，主要用于控制数据的显示和外观。HTML 文档也称为网页。

　　以下介绍来自百度百科，更多详细内容请点击这里。

　　超文本标记语言，标准通用标记语言下的应用。“超文本”是指页面可以收录非文本元素，例如图片、链接，甚至音乐和程序。

　　超文本标记语言的结构包括“head”部分（英文：Head）和“body”部分（英文：Body），其中“head”部分提供网页信息，“body”部分提供网页信息。网页的具体内容。

　　如果您想更深入地学习，请点击此处查看W3school中的学习教程。

　　网址：

　　URL是网站的网址。

　　以下介绍来自百度百科，更多详细内容请点击这里。

　　统一资源定位符是互联网上可用资源的位置和访问方式的简明表示，是互联网上标准资源的地址。Internet 上的每个文件都有一个唯一的 URL，其中收录指示文件位置以及浏览器应如何处理它的信息。[1]

　　它最初是由蒂姆·伯纳斯·李 (Tim Berners Lee) 发明的，作为万维网上的一个地址。它现已被万维网联盟编译为 Internet 标准 RFC1738。

　　饼干：

　　Cookie是服务器临时存储在您计算机上的一段信息（例如您在网站上输入的文字，如用户名、密码等，以及一些其他操作记录），以便服务器可以识别你的电脑。

　　以下介绍来自百度百科，更多详细内容请点击这里。

　　Cookie，有时也以复数形式使用，是指存储在用户本地终端上的某些网站数据（通常是加密的），以识别用户身份并进行会话跟踪。RFC2109 和 2965 中定义的定义已经过时，最新的替代规范是 RFC6265 [1]。（可以称为浏览器缓存）

　　正则表达式：

　　这是一个过滤数据的规则，用于在采集期间提取和替换数据。

　　以下介绍来自百度百科，更多详细内容请点击这里。

　　正则表达式，也称为正则表达式。（英文：Regular Expression，在代码中常缩写为regex、regexp或RE），计算机科学的一个概念。正则表达式通常用于检索和替换符合某种模式（规则）的文本。

　　许多编程语言都支持使用正则表达式进行字符串操作。例如，强大的正则表达式引擎内置于 Perl 中。正则表达式的概念首先由 Unix 中的工具（如 sed 和 grep）普及。正则表达式通常缩写为“regex”。单数包括regexp和regex，复数包括regexps、regexes和regexen。

0

2021-10-15

网页抓取数据百度百科

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网页抓取数据百度百科(优采云采集器过程中涉及到的一些名词-乐题库)

0 个评论

发起人

AI时代内容工厂

网页抓取数据百度百科(优采云采集器过程中涉及到的一些名词-乐题库)

0 个评论

发起人

相关问题