网页内容抓取工具(抓取网页数据工具优采云采集器的Xpath提取示例(一))

优采云发布时间: 2022-01-11 03:16

　　我们在使用优采云采集器的时候，经常会使用不同的数据提取方式。除了前后截取、文本提取、正则提取外，Xpath提取也是常用的一种。XPath 是一种用于在 HTML/XML 文档中查找信息的语言。XPath 使用路径表达式在 XML 文档中导航，可以通过 FireFox firebug 或 Chrome 开发工具快速获取。下面是网页数据爬取工具优采云采集器的Xpath提取示例的详细演示。

　　XPath 节点属性

　　innerHTML：获取对象开始和结束标签内的 HTML（HTML 代码，不包括开始/结束代码）

　　innerText：获取位于对象开始和结束标记内的文本（文本字段，不收录开始/结束代码）

　　outerHTML：获取对象的 HTML 形式及其内容（HTML 代码，包括开始/结束代码）

　　Href：获取超链接

　　我们以 URL 为例，设置标题和内容的 XPath 表达式。这里的node属性可以默认设置为innerHTML。以下是操作步骤的内容。

　　1、首先我们用谷歌浏览器打开上面的网页，然后打开Chrome开发者工具。打开开发者工具的快捷键是“F12”。反复按 F12 可切换状态（开或关）。如果是在原网页，可以直接右键选择“Inspect Element”。

　　2、获取标题的XPath，操作如下：

　　按照图标箭头的顺序，首先点击找到选中的标题，在代码中选中的部分右击，点击复制xpath，代码为//*[@id="mainContent"]/div[2]/ h2

　　3、获取内容的XPath，操作如下：

　　操作与标题操作类似，但需要注意的是，当鼠标悬停在内容上时，需要选择全部内容而不是部分段落，所以可以在代码中点击获取完整的Xpath表达式, 右击复制得到的代码是 //*[@id="cmsContent"]。

　　看完后，你觉得Xpath提取很有用吗？如果您认为它易于使用，您可以自己尝试一下。除了上面提到的四种提取方式，网页数据爬取工具优采云采集器V9还有JSON提取方式，大家也可以研究一下。返回搜狐，查看更多

0

2022-01-11

网页内容抓取工具

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网页内容抓取工具(抓取网页数据工具优采云采集器的Xpath提取示例(一))

0 个评论

发起人

AI时代内容工厂

网页内容抓取工具(抓取网页数据工具优采云采集器的Xpath提取示例(一))

0 个评论

发起人

相关问题