网页内容抓取工具(抓取网页数据工具优采云采集器的Xpath提取示例(一))
优采云 发布时间: 2022-01-11 03:16网页内容抓取工具(抓取网页数据工具优采云采集器的Xpath提取示例(一))
我们在使用优采云采集器的时候,经常会使用不同的数据提取方式。除了前后截取、文本提取、正则提取外,Xpath提取也是常用的一种。XPath 是一种用于在 HTML/XML 文档中查找信息的语言。XPath 使用路径表达式在 XML 文档中导航,可以通过 FireFox firebug 或 Chrome 开发工具快速获取。下面是网页数据爬取工具优采云采集器的Xpath提取示例的详细演示。
XPath 节点属性
innerHTML:获取对象开始和结束标签内的 HTML(HTML 代码,不包括开始/结束代码)
innerText:获取位于对象开始和结束标记内的文本(文本字段,不收录开始/结束代码)
outerHTML:获取对象的 HTML 形式及其内容(HTML 代码,包括开始/结束代码)
Href:获取超链接
我们以 URL 为例,设置标题和内容的 XPath 表达式。这里的node属性可以默认设置为innerHTML。以下是操作步骤的内容。
1、首先我们用谷歌浏览器打开上面的网页,然后打开Chrome开发者工具。打开开发者工具的快捷键是“F12”。反复按 F12 可切换状态(开或关)。如果是在原网页,可以直接右键选择“Inspect Element”。
2、获取标题的XPath,操作如下:
按照图标箭头的顺序,首先点击找到选中的标题,在代码中选中的部分右击,点击复制xpath,代码为//*[@id="mainContent"]/div[2]/ h2
3、获取内容的XPath,操作如下:
操作与标题操作类似,但需要注意的是,当鼠标悬停在内容上时,需要选择全部内容而不是部分段落,所以可以在代码中点击获取完整的Xpath表达式, 右击复制得到的代码是 //*[@id="cmsContent"]。
看完后,你觉得Xpath提取很有用吗?如果您认为它易于使用,您可以自己尝试一下。除了上面提到的四种提取方式,网页数据爬取工具优采云采集器V9还有JSON提取方式,大家也可以研究一下。返回搜狐,查看更多