c 抓取网页数据(IMG标签的抓取图片网址(组图) )

优采云发布时间: 2022-03-19 21:12

　　c 抓取网页数据(IMG标签的抓取图片网址(组图)

)

　　网页上的数据类型非常详细：文字、图片、链接、源码等。在data采集过程中，不同类型的数据有不同的对应抓取方式。本文将详细介绍数据类型的类型以及如何捕获它们。

　　示例 URL：#!type=movie&tag=%E7%BB%8F%E5%85%B8&sort=recommend&page_limit=20&page_start=0

　　1、抓取文字：抓取页面显示的文字

　　操作：鼠标选中页面中的文本，在弹出的操作提示文本中选择[采集 of this element]，目标文本会向下采集。

　　同时，将鼠标移动到字段名称【文本】上，点击？

　　? 按钮，选择【自定义捕捉方式】，可以为我们选择章鱼鱼的自动文字。

　　2、 Crawl Image URL：要抓取的图片的URL

　　操作：鼠标选中页面上的图片，在弹出的操作提示中选择【采集此图片地址】，即可提取图片URL。

　　同时，将鼠标移至视野名称【图片地址】，点击？

　　? 按钮，选择【自定义抓取方式】，可以选择优采云为我们自动【抓取图片URL（IMG标签的src属性）】。

　　为什么是【IMG 标签的 src 属性】？在XPath教程中，我们讲了网页Html的相关知识。网页上的图片一般用IMG标签表示，图片地址会在IMG标签的src属性中。

　　因此，当我们要提取图片的 URL 时，本质上是使用 XPath 来定位 Img 标签，然后从 IMG 标签中提取 src 属性。src 属性的值是图像 URL。

　　这里演示的只是抓取图片时使用的抓取方式。具体图片采集请看教程：图片采集并下载到本地

　　3、爬取链接URL，抓取网页上超链接的URL

　　示例网址：

　　例如

　　操作：用鼠标选中页面中的超链接（一般是滚动标题文字，可点击跳转），弹出操作提示图片选择【采集此链接地址】，提取超链接URL。

　　同时，将鼠标移至字段名称【链接地址】，点击？

　　? 按钮，选择【自定义抓取方式】，可以选择优采云自动给我们【元素链接URL】。

　　4、抓取输入框文本值：抓取输入框文本

　　示例网址：

　　%E9%9C%B8%E7%8E%8B%E5%88%AB%E5%A7%AC&cat=1002

　　操作：鼠标选中页面中输入的文本（输入已有的输入值），在弹出文本的操作提示中选择[采集文本框的值]，关键词的文本输入框将被提取。.

　　同时，将鼠标移动到字段名称【文本框值】上，点击？

　　? 按钮是自动的，选择【自定义捕获方式】，测试发现文本框值是value属性。

　　为什么是【INPUT标签的value属性】在XPath教程中，我们讲了网页Html的相关知识，网页上的输入框一般都是用INPUT标签显示的，输入的关键词在文本输入中会显示在INPUT 中吗？在标签的 value 属性中。

　　，当我们要提取文本详情的关键词时，本质上是使用XPath来定位INPUT标签，所以我们从INPUT标签中提取value属性，value属性的值就是关键词的输入细节。

　　5、抓取网页源码：抓取网页元素自动网页爬虫源码

　　示例 URL：%E5%B0%8F%E8%AF%B4

　　爬取网页源代码 Outer Html？

　　操作：鼠标选中要抓取的项目，在弹出页面的操作提示元素中选择【采集Outer Html of this element】，该元素对应的源（Outer Html）为由采集下载。

　　同时，将鼠标移至字段名称[OuterHtml]，点击？

　　? 按钮，选择【自定义抓取方式】，可以看到优采云自动为我们选择了【抓取元素（外层Html）的网页源码。

　　爬取网页源码 Inner Html

　　操作：鼠标选中要抓取的项目，在弹出页面的操作提示元素中选择采集元素的Inner Html，该元素对应的源（InnerHtml）为< @采集下来。

　　同时，将鼠标移动到字段名称[InnerHtml]，点击？

　　? 按钮，选择【自定义抓取方式】，可以看到优采云已经自动为我们选择了【抓取元素（Inner Html）的网页源码。

　　自动网页抓取？

　　外部 Html 和内部 Html 有什么区别？

　　外层Html：收录当前元素

　　Inner Html：不收录当前元素，从当前元素的下一级开始

　　6、抓取元素属性值

　　首先使用XPath找到当前元素的来源，观察当前资源中存在哪些属性值，需要提取哪些属性值，然后将已有的和需要的属性值分开。

　　示例 URL：%E6%89%8B%E6%9C%BA&enc=utf-8&qrst=1&rt=1&stop=1&vt=2&wq=%E6%89%8B%E6 %9C%BA&page=7&s=177&click=0

　　脚步：

　　圆点是京东产品列表页面。每个产品都有一个产品 ID，现在需要采集这个产品 ID。

　　第一个商品列表的定位XPath为*[@id='J_goodsList']/ul/li[2]，对应的网页源码包括class、data-sku、data-spu、ware-type。商品ID在data-sku属性中，我们需要抓取这个，也就是data-sku属性的属性值。

　　我们先选择第二个产品列表，在弹出的操作提示文字中，选择【this 采集本步骤的文字】，就是为了得到定位列表的XPath。

　　我们要抓取的是data-pid的属性值，所以将鼠标移动到字段名【文本，点击？

　　?、选择【自定义抓取方式】，将抓取方式改为【抓取元素属性】值】，并在下拉值中，选择【data-sku】，这样我们就设置data的值- sku属性采集下来，这是我们需要的产品ID。最后点击【应用】保存配置。

0

2022-03-19

c 抓取网页数据

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

c 抓取网页数据(IMG标签的抓取图片网址(组图) )

0 个评论

发起人