c 抓取网页数据(IMG标签的抓取图片网址(组图) )
优采云 发布时间: 2022-03-19 21:12c 抓取网页数据(IMG标签的抓取图片网址(组图)
)
网页上的数据类型非常详细:文字、图片、链接、源码等。在data采集过程中,不同类型的数据有不同的对应抓取方式。本文将详细介绍数据类型的类型以及如何捕获它们。
示例 URL:#!type=movie&tag=%E7%BB%8F%E5%85%B8&sort=recommend&page_limit=20&page_start=0
1、抓取文字:抓取页面显示的文字
操作:鼠标选中页面中的文本,在弹出的操作提示文本中选择[采集 of this element],目标文本会向下采集。
同时,将鼠标移动到字段名称【文本】上,点击?
? 按钮,选择【自定义捕捉方式】,可以为我们选择章鱼鱼的自动文字。
2、 Crawl Image URL:要抓取的图片的URL
操作:鼠标选中页面上的图片,在弹出的操作提示中选择【采集此图片地址】,即可提取图片URL。
同时,将鼠标移至视野名称【图片地址】,点击?
? 按钮,选择【自定义抓取方式】,可以选择优采云为我们自动【抓取图片URL(IMG标签的src属性)】。
为什么是【IMG 标签的 src 属性】?在XPath教程中,我们讲了网页Html的相关知识。网页上的图片一般用IMG标签表示,图片地址会在IMG标签的src属性中。
因此,当我们要提取图片的 URL 时,本质上是使用 XPath 来定位 Img 标签,然后从 IMG 标签中提取 src 属性。src 属性的值是图像 URL。
这里演示的只是抓取图片时使用的抓取方式。具体图片采集请看教程:图片采集并下载到本地
3、爬取链接URL,抓取网页上超链接的URL
示例网址:
例如
操作:用鼠标选中页面中的超链接(一般是滚动标题文字,可点击跳转),弹出操作提示图片选择【采集此链接地址】,提取超链接URL。
同时,将鼠标移至字段名称【链接地址】,点击?
? 按钮,选择【自定义抓取方式】,可以选择优采云自动给我们【元素链接URL】。
4、抓取输入框文本值:抓取输入框文本
示例网址:
%E9%9C%B8%E7%8E%8B%E5%88%AB%E5%A7%AC&cat=1002
操作:鼠标选中页面中输入的文本(输入已有的输入值),在弹出文本的操作提示中选择[采集文本框的值],关键词 的文本输入框将被提取。.
同时,将鼠标移动到字段名称【文本框值】上,点击?
? 按钮是自动的,选择【自定义捕获方式】,测试发现文本框值是value属性。
为什么是【INPUT标签的value属性】在XPath教程中,我们讲了网页Html的相关知识,网页上的输入框一般都是用INPUT标签显示的,输入的关键词在文本输入中会显示在INPUT 中吗?在标签的 value 属性中。
,当我们要提取文本详情的关键词时,本质上是使用XPath来定位INPUT标签,所以我们从INPUT标签中提取value属性,value属性的值就是关键词 的输入细节。
5、抓取网页源码:抓取网页元素自动网页爬虫源码
示例 URL:%E5%B0%8F%E8%AF%B4
爬取网页源代码 Outer Html?
操作:鼠标选中要抓取的项目,在弹出页面的操作提示元素中选择【采集Outer Html of this element】,该元素对应的源(Outer Html)为由 采集 下载。
同时,将鼠标移至字段名称[OuterHtml],点击?
? 按钮,选择【自定义抓取方式】,可以看到优采云自动为我们选择了【抓取元素(外层Html)的网页源码。
爬取网页源码 Inner Html
操作:鼠标选中要抓取的项目,在弹出页面的操作提示元素中选择采集元素的Inner Html,该元素对应的源(InnerHtml)为< @采集 下来。
同时,将鼠标移动到字段名称[InnerHtml],点击?
? 按钮,选择【自定义抓取方式】,可以看到优采云已经自动为我们选择了【抓取元素(Inner Html)的网页源码。
自动网页抓取?
外部 Html 和内部 Html 有什么区别?
外层Html:收录当前元素
Inner Html:不收录当前元素,从当前元素的下一级开始
6、抓取元素属性值
首先使用XPath找到当前元素的来源,观察当前资源中存在哪些属性值,需要提取哪些属性值,然后将已有的和需要的属性值分开。
示例 URL:%E6%89%8B%E6%9C%BA&enc=utf-8&qrst=1&rt=1&stop=1&vt=2&wq=%E6%89%8B%E6 %9C%BA&page=7&s=177&click=0
脚步:
圆点是京东产品列表页面。每个产品都有一个产品 ID,现在需要 采集 这个产品 ID。
第一个商品列表的定位XPath为*[@id='J_goodsList']/ul/li[2],对应的网页源码包括class、data-sku、data-spu、ware-type。商品ID在data-sku属性中,我们需要抓取这个,也就是data-sku属性的属性值。
我们先选择第二个产品列表,在弹出的操作提示文字中,选择【this 采集本步骤的文字】,就是为了得到定位列表的XPath。
我们要抓取的是data-pid的属性值,所以将鼠标移动到字段名【文本,点击?
?、选择【自定义抓取方式】,将抓取方式改为【抓取元素属性】值】,并在下拉值中,选择【data-sku】,这样我们就设置data的值- sku属性采集下来,这是我们需要的产品ID。最后点击【应用】保存配置。