php抓取网页表格信息(第4课中如何采集多个列表中的数据?课 )
优采云 发布时间: 2021-10-20 13:22php抓取网页表格信息(第4课中如何采集多个列表中的数据?课
)
在第4课中,我们学习了如何采集多个数据列表,相信大家都学会了创建【循环提取数据】。本课将学习一种特殊格式的列表数据-表数据采集。
表格是很常见的网页样式,如:的匹配评分表、天天基金网的基金排名表、东方财富网的股票信息表、中国证券业协会的年报披露表等。
表格是列表数据的一种特殊形式。我们可以将表的每一行看作是列表中每个数据的一个大块范围。表格每一行的所有单元格字段相当于列表的每个数据块中的多个子字段。. 那么上一课介绍的【循环提取数据】的创建方法也可以用在本课中。
现在有一个新浪财经股票表的网页:
表格结构非常整齐,每条股票信息占据表格的一行,一排股票收录多个信息字段:股票代码、股票名称、目标价、最新评级等。
鼠标放在图片上,右击,选择【在新标签页中打开图片】查看高清大图
这同样适用于下面的其他图片
我们要保存这些字段采集,并保存在Excel等中,如下图所示。怎么做?下面是具体操作。
示例网址:
Step 一、 创建【新建任务】,输入网址,打开网页
在首页【输入框】中输入目标网址,点击【开始采集】。点击【保存设置】,优采云内置浏览器会自动打开网页。为了方便观察,我们打开右上角的【处理】按钮。可以看到左上角的流程区已经自动创建了【打开网页】步骤。
步骤二、建立【循环提取数据】
我们可以想到上节课提到的知识点,将表格作为列表数据的一种特殊形式,将每一行股票看成列表中每个数据的一个大块范围,创建一个【循环-提取数据】 ],让优采云自动识别所有股票和每个*敏*感*词*的所有子元素。
让我们看一个收录所有具体步骤的*敏*感*词*:
然后拆分每一步,详细说明:
1、 先选中页面第一个列表的第一个单元格,然后点击提示框右下角的【展开选择】
用于选择整行的按钮。(
展开选定的范围。当前选中的是一个单元格,点击
选中范围扩大一级,即选中一行)
选择后,提示框会提示找到【子元素】,【子元素】为优采云自动识别的每一行的具体字段。我想问你是否要定位这些子元素。
特别说明:
一种。单击“扩展范围”按钮时,如果单击未选择一行,则可以多次单击直到选中一行。
湾 单击第一个列表的第一个单元格后,还可以检查提示框下方是否有tr标签。如果有,直接点击这个tr,相当于
按钮,优采云 将直接选择一行。(Tr 表示一行。)
2、 在提示框中选择【选择子元素】。选择第一只股票中的特定字段,然后优采云自动识别页面上其他股票列表具有相同的[子元素](红色框)。
3、 在提示框中选择【全选】。可以看到页面上股票列表中的所有子元素也都被选中并被绿色框框起来。
4、 在提示框中选择[采集数据]。这时候优采云会提取表单中的所有字段。
特别说明:
一种。步骤1-4是连续指令,只能不间断地建立。1、【选择一行】后没有2、【选择子元素】怎么办?请向下滚动到文章末尾以查看解决方案。
经过以上4个步骤,就完成了【Cycle-Extract Data】的创建。工序区自动生成一步【循环-提取数据】。循环收录页面上所有股票的行数,提取的数据收录一个股票中的所有字段。
步骤 3、 编辑字段
1、删除不需要的字段。选择该字段并单击垃圾桶图标将其删除。
2、 修改字段名称。更改为字段的相应名称。
步骤4、开始采集
1、 点击【保存并启动】,选择【启动本地采集】。优采云 跳出采集窗口,我们可以在采集窗口看到自动的采集。
2、采集 完成后,选择合适的导出方式导出数据。支持导出为 Excel、CSV、HTML。在此处导出到 Excel。
数据示例: