excel抓取多页网页数据(采集列表数据、采集表格数据怎么操作?(组图))

优采云 发布时间: 2021-11-20 20:06

  excel抓取多页网页数据(采集列表数据、采集表格数据怎么操作?(组图))

  通过前面的课程,我们学习了采集列表数据,采集表数据。如果一个页面有很多相似的链接,需要依次点击每个链接进入详情页,然后采集各个详情页的数据?

  以百度百家号为例。现在有一个百家号信息列表的网页:%E6%95%B0%E6%8D%AE%E9%87%87%E9%9B%86&medium=2

  如您所见,网页上有许多新闻链接。点击每个新闻链接进入详细信息页面。每个详情页都有新闻标题、百家号头像、百家号、发布时间、正文等字段。

  

  鼠标放在图片上,右击,选择【在新标签页中打开图片】查看高清大图

  这同样适用于下面的其他图片

  如果我们需要按照网页上信息链接的顺序,自动点击链接进入详情页,然后将采集详情页中的字段保存为Excel等结构化数据,如何做吗?以下是具体步骤。

  

  示例网址:%E6%95%B0%E6%8D%AE%E9%87%87%E9%9B%86&medium=2

  步骤一、 创建【新建任务】,输入网址

  在首页【输入框】中输入目标网址,点击【开始采集】。点击【保存设置】,优采云内置浏览器会自动打开网页并进行智能识别。这里为了演示自定义采集设置,我点击了【取消识别】按钮。

  

  步骤二、建立【循环-点击元素-提取数据】

  观察网页。在该网页上,您可以通过点击新闻标题进入详情页面。在优采云中,通过建立【循环-点击元素-提取数据】的步骤,可以识别页面上所有的标题链接,点击进入详情页,然后提取每个页面中的信息相亲页面数据。

  建立【循环-点击元素-提取数据】需要具体步骤,以下是具体步骤。

  让我们看一个收录所有具体步骤的*敏*感*词*:

  

  然后拆分每一步,详细说明:

  1、选择页面上的第一个链接。选择后的第一个标题链接将被绿框框住。同时出现*敏*感*词*操作提示框,表示我们找到了相似链接(相似链接会以红色虚线框框起来)

  

  特别说明:

  一种。只选1个链接,第一个,第二个,第三个,都可以。

  湾 所选的需要是详细信息页面的链接。对于一般网页,链接会放在标题中,但也有例外。

  2、 在*敏*感*词*的操作提示框中,选择【全选】。我们想按顺序点击每个链接,所以选择[全选]。如您所见,所有标题链接都被选中并用绿色框框起来。

  

  3、 在*敏*感*词*的操作提示框中,选择【循环点击每个链接】。选择后,发现页面跳转到了第一个链接的详情页。

  

  特别说明:

  一种。有时出现在操作提示框中的不是【循环点击每个链接】,而是【循环点击每个元素】,本质是一样的。

  

  4、 提取数据。根据第三课:采集单数据学习,从页面中提取标题、百家号头像、百家号、发布时间、文本字段。下图中的例子就是提取标题。

  

  特别说明:

  一种。步骤1-4为连续指令,可以不间断地建立【循环列表】。1、选择页面第一个链接后没有出现2、【全选】怎么办?请向下滚动到文章末尾以查看解决方案。

  经过以上4个步骤,循环列表就创建好了。如您所见,流程图中会自动生成一个循环步骤。循环中的项目对应页面上的所有标题链接。启动采集后,优采云会按照循环中的顺序依次点击各个链接进入详情页,然后提取各个详情页的字段。

  

  步骤 三、 编辑字段

  我们可以删除字段,修改字段名称等。

  1、删除不需要的字段。选择该字段并单击垃圾桶图标将其删除。

  2、 修改字段名称。字段名相当于excel表头,可以选择默认字段名,也可以自定义输入。

  

  步骤四、开始采集

  1、修改字段名后,整个规则编辑完成,点击【启动采集】,然后点击【启动本地采集】启动后优采云自动启动< @采集数据。(本地采集使用自己的电脑采集,云采集使用优采云提供的云服务器采集,详情请查看课程x)

  

  2、采集 完成后,选择合适的导出方式导出数据。支持导出为 Excel、CSV、HTML。在此处导出到 Excel。

  

  数据示例:

  

  在步骤二、建立[循环-点击元素-提取数据]的步骤,1、选择页面第一个链接后,2、[全选]无解:

  示例网址:

  我们来看一个完整的步骤来创建一个【循环列表】:

  

  然后拆分每一步,详细说明:

  1、选择页面上的第一个链接。

  2、继续选择页面上的1个链接(目的是帮助优采云识别页面上所有相似的链接,相当于【全选】)。

  

  3、 在*敏*感*词*的操作提示框中,选择【循环点击各个链接】。优采云自动跳转到详情页。

  4、 根据需要在详细信息页面中提取字段。

  通过以上4步,也可以创建【循环-点击元素-提取数据】。后面的步骤和上面的一样,这里不再赘述。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线