excel自动抓取网页数据(一个翻页循环网页数据能采集到哪些数据(组图))
优采云 发布时间: 2022-02-09 13:28excel自动抓取网页数据(一个翻页循环网页数据能采集到哪些数据(组图))
采集可以从网页数据中获取哪些数据
刚接触数据采集的同学可能会有以下疑问:采集可以是什么样的网页数据?
简单地说,互联网收录了丰富的开放数据资源。所有这些直接可见的互联网公开数据都可以是采集,只是难度不同采集。具体到数据类型,大数据的数据主要是网络日志、视频、图片、地理位置等网络信息,可以通过多种方式实现采集。
我们可以使用采集工具高效便捷的实现各种网页和各类网页数据采集。优采云是一个可视化的网页数据采集器,可以采集99%的网页。以下是使用优采云、采集对豆瓣上的一部电影进行简短评论的完整示例。
第 1 步:创建一个 采集 任务
1)进入主界面,选择“自定义模式”
2)复制并粘贴你想要采集的网址到网站输入框,点击“保存网址”
采集 可以从网页数据中得到哪些数据 图2
第 2 步:创建翻页循环
1)在页面右上角,打开“Process”,显示“Process Designer”和“Customize Current Actions”部分。网页打开后,下拉页面,找到并点击“更多评论”按钮,选择“点击此链接”
采集 可以从网页数据中得到哪些数据 图 3
2) 将页面下拉至底部,点击“下一步”按钮,在右侧的操作提示框中,
选择“更多操作”
采集 可以从网页数据中得到哪些数据 图4
选择“循环点击单链接”创建翻页循环
采集 可以从网页数据中得到哪些数据 图 5
第 3 步:创建列表循环并提取数据
1)移动鼠标选择页面上的第一个电影评论块。系统会识别该块中的子元素,在操作提示框中,选择“选择子元素”
采集 可以从网页数据中得到哪些数据 图6
2)系统会自动识别页面上其他类似的元素。在操作提示框中,选择“全选”创建列表循环
采集 可以从网页数据中得到哪些数据 图 7
3)我们可以看到页面上第一个影评块的所有元素都被选中并变为绿色。选择“采集以下数据”
网页数据中采集可以是什么数据 图8
4)选择字段并单击垃圾桶图标以删除不必要的字段
采集 可以从网页数据中得到哪些数据 图 9
5)字段选择完成后,选择对应字段,自定义字段名称。完成后,点击左上角的“保存并启动”
采集 可以从网页数据中得到哪些数据 图10
6)选择“本地启动采集”
网页数据中采集可以是什么数据 图11
第 4 步:数据采集 和导出
1)采集完成后会弹出提示,选择“导出数据”。选择“合适的导出方式”导出采集好的数据
采集 可以从网页数据中得到哪些数据 图12
2)这里我们选择excel作为导出格式,数据导出如下图
采集 可以从网页数据中获取哪些数据 图 13
注:如果未登录,豆瓣电影短评只能翻8次,采集160短评数据。采集更多数据,请先登录。登录请参考以下两个教程:单文本输入点击登录方法(/tutorialdetail-1/srdl_v70.html)和cookie登录方法(/tutorialdetail-1/cookie70.html) .
在例子中,采集的豆瓣电影的评论信息,其他数据类型如视频、图片、地理位置的采集,都比较复杂。视频:可在 采集 其 URL 获得。图片:您可以批量采集图片网址,然后使用优采云批量导出工具将网址导出为图片。地理位置(经纬度),如地图网站(百度地图、高德地图
搜狗地图)源码中收录了这些信息,可以从源码采集下载。
相关 采集 教程: