网页内容抓取工具(一个翻页循环网页数据能采集到哪些数据(组图))
优采云 发布时间: 2021-12-19 12:05网页内容抓取工具(一个翻页循环网页数据能采集到哪些数据(组图))
采集可以从网页数据中得到什么数据
刚接触数据采集的同学可能会有这样的疑问:哪些网页数据可以是采集?
简单地说,互联网收录了丰富的开放数据资源。这些直接可见的互联网公开数据可以是采集,但是采集的难易程度存在差异。具体到数据类型,大数据的数据主要是网络日志、视频、图片、地理位置等网络信息,可以通过多种方式实现采集。
我们可以使用采集工具高效便捷的实现各种网页和各类网页数据采集。优采云是一个可视化的网页数据采集器,可以是采集99%的网页。以下是完整的使用优采云、采集的豆瓣电影短评示例。
第一步:创建采集任务
1)进入主界面,选择“自定义模式”
2)将采集的网址复制粘贴到网站的输入框中,点击“保存网址”
采集可以从网页数据中得到什么数据 图2
第 2 步:创建翻页循环
1)在页面右上角,打开“流程”,显示“流程设计器”和“自定义当前操作”两个部分。网页打开后,下拉页面,找到并点击“更多短评”按钮,选择“点击此链接”
采集可以从网页数据中得到什么数据 图3
2) 将页面下拉到底部,点击“下一页”按钮,在右侧的操作提示框中,
选择“更多操作”
采集可以从网页数据中得到什么数据 图4
选择“循环点击单个链接”创建翻页循环
采集可以从网页数据中得到什么数据 图5
第 3 步:创建列表循环并提取数据
1)移动鼠标选择页面上的第一个电影评论块。系统会识别该块中的子元素,在操作提示框中选择“选择子元素”
采集可以从网页数据中得到什么数据 图6
2) 系统会自动识别页面其他相似元素,在操作提示框中选择“全选”创建列表循环
采集可以从网页数据中得到什么数据 图7
3) 我们可以看到页面第一个电影评论块中的所有元素都被选中并变成了绿色。选择“采集以下数据”
采集可以从网页数据中得到什么数据 图8
4)选择一个字段并点击垃圾桶图标删除不需要的字段
采集可以从网页数据中得到什么数据 图9
5) 字段选择完成后,选择对应的字段,自定义字段的命名。完成后,点击左上角的“保存并启动”
采集可以从网页数据中得到什么数据 图10
6)选择“启动本地采集”
采集可以从网页数据中得到什么数据 图11
第四步:数据采集并导出
1)采集 完成后会弹出提示,选择“导出数据”。选择“合适的导出方式”导出采集好的数据
采集可以从网页数据中得到什么数据 图12
2)这里我们选择excel作为导出格式,导出数据如下图
采集可以从网页数据中得到什么数据 图13
注:未登录时,豆瓣电影短评页面只能翻8次,采集约160条短评数据。采集更多资料,请先登录。登录请参考以下两个教程:单文输入点击登录方式(/tutorialdetail-1/srdl_v70.html)和cookie登录方式(/tutorialdetail-1/cookie70.html)。
在示例中,采集的豆瓣电影的评论信息,以及视频、图片、地理位置等其他数据类型的采集的评论信息相对复杂一些。视频:可用 采集 其 URL。图片:可以批量处理采集图片网址,然后使用优采云批量导出工具将网址导出为图片。地理位置(经纬度),如地图网站(百度地图、高德地图
该信息在搜狗地图源码中可以找到,可以从源码采集获取。
相关 采集 教程: