网页表格抓取(麒麟采集器采集东方财富网数据的方法(组图)!!)
优采云 发布时间: 2021-10-02 01:13网页表格抓取(麒麟采集器采集东方财富网数据的方法(组图)!!)
本文介绍采集使用麒麟采集器采集东方财富网的方法
采集网站:
#10
使用功能点:
lAjax翻页
l 分页信息抽取
东方财富网:东方财富网致力于打造专业、权威、用户至上的财经媒体。东方财富网网站内容涉及金融、股票、基金、期货、债券、外汇、银行、保险等众多金融资讯和财经资讯,全面覆盖金融领域,更新数十篇每天数以千计的最新数据和信息。为用户提供方便的查询。
东方财富网*敏*感*词*采集 说明:本文对东方财富网-行情中心-上涨A股*敏*感*词*进行了采集。本文仅以《东方财富网-市场中心-A股数据采集》为例。实际操作过程中,您可以根据自己的需要替换东方财富网其他内容为数据。采集。
东方财富网*敏*感*词*采集详细描述:股票编号、股票代码、股票名称、股票相关链接、股票最新价格、股票价格波动、股票振幅、股票交易量、股票交易量、股票昨天收盘, 今日开盘,股价最高,股价最低,股价5分钟内涨跌。
第一步:创建采集任务
进入主界面选择,选择自定义模式
将上述网址的网址复制粘贴到网站输入框中,点击“保存网址”
保存 URL 后,页面将在 Kylin采集器 中打开。红框内的评测信息为本次演示的内容。
第 2 步:创建翻页循环
l 找到翻页按钮,设置翻页周期
l 设置ajax翻页时间
将页面下拉到底部,找到下一页按钮,点击鼠标,在右侧的操作提示框中选择“循环点击下一页”
由于页面使用ajax加载技术,需要对点击元素和翻页步骤设置ajax延迟加载(ajax判断方法:打开流程图,找到翻页循环框,手动执行翻页,看看网站 完成加载)在右侧的高级选项框中,勾选Ajax加载数据,选择合适的超时时间,一般设置为2秒;最后点击确定
注:点击右上角“处理”按钮,显示可视化流程图。
第三步:分页表单信息采集
l 选择需要采集的字段信息,创建采集列表
l编辑采集字段名
移动鼠标选中表格中任意空白信息,点击右键,如图,框内的数据将被选中并变为绿色,点击右侧提示中的“TR”
选中数据当前行的数据将全部选中,点击“选择子元素”
在右侧操作提示框中查看提取的字段,删除不需要的字段,点击“全选”
点击“采集以下数据”
注意:提示框中的字段会出现一个“X”,点击删除该字段。
修改采集任务名称和字段名称,在下方提示中点击“保存并启动采集”
根据采集的情况,选择合适的采集方法,这里选择“启动本地采集”
注意:本地采集占用采集的当前计算机资源,如果采集有时间要求或当前计算机长时间无法执行采集你可以使用云采集功能,云采集在网络采集中进行,不需要当前电脑支持,可以关闭电脑,可以设置多个云节点共享任务。10个节点相当于10台电脑分配任务帮你采集,速度降低到原来的十分之一;采集收到的数据可以在云端存储三个月,随时可以导出。
第四步:数据采集并导出
采集 完成后会弹出提示,选择导出数据
选择合适的导出方式,导出采集好的数据