抓取网页新闻(,如何抓取网易新闻的网站数据(涉及Ajax技术))
优采云 发布时间: 2022-04-18 03:26抓取网页新闻(,如何抓取网易新闻的网站数据(涉及Ajax技术))
如何抓取网易新闻的网站数据(涉及Ajax技术)
随着互联网数据的爆炸式增长,有效获取和分析这些数据并使其产生价值是我们的工作。那么,首先要思考的问题是:如何捕获网站 数据?
今天分享的是一个使用web数据的完整例子采集器-优采云,采集网站数据。采集网站的目标是网易新闻。观察发现,打开网易新闻的网站后,下拉页面,会发现页面正在加载新数据。分析表明,这个网站涉及到Ajax技术,需要在优采云中设置一些高级选项,需要特别注意。详情可以到优采云官网学习****AJAX滚动教程。
采集网站:
下载示例规则:
#_rnd79
第 1 步:创建 采集 任务
1)进入主界面选择,选择自定义模式
如何抓取网易新闻的网站数据 图1
2)将上述网址的网址复制粘贴到网站输入框,点击“保存网址”
如何抓取网易新闻的网站数据 图2
3)保存URL后会在优采云采集器中打开页面,红框内的信息就是这个demo的内容要采集
如何抓取网易新闻的网站数据 图3
第二步:设置ajax页面加载时间
设置打开网页步骤的ajax滚动加载时间
页面打开后,下拉页面,会发现页面有新的数据加载
如何抓取网易新闻的网站数据 图4
因此,需要进行如下设置:打开流程图,点击“打开网页”步骤,在右侧的高级选项框中,勾选“页面加载完成向下滚动”,设置滚动次数、间隔时间每次滚动之间,一般设置为2秒,本页的滚动方式,选择直接滚动到底部;最后点击确定
如何抓取网易新闻的网站数据 图5
注意:这里需要为网站设置滚动的次数和间隔,测试方法可以参考优采云7.0教程-AJAX滚动教程
第三步:采集列出内容
勾选需要在采集列表中的新闻框,创建数据提取列表
1)移动鼠标选中图片中的新闻信息框。右击,采集的内容会变成绿色
如何抓取网易新闻的网站数据 图6
注:点击右上角的“流程”按钮,显示可视化流程图。
2)系统会识别新闻信息框中的子元素。在操作提示框中,选择“选择子元素”
如何抓取网易新闻的网站数据 图7
3)系统会自动识别页面中其他类似的元素。在操作提示框中,选择“全选”创建列表循环
如何抓取网易新闻的网站数据 图8
注意:选择一个字段,鼠标放在该字段上会出现一个删除图标,点击删除该字段。
如何抓取网易新闻的网站数据 图9
4)我们可以看到页面上第一个影评块的所有元素都被选中并变为绿色。选择“采集以下数据”
如何抓取网易新闻的网站数据 图10
5)修改采集字段的名称,点击下方红框中的“保存并开始采集”
如何抓取网易新闻的网站数据 图11
第 4 步:数据采集 和导出
1)根据采集的情况选择合适的采集方法,这里选择“本地启动采集”
如何抓取网易新闻的网站数据 图12
注意:本地采集占用当前计算机资源来执行采集,如果有采集时间要求或者当前计算机长时间不能执行采集,你可以使用云采集功能,云采集是在网络采集中进行的,不需要当前电脑的支持,可以关闭电脑,可以多云节点设置分发任务,10个节点相当于10台电脑分发任务帮你采集,速度降低到原来的十分之一;采集获取的数据可以在云端保存三个月,随时可以导出。
2)采集完成后会弹出提示,选择导出数据
如何抓取网易新闻的网站数据 图13
3)选择合适的导出方式,导出采集好的数据
如何抓取网易新闻的网站数据 图14
本文以网易新闻的数据采集为例,采集网易新闻-国际分类下的新闻标题、标签、发布时间、关注人数等信息。实际过程中,基本步骤可参照上述操作。但是由于网页的形式极其丰富,网页的结构也不一样,所以需要详细分析。
相关 采集 教程:
京东商品信息采集
百度搜索结果采集
搜狗微信文章采集
优采云——70万用户选择的网页数据采集器。
1、操作简单,任何人都可以使用:无需技术背景,即可上网采集。完成流程可视化,点击鼠标完成操作,2分钟快速上手。
2、功能强大,任意网站可选:点击、登录、翻页、身份验证码、瀑布流、Ajax脚本异步加载数据,都可以通过简单设置进行设置采集。
3、云采集,你也可以关机。配置采集任务后,可以将其关闭,该任务可以在云端执行。庞大的云采集集群24*7不间断运行,无需担心IP阻塞和网络中断。