铁胆优采云侠,数据抓取小能手
优采云 发布时间: 2022-06-26 03:19铁胆优采云侠,数据抓取小能手
NOV
17
十秒看全文
QUICK PREVIEW IN 10S
1. 上一期“火锅大数据”获得一致好评。
2. 优采云采集器成为数据抓取小能手。
3. 数据采集方法详解:分析网页结构—新建采集任务—编写规则—数据采集与发布。
双十一大家还过得吗?我们又回来了!上周我们分享的“重庆火锅与大数据”获得了大家的一致好评,阅读次数已经突破5500次。并且,重庆晨报、新浪重庆、重庆旅游局等媒体于11月10日对此进行了专版报道。简直受宠若惊!
你们的喜爱与支持,让「GIS从零开始」收获了更多的关注,感谢你们!
本周我们就讲如何利用优采云采集器抓取网络公开数据,成为数据抓取小能手。
规划专业出身的我们,没有任何编程基础,不会写代码,不会写爬虫,抓取数据就让我们一个个扑街!
但是,有需求就有市场!优采云采集器、优采云等数据抓取软件应运而生,成为我们的得力小帮手。
优采云采集器的采集逻辑是根据采集规则对网页源代码进行抓取,其中主要步骤为:
分析网页结构 — 新建采集任务 — 编写规则 — 数据采集 — 数据发布。
下面我们以采集大众点评网重庆火锅店数据为例进行演示操作。
操作软件:优采云采集器、Excel、搜狗浏览器
一、 分析网页结构
大众点评网页信息结构清晰,我们很容易就能找到点评信息、位置信息、推荐菜品等信息。通过查看网页源文件,找到每项信息在源代码中的位置,做好标记备用。
二、 新建采集任务
在优采云采集器官网下载软件,安装并注册账号,免费版本即可满足我们的一般需求。
登陆后,新建任务开始我们的数据采集之旅。
三、 编写规则
优采云采集器的规则分为三部分:网址采集规则—数据采集规则—数据发布规则。
3.1 网址采集规则
每家火锅店的信息都位于独立的网页中,我们需要批量采集每家火锅店的网址。
打开渝中区火锅店网页,第一步需要采集每个分页的网址即列表页,第二步采集每个分页中商户的网址即内容页。
在网页源代码中发现,分页网址前后起止代码为
(*)(*) 至 (*)
,我们在优采云采集器中分页设置中输入如下图的前后截取规则。完成列表页采集规则。
商户网址位于每个分页内,软件能自动识别页面代码中的网址链接,我们只需要为其设定过滤规则,商户网址均为:*,设定网址必须包含,但不能包含review,因为有点评页面网址为:*/review。完成内容页采集规则。
完成列表页与内容页的规则编写后,我们点击网址采集测试,共获得51个列表页,750个内容页,网址采集成功。
3.2 数据采集规则
打开“内容采集规则”,在标签列表中添加和编辑需要抓取数据的标签。我们这里共添加了10条标签,也就是在每个页面上采集的10项数据,包括店名、点评星级、点评数、人均消费、口味、服务、环境、经度、纬度、推荐菜。
在窗口右侧是数据获取规则与数据处理规则部分,我们以点评数为例。