铁胆优采云侠,数据抓取小能手

优采云 发布时间: 2022-06-25 13:46

  铁胆优采云侠,数据抓取小能手

  

  NOV

  17

  十秒看全文

  QUICK PREVIEW IN 10S

  1. 上一期“火锅大数据”获得一致好评。

  2. 优采云采集器成为数据抓取小能手。

  3. 数据采集方法详解:分析网页结构—新建采集任务—编写规则—数据采集与发布。

  双十一大家还过得吗?我们又回来了!上周我们分享的“重庆火锅与大数据”获得了大家的一致好评,阅读次数已经突破5500次。并且,重庆晨报、新浪重庆、重庆旅游局等媒体于11月10日对此进行了专版报道。简直受宠若惊!

  你们的喜爱与支持,让「GIS从零开始」收获了更多的关注,感谢你们!

  本周我们就讲如何利用优采云采集器抓取网络公开数据,成为数据抓取小能手。

  规划专业出身的我们,没有任何编程基础,不会写代码,不会写爬虫,抓取数据就让我们一个个扑街!

  

  但是,有需求就有市场!优采云采集器、优采云等数据抓取软件应运而生,成为我们的得力小帮手。

  优采云采集器的采集逻辑是根据采集规则对网页源代码进行抓取,其中主要步骤为:

  分析网页结构 — 新建采集任务 — 编写规则 — 数据采集 — 数据发布。

  下面我们以采集大众点评网重庆火锅店数据为例进行演示操作。

  操作软件:优采云采集器、Excel、搜狗浏览器

  一、 分析网页结构

  大众点评网页信息结构清晰,我们很容易就能找到点评信息、位置信息、推荐菜品等信息。通过查看网页源文件,找到每项信息在源代码中的位置,做好标记备用。

  

  二、 新建采集任务

  在优采云采集器官网下载软件,安装并注册账号,免费版本即可满足我们的一般需求。

  

  登陆后,新建任务开始我们的数据采集之旅。

  三、 编写规则

  优采云采集器的规则分为三部分:网址采集规则—数据采集规则—数据发布规则。

  3.1 网址采集规则

  每家火锅店的信息都位于独立的网页中,我们需要批量采集每家火锅店的网址。

  打开渝中区火锅店网页,第一步需要采集每个分页的网址即列表页,第二步采集每个分页中商户的网址即内容页。

  在网页源代码中发现,分页网址前后起止代码为

  (*)(*) 至 (*)

  ,我们在优采云采集器中分页设置中输入如下图的前后截取规则。完成列表页采集规则。

  商户网址位于每个分页内,软件能自动识别页面代码中的网址链接,我们只需要为其设定过滤规则,商户网址均为:*,设定网址必须包含,但不能包含review,因为有点评页面网址为:*/review。完成内容页采集规则。

  完成列表页与内容页的规则编写后,我们点击网址采集测试,共获得51个列表页,750个内容页,网址采集成功。

  3.2 数据采集规则

  打开“内容采集规则”,在标签列表中添加和编辑需要抓取数据的标签。我们这里共添加了10条标签,也就是在每个页面上采集的10项数据,包括店名、点评星级、点评数、人均消费、口味、服务、环境、经度、纬度、推荐菜。

  在窗口右侧是数据获取规则与数据处理规则部分,我们以点评数为例。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线