数据可视化的数据从那里来?
优采云 发布时间: 2020-08-14 18:26无论是做数据剖析,数据挖掘还是机器学习,对于菜鸟来说,学习再多的模型、算法理论,可能都不如一次实践学到的多,所以帆软君时常建议你们在学习的过程中多通过实战项目练练手,加强对算法、模型的理解。
要练手上哪找数据呢?数据来源主要有两个部份。
爬虫作为目前用的较多的数据爬取方式早已有很多教程了,但是对于没有代码基础的同事来说短期上手python还是太难得。
因此明天就帆软君分别给你们介绍一下免费的数据源网站和一些零基础小白也可以应用的数据爬取工具~
一、免费的数据源网站1、简单、公开的数据集
先分享一些科研机构、企业、政府会开放的一些数据集和一些专业的数据下载网站。这些数据集通常都比较健全、质量相对较高,拿到手数据清洗的工作比较少,适合菜鸟做一些简单基础的剖析
1)中国统计信息网:/
全国各级政府各年度的国民经济和社会发展统计信息,部分数据免费
2)国家统计局:/
各种民生相关的统计数据,而且所有数据都是免费,而且这个网站的友情链接里还有好多其他地方的数据以及美国数据。
3)中国产业信息网:/data/
收录了各个行业相关的数据,所有的数据全部免费,做行业剖析常常用到的
4)美国政府公开数据:/
美国政府公开数据的网站,收录了经济、消费、教育、医疗、农业等多个领域的数据
5)世界银行:/
世界银行的开放数据。平台还提供了一些工具,比如开放数据目录,世界发展指数,教育指数等。
6)百度数据开放平台:/open/#/open
7)国云数据市场:/data-market/
主要收录:生活服务、教育、能源、建筑、交通运输、政府、金融、农业、医疗、卫生等行业的数据,大部分免费,有些须要付费
2、数据可视化项目数据集
最常见的数据可视化项目就是制做某甲地区人均收入区别的信息图,找数据可视化项目相关的数据集的时侯,我们希望数据集尽量“干净”,减少数据清洗的工作,数据要足够有趣,能够支撑起丰富的图表,所以这类的数据可以去里面我的说一些公开数据网站找,另外我也列一些不仅政府网站之外的相关网站:
1)FiveThirtyEight:/
这是互动式新闻与体育比赛的网站,网站中会发布许多数据相关的文章,这些文章中会把使用到的数据集发布在github上,除了获取数据集,你还可以参考他人的项目过程
2)Socrata OpenData:/
Socrata OpenData 网站收录多个清洗后的数据集,可以直接在浏览器中查看,也可以下载到本地进行可视化,大部分数据来源于美国政府。
3、数据建模、机器学习的数据集
1)UCI:/ml/datasets.html
UCI是加州大学欧文分校开放的精典数据集,是机器学习领域最有名的数据储存库。收录各类数据集,比如精典的泰坦尼克号幸存预测到最新的数据(如空气质量和GPS轨迹)。
2)阿里天池:/
作为国外互联网龙头阿里巴巴旗下的大数据大赛网站,提供了好多联赛数据集可以练手,说不定能够顺手拿个奖,赚点奖金
3)Kaggle:/datasets
Kaggle 是一个举行了多项机器学习大赛的数据科学社区。用户可以自己上传数据集,也可以通过某项大赛下载数据集,里面有不少别的平台找不到的有趣数据集。
4)科赛网:/home/project
这个网站提供了不少数据集可以免费下载,而且还有一些数据项目的赛事,不过整体来说项目的难度比较低,奖金也不是好多,学生出席的比较多,反正单纯拿来获取数据集还是很不错的
5)Quandl
这是一个收录经济与金融数据的库房。其中的部份信息是免费的,但是大部分数据集须要订购,数据可以拿来建立经济指标预测或则股价剖析模型等等。
4、大型数据集
有时候你可能只是想找一些小型的数据集来进行剖析,分析的结果可能并不重要,重要的只是对于数据的读取与剖析过程,练习数据处理能力,这里我也列出几个用的比较多的网站:
1)AWS 公开数据集:/aws
亚马逊在其 Amazon Web Services 中提供了一些小型数据集可以免费下载,不过你得注册一个aws帐户,新用户有免费访问的权限
2)Google 公开数据集:/bigquery/public-data/
Google提供了一些数据集作为其Big Query工具的一部分。包括 GitHub 公共资料库的数据,Hacker News 的所有故事和评论。
3)Youtube标签视频数据集:/youtube8m/
Youtube标签视频数据集包括来自4800个可视化实体的800万个YouTube视频ID和相关标签。它具有数十亿帧的预估算的、最先进的视觉功能。
二、数据爬取工具1、Microsoft Excel
没错, Excel可以拿来做数据爬取。虽然好多晓得Excel可以拿来做数据剖析,但极少有人晓得它能够拿来爬数
2、优采云采集器
官网地址:/
优采云是爬虫界的元老了,是目前使用人数最多的互联网数据抓取软件。它的优势是采集不限网页,不限内容,同时还是分布式采集,效率会高一些。不过它规则和操作设置在我看来有一些生硬,对小白用户来说上手也有点困难,需要有一定的网页知识基础
3、Google Sheet
使用Google Sheet爬取数据前,要保证三点:使用Chrome浏览器、拥有Google帐号、电脑已翻墙。
4、优采云采集器
网站:/
优采云采集器是用过最简单易用的采集器,很适宜菜鸟使用。采集原理类似优采云采集器,用户设定抓取规则,软件执行。优采云的优点是提供了常见抓取网站的模板,如果不会写规则, 就直接用套用模板就好了。
它是基于浏览器内核实现可视化抓取数据,所以存在卡顿、采集数据慢的现象。不过整体来说还是不错的,毕竟能基本满足菜鸟在短时间抓取数据的场景,比如翻页查询,Ajax 动态加载数据等。
5、GooSeeker 集搜客
网站:/
集搜客也是一款容易上手的可视化采集数据工具。同样能抓取动态网页,也支持可以抓取手机网站上的数据,还支持抓取在指数图表上漂浮显示的数据。集搜客是以浏览器插件方式抓取数据。虽然具有上面所述的优点,但缺点也有,无法多线程采集数据,出现浏览器卡顿也在所难免。
6、WebScraper
网址:webscraper.io/
WebScraper 是一款优秀加拿大的浏览器插件。同样也是一款适宜菜鸟抓取数据的可视化工具。我们通过简单设置一些抓取规则,剩下的就交给浏览器去工作。
7、Scrapinghub
地址:/
如果你想抓取美国的网站数据,可以考虑 Scrapinghub。它是一个基于Python 的 Scrapy 框架的云爬虫平台,安装和布署蛮简单的,但是操作界面是纯中文的,不太友好,而且性价比不高,它提供的每位工具都是单独收费的。