EXCEL逆天爬虫神器,抓取网站数据就这么简单!
优采云 发布时间: 2022-05-04 23:09EXCEL逆天爬虫神器,抓取网站数据就这么简单!
大家好,我是IT老雷,每天跟大家学一点EXCEL。
在这大数据时代,爬虫这个词大家应该不陌生吧,爬虫被很多人用来收集数据,一直都是程序员的专属,不过EXCEL也自带了基础的爬虫功能,能够轻松抓取单页网站数据。
下面我们来尝试着爬取城市房产网站的数据:
01
连接数据源
选择数据选项卡,点击获取数据,然后选择自其他源的“自网站”,弹出如下窗口:
这里弹出的窗口中有两个选项一个是基本只需输入网址全由EXCEL自行处理,另外一是高级,这里我们可以设置更详细的信息,这里常用于分页的抓取。然后我们直接在“基本”上面输入相关网址。
02
导入数据
在确认后,如果能抓取数据的话,会有如上一个展示,我也尝试过一些数据不是放在TABLE标签里面的网站,好像是抓取不了,大家再自行可以尝试一下。
找到数据后选择相应的TABLE选项,然后点窗口底部的加载。
03
清洗数据
爬虫的最后一步就是数据清洗,比如将内容过滤、分列、删除等等。如图同比那一列数据是百分比,而我们抓到的数据并非是百分比数据,所以我们要对其进行调整,我们选中这一列的数据,右键单元格格式,然后设置成百分比,就可以获得正常的数据了。
是不是很简单呢,不过爬数据是不好的行为,在此仅供学习使用,未经允许千万不要乱爬。
关注“IT老雷”