从网页抓取数据( Excel教程Excel函数Excel透视表Excel电子表格数据爬取的方法)
优采云 发布时间: 2021-10-09 07:13从网页抓取数据(
Excel教程Excel函数Excel透视表Excel电子表格数据爬取的方法)
今天的目标:
学习使用 Excel 抓取网页数据
昨天有个女同学问:
大致意思是这样的:
1- 女,文科生,大三不上课
2-我觉得Python是一种趋势,不学就过时了
3- 我想学习 Python,我从哪里开始?
很明显,朋友圈里面的python广告太多了。
想学数据爬虫,为什么要用python?只需使用Excel。
Excel内置了强大的数据处理神器Power Query 2016及以后版本,可以直接抓取Excel中的数据。
今天给大家介绍两种方法:
第一种方法是方法1。
第二种方法是方法2。
这个怎么样?很棒,对吧?
方法一
两种方法的区别主要取决于网页的结构。
如果网页中的数据使用table标签,那么直接导入网页就可以了。
比如,我们经常在豆瓣上查看即将上映的电影列表。这是一个带有表格标签的网页。
网页地址为:
使用Excel取数据的步骤是这样的。
步骤 1-Excel 导入网页数据
在“数据”选项卡中,单击“来自其他来源”和“来自 网站”。
2- 粘贴网址
在弹出的对话框中,粘贴上面的网址,点击“确定”
3- 加载表数据
此时,您将看到的是 Power Query 的界面。
在窗口左侧的列表中,选择table0,可以在右侧看到Power Query自动识别的表数据。
4- 将数据加载到 Excel
单击“加载”将网页数据抓取到表格中。
使用Power Query的好处是,如果网页中的数据有更新,在导入的结果上右键“刷新”即可同步数据。
注意
这是网页中收录 table 标记的数据。
这意味着什么?就是网页中的数据,本来就是表格结构。这种方法与直接复制网页数据粘贴到表格中是一样的。
对于那些不是表格标签的网页数据,这种方法并不好用。
如何识别网页是否为表格标签?很简单,选择任意数据,在网页上右击,选择“检查”。
然后你会看到网页的源代码。你不需要理解它。只要您在当前突出显示的代码中看到以下任何标记,就表示该网页使用了 table 标记。您可以使用此方法。
如果没有,则继续查看方法 2。
方法二
使用表格标签来保存数据已经是一种非常古老的网络技术。现在大多数网页都使用更丰富、更灵活的标签,例如 div 和 span 来呈现数据。
这种网页不容易直接导入。
比如我经常读“知乎”,但是他们的网页上没有表格。
使用方法1将其导入Power query。如果左边没有表格数据,将很难捕捉。
那我们该怎么办呢?
这时候会直接抓到数据包。
本质上,网页中的数据被打包成一个数据包。网页发送后,网页读取数据包进行渲染。
这个数据包常用的格式是JSON,所以我们只需要抓取JSON数据包就可以实现网页数据的抓取。
不管他,这一切都已经完成了。
《下方高能预警》,不明白的可以跳到方法三。
脚步
我们以知乎搜索Excel问题为例。
1- 识别数据包
首先,右键单击页面并选择“检查”。
然后,右侧会出现网页调试窗口,然后点击“网络”“xhr”,可以看到其中的所有数据传输记录。
尝试在知乎中搜索“Excel”,可以看到数据传输。
向下滚动页面,当您在右侧的列表中看到“search_v3?t=”时,抓住它。这就是我们需要的数据包。
2-复制数据包链接
然后,右击这个数据包,选择“复制链接地址”,复制数据包的链接。
3-导入json数据
然后进入Excel操作界面。在“数据”选项卡中,点击“来自其他来源”和“来自网站”,粘贴数据包的链接。
单击确定后,您将进入 Power Query 界面。
数据包的结构就像我们的“文件夹”。数据根据类别存储在不同的“子文件夹”中。
打开数据包“文件夹”的方法是在数据上右击,选择“深度”。
单击数据上的“深入”以查找我们的数据。
4-批量读取数据
最后写几个简单的函数来批量读取“子文件”数据。
在“主页”选项卡中,单击“高级编辑器”打开函数编辑窗口。
通过编写几个简单的函数,我们就完成了数据的抓取。
最终捕获的数据如下:
进阶玩法
当然,如果你对Power Query比较熟悉,可以在上面的基础上添加参数,根据表格中的“搜索词”进行实时搜索知乎文章 ,一键刷新统计结果。
方法三
专业的东西留给专业的工具。
Power Query 是专业的数据排序插件,不是数据爬取软件,所以方法二,你可能会觉得有点费劲。
在爬虫领域,还是需要专业的软件,比如“优采云采集器”。只需点击几下按钮,即可轻松完成数据采集。.
脚步
打开“优采云采集器”,在“URL”栏中粘贴知乎的搜索URL,如:
然后点击“Smart采集”,然后优采云采集器会自动识别网页中的数据,等待识别完成。
识别完成后,点击“开始采集”,开始爬取数据。
爬取完成后,在弹出的对话框中点击“导出”,数据会自动以表格的形式保存。
总结
专业的事情是用专业的工具来完成的。
1- 使用 Power Query 轻松抓取的简单表单网页。
2-对于复杂的网页,使用爬虫软件也是点击一个按钮的事情。