excel抓取多页网页数据( Excel教程Excel函数Excel透视表Excel电子表格数据爬取的方法)
优采云 发布时间: 2022-04-18 03:13excel抓取多页网页数据(
Excel教程Excel函数Excel透视表Excel电子表格数据爬取的方法)
今天的目标:
学习使用 Excel 抓取 Web 数据
昨天,一位女学生问:
大致意思是这样的:
1- 女,文科生,大三无课
2-我觉得Python是一种趋势,不学就会落伍
3-想学习Python,从哪里开始?
显然,我在朋友圈看到了太多的python广告。
想学数据爬虫,怎么用python?只需使用 Excel。
Excel从2016年开始构建了强大的数据处理神器Power Query,可以直接在Excel中实现数据爬取。
今天给大家介绍两种方法:
第一种方法是方法1。
第二种方法是方法2。
这个怎么样?太好了,对吧?
方法一
两种方法的区别主要取决于网页的结构。
如果网页中的数据使用table标签,可以直接导入网页。
例如,我们经常在豆瓣上观看即将上映的电影列表。这是一个带有表格标签的网页。
网页地址是:
使用 Excel 抓取数据的步骤如下。
操作步骤 1- Excel 导入网页数据
在数据选项卡中,单击来自 网站 的其他来源。
2-粘贴网址
在弹出的对话框中,粘贴以上网址,点击“确定”
3-加载表数据
这时候,你会看到的是Power Query的界面。
在窗口左侧的列表中选择table0,右侧可以看到Power Query自动识别的表数据。
4- 将数据加载到 Excel
单击“加载”将网页数据抓取到表格中。
使用Power Query的好处是,如果网页中的数据有更新,在导入结果上单击鼠标右键,“刷新”即可同步数据。
注意
这是网页中收录表格标签的数据。
这意味着什么?就是网页中的数据,本来就是表格结构。此方法与直接复制网页数据并粘贴到表格中相同。
对于那些不是表格标签的网页数据,这种方法效果不佳。
如何识别网页是否为表格标签?很简单,选择任意数据,然后在网页上右击,选择“Inspect”。
然后你会看到网页的源代码,你不需要看懂,只要你看到当前高亮的代码中收录以下任何一个标签,就说明网页使用了table标签,你可以使用这个方法。
如果不是,则继续方法 2。
方法二
使用表格标签保存数据是一项非常古老的 Web 技术。当今的大多数网页都使用 div 和 span 等格式更丰富、更灵活的标签来呈现数据。
这种网页不容易直接导入。
例如,我经常阅读的“知乎”,他们的网站上没有一个表格。
使用方法 1 将其导入 Power 查询。如果左边没有表数据,就不好爬了。
那我们该怎么办?
这时候就需要直接抓取数据包了。
本质上,网页中的数据会被打包成一个数据包。发送网页后,网页会读取数据包进行渲染。
这个数据包常用的格式是JSON,那么我们只要抓到JSON数据包也可以实现网页数据抓包。
不管他,他已经完成了。
《下面的高能警告》,不明白的可以跳到方法3。
脚步
我们以 知乎 搜索 Excel 问题为例。
1-识别数据包
首先,右键单击页面并选择“检查”。
然后,右侧会出现网页调试窗口,然后点击“网络”“xhr”,在这里可以看到所有的数据传输记录。
尝试在知乎中搜索“Excel”,可以看到数据传输。
向下滚动页面,当您在右侧列表中看到“search_v3?t=”时,抓住它,这就是我们需要的数据包。
2-复制数据包链接
然后在数据包上,右键单击并选择“复制链接地址”以复制数据包的链接。
3-导入json数据
接下来,您将进入Excel操作界面。在“数据”选项卡中,单击“来自其他来源”和“来自网站”,并粘贴数据包的链接。
单击确定后,您将进入 Power Query 界面。
数据包的结构就像我们的“文件夹”,数据按照类别存放在不同的“子文件夹”中。
打开数据包“文件夹”的方法是在数据上右击,选择“加深”。
依次点击数据上的“加深”即可找到我们的数据。
4-批量读取数据
最后,写几个简单的函数,批量读取“子文件”数据。
在主页选项卡上,单击高级编辑器以打开函数编辑窗口。
写几个简单的函数,我们就完成了数据采集。
最终捕获的数据如下:
进阶玩法
当然,如果你对Power Query比较熟悉,可以在上面的基础上添加参数,可以根据表格中的“搜索词”实时搜索知乎文章,并一键刷新统计结果。
方法三
专业的事情交给专业的工具去做。
Power Query是专业的数据整理插件,不是数据爬虫软件,所以方法2可能你看的有点难。
在爬虫领域,还是需要专业的软件,比如“优采云采集器”。只需单击几下按钮,即可轻松完成数据抓取。.
脚步
打开“优采云采集器”,在“URL”字段中粘贴知乎的搜索URL,如:
然后点击“智能采集”,然后优采云采集器会自动识别网页中的数据,等待识别完成。
识别完成后,点击“开始采集”,开始爬取数据。
爬取完成后,在弹出的对话框中点击“导出”,数据自动以表格形式保存。
总结
专业的事情,交给专业的工具去做。
1- 简单的表格网页,使用 Power Query 抓取,易于使用。
2-对于复杂的网页,使用爬虫软件也是点击按钮的事情。