从网页抓取数据( Excel教程Excel函数Excel透视表Excel电子表格数据爬取的方法)

优采云 发布时间: 2021-10-09 07:13

  从网页抓取数据(

Excel教程Excel函数Excel透视表Excel电子表格数据爬取的方法)

  

  今天的目标:

  学习使用 Excel 抓取网页数据

  昨天有个女同学问:

  

  大致意思是这样的:

  1- 女,文科生,大三不上课

  2-我觉得Python是一种趋势,不学就过时了

  3- 我想学习 Python,我从哪里开始?

  很明显,朋友圈里面的python广告太多了。

  想学数据爬虫,为什么要用python?只需使用Excel。

  Excel内置了强大的数据处理神器Power Query 2016及以后版本,可以直接抓取Excel中的数据。

  

  今天给大家介绍两种方法:

  第一种方法是方法1。

  第二种方法是方法2。

  这个怎么样?很棒,对吧?

  

  方法一

  两种方法的区别主要取决于网页的结构。

  如果网页中的数据使用table标签,那么直接导入网页就可以了。

  比如,我们经常在豆瓣上查看即将上映的电影列表。这是一个带有表格标签的网页。

  

  网页地址为:

  使用Excel取数据的步骤是这样的。

  步骤 1-Excel 导入网页数据

  在“数据”选项卡中,单击“来自其他来源”和“来自 网站”。

  

  2- 粘贴网址

  在弹出的对话框中,粘贴上面的网址,点击“确定”

  

  3- 加载表数据

  此时,您将看到的是 Power Query 的界面。

  在窗口左侧的列表中,选择table0,可以在右侧看到Power Query自动识别的表数据。

  

  4- 将数据加载到 Excel

  单击“加载”将网页数据抓取到表格中。

  

  使用Power Query的好处是,如果网页中的数据有更新,在导入的结果上右键“刷新”即可同步数据。

  

  注意

  这是网页中收录 table 标记的数据。

  这意味着什么?就是网页中的数据,本来就是表格结构。这种方法与直接复制网页数据粘贴到表格中是一样的。

  对于那些不是表格标签的网页数据,这种方法并不好用。

  如何识别网页是否为表格标签?很简单,选择任意数据,在网页上右击,选择“检查”。

  

  然后你会看到网页的源代码。你不需要理解它。只要您在当前突出显示的代码中看到以下任何标记,就表示该网页使用了 table 标记。您可以使用此方法。

  如果没有,则继续查看方法 2。

  

  方法二

  使用表格标签来保存数据已经是一种非常古老的网络技术。现在大多数网页都使用更丰富、更灵活的标签,例如 div 和 span 来呈现数据。

  这种网页不容易直接导入。

  比如我经常读“知乎”,但是他们的网页上没有表格。

  

  使用方法1将其导入Power query。如果左边没有表格数据,将很难捕捉。

  

  那我们该怎么办呢?

  

  这时候会直接抓到数据包。

  本质上,网页中的数据被打包成一个数据包。网页发送后,网页读取数据包进行渲染。

  这个数据包常用的格式是JSON,所以我们只需要抓取JSON数据包就可以实现网页数据的抓取。

  不管他,这一切都已经完成了。

  《下方高能预警》,不明白的可以跳到方法三。

  脚步

  我们以知乎搜索Excel问题为例。

  1- 识别数据包

  首先,右键单击页面并选择“检查”。

  

  然后,右侧会出现网页调试窗口,然后点击“网络”“xhr”,可以看到其中的所有数据传输记录。

  

  尝试在知乎中搜索“Excel”,可以看到数据传输。

  

  向下滚动页面,当您在右侧的列表中看到“search_v3?t=”时,抓住它。这就是我们需要的数据包。

  

  2-复制数据包链接

  然后,右击这个数据包,选择“复制链接地址”,复制数据包的链接。

  

  3-导入json数据

  然后进入Excel操作界面。在“数据”选项卡中,点击“来自其他来源”和“来自网站”,粘贴数据包的链接。

  

  单击确定后,您将进入 Power Query 界面。

  

  数据包的结构就像我们的“文件夹”。数据根据类别存储在不同的“子文件夹”中。

  打开数据包“文件夹”的方法是在数据上右击,选择“深度”。

  

  单击数据上的“深入”以查找我们的数据。

  

  4-批量读取数据

  最后写几个简单的函数来批量读取“子文件”数据。

  在“主页”选项卡中,单击“高级编辑器”打开函数编辑窗口。

  

  通过编写几个简单的函数,我们就完成了数据的抓取。

  

  最终捕获的数据如下:

  

  进阶玩法

  当然,如果你对Power Query比较熟悉,可以在上面的基础上添加参数,根据表格中的“搜索词”进行实时搜索知乎文章 ,一键刷新统计结果。

  

  方法三

  专业的东西留给专业的工具。

  Power Query 是专业的数据排序插件,不是数据爬取软件,所以方法二,你可能会觉得有点费劲。

  在爬虫领域,还是需要专业的软件,比如“优采云采集器”。只需点击几下按钮,即可轻松完成数据采集。.

  脚步

  打开“优采云采集器”,在“URL”栏中粘贴知乎的搜索URL,如:

  

  

  然后点击“Smart采集”,然后优采云采集器会自动识别网页中的数据,等待识别完成。

  

  识别完成后,点击“开始采集”,开始爬取数据。

  

  爬取完成后,在弹出的对话框中点击“导出”,数据会自动以表格的形式保存。

  

  总结

  专业的事情是用专业的工具来完成的。

  1- 使用 Power Query 轻松抓取的简单表单网页。

  2-对于复杂的网页,使用爬虫软件也是点击一个按钮的事情。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线