excel自动抓取网页数据( 认识Excel的强大功能在知乎里面搜索一下Excel,想学习一些高点赞文章的写作方法 )
优采云 发布时间: 2021-11-18 20:07excel自动抓取网页数据(
认识Excel的强大功能在知乎里面搜索一下Excel,想学习一些高点赞文章的写作方法
)
今天的目标:
了解 Excel 的强大功能
突发奇想,在知乎中搜索Excel,想学习一些文章的高级写法。
看到这些标题,看完的时候,一下子就勾起了下载采集的欲望!
如何抓住所有的高赞文章?
一开始我想到了使用Python。想了想,好像用Power query可以实现,所以实现了如下效果。
在表格中输入搜索词,然后右击刷新,即可得到搜索结果。
你能理解我必须在表格中捕捉它吗?
因为可以直接按照Excel中的“点赞数”排序!
感觉像是在排队。去哪里排队,我都是第一个,挑最好的!
好了,话不多说,我们来看看这个表格是怎么做出来的。
大致可以分为4个步骤:
1-获取JSON数据连接
2-电源查询处理数据
3-配置搜索地址
4- 添加超链接
1-操作步骤1-获取JSON数据连接
通常在浏览网页时,它是一个简单的网址。
在网页中看到的数据实际上有一个单独的数据链接,可以在浏览器中找到。
我们需要的数据链通常对应的是JSON格式的数据,如下图。
查找方法需要进入开发者模式,然后查看数据的网络变化,找到xhr类型的链接,其中之一就是数据传输连接。
将此链接复制下来,这是 Power Query 将获取数据的链接。
2-电源查询处理
你可能不知道,除了 Excel 中的数据,Power Query 还可以捕获 SQL 和 Access 等多种类型的数据:
网站数据也是其中之一:
把我们之前得到的链接粘贴到PQ中,这个链接就可以用来抓取数据了。
那么你得到的是网页的数据格式。具体的文章数据如何获取?
Power Query 的强大之处在于它可以自动识别 json 数据格式,并解析和提取特定内容。
整个过程,我们不需要做任何操作,只需点击一下即可完成。
我们此时得到的数据会有一些不必要的额外数据。
例如:thumbnail_info(缩略图信息)、关系、问题、id.1 等。
删除它们,只保留文章 需要的标题、作者、超链接等。
数据处理完成后,选择最开始的卡片,点击“关闭并上传”即可完成数据抓取,非常简单。
3-配置搜索地址
但是,此时我们抓取的数据是固定的,没有办法根据我们输入的关键词进行更新。
这是因为数据超链接中收录的搜索词尚未更新。
所以在这一步,我们需要配置这个数据链,根据搜索词动态更新。
在表中创建一个新数据,然后将其加载到 Power 查询中。
然后获取搜索词并以变量的形式放入搜索地址中,搜索地址的配置就完成了。
修改后的地址代码如下:
getdata = (page)=><br />let<br />keywords = 搜索词[ 搜索词]{0},<br />源 = Json.Document(Web.Contents("https://www.zhihu.com/api/v4/search_v3?t=general&q="& keywords & "&correction=1&offset="& Text.From(page*20) &"&limit=20&random=" & Text.From(Number.Random))),<br />data = 源[data],<br />jsondata = Table.FromList(data, Splitter.SplitByNothing, , , ExtraValues.Error)<br />in<br />jsondata,<br />转换为表 = Table.Combine(List.Transform({1..10}, getdata)),
4- 添加超链接
到这一步,所有的数据都已经处理完毕,但是如果你想查看原来的知乎页面,你需要复制这个超链接在浏览器中打开。
每次点击几次鼠标很麻烦。这里我们使用HYPERLINK函数来生成一个可点击的超链接,这样访问就会简单很多。
5- 最终效果
最后的效果是:
1-输入搜索词
2-右击刷新
3-找到最喜欢的
4-点击“点击查看”,享受跳线的感觉!
2- 总结
你知道在表格中搜索的好处吗?
1- 按“点赞数”排序并按“评论数”排序
2- 已阅读的文章,可以加栏写备注
3-您可以过滤您最喜欢的“作者”等。
明白为什么,精英都被Excel控制了吧?
现在大部分电子表格用户仍然使用Excel作为报表工具,画画画电子表格,写公式,仅此而已。
请记住以下 Excel 的新功能。这些功能让 Excel 成长为功能强大的数据统计和数据分析软件,它不再只是您脑海中的报表。
1-强力查询:数据排序清理工具,搭载M强大的M语言,可以实现多表合并,这也是本文的主要技术。
2- Power Pivot:数据统计工具,可以自定义统计方法,实现数据透视表多字段计算,自定义DAX数据计算方法。
3- Power BI:强大易用的可视化工具,实现交互式数据展示。是企业业务数据上报的优质解决方案。
3- 更多资源
最后,我想强调
我们是专业的Excel培训机构
秋叶 Excel
想*敏*感*词*回答问题?
扫描二维码添加“秋E”,就有机会参与“秋叶Excel免费专业咨询”活动,在线为您答疑解惑。
我是会设计电子表格的Excel老师拉小邓