excel抓取多页网页数据(获取Excel高手都在用的“插件合集+插件使用小技巧”!)

优采云 发布时间: 2021-10-01 09:01

  excel抓取多页网页数据(获取Excel高手都在用的“插件合集+插件使用小技巧”!)

  获取所有Excel高手都在使用的《插件集+插件使用技巧》!

  突发奇想,在知乎中搜索Excel,想学习一些文章的高级写法。

  

  看到这些标题,看完的时候,一下子就勾起了下载采集的欲望!

  如何抓住所有的高赞文章?

  一开始我想到了使用Python。

  想了想,好像用Power query可以实现,所以实现了如下效果。

  

  在表格中输入搜索词,然后右键刷新,即可得到搜索结果。

  

  你能理解我必须在表格中捕捉它吗?

  因为可以直接按照Excel中的“点赞数”排序!

  感觉像是在排队。去哪里排队,我是第一个,挑最好的!

  

  好了,话不多说,我们来看看这个表格是怎么做出来的。

  大致可以分为4个步骤:

  ❶ 获取JSON数据连接;

  ❷ 电源查询处理数据;

  ❸ 配置搜索地址;

  ❹ 添加超链接。

  01 操作步骤

  ❶ 获取JSON数据连接

  通常在浏览网页时,它是一个简单的网址。

  

  在网页中看到的数据实际上有一个单独的数据链接,可以在浏览器中找到。

  

  我们需要的数据链通常对应的是JSON格式的数据,如下图。

  

  查找方法需要进入开发者模式,然后查看数据的网络变化,找到xhr类型的链接,其中之一就是数据传输连接。

  

  将此链接复制下来,这是Power Query 将抓取数据的链接。

  ❷ 电量查询处理

  你可能不知道 Power Query 可以抓取 Excel 中的数据,

  您还可以抓取多种类型的数据,例如 SQL 和 Access:

  

  网站数据也是其中之一:

  

  将我们之前获取的链接粘贴到PQ中,该链接可以用来抓取数据。

  

  那么你得到的是网页的数据格式。具体的文章数据如何获取?

  Power Query 的强大之处在于它可以自动识别 json 的数据格式,并解析和提取特定内容。

  整个过程,我们不需要做任何操作,只需点击一下即可完成。

  

  我们此时得到的数据会有一些不必要的额外数据。

  例如:thumbnail_info(缩略图信息)、关系、问题、id.1等。

  

  删除它们,只保留文章 需要的标题、作者、超链接等。

  

  数据处理完成后,选择最开始的卡片,点击“关闭并上传”即可完成数据抓取,非常简单。

  

  ❸ 配置搜索地址

  但是,此时我们抓取的数据是固定的,没有办法根据我们输入的关键词进行更新。

  这是因为数据超链接中收录的搜索词尚未更新。

  

  所以在这一步中,我们需要配置这个数据链接,根据搜索词动态更新。

  在表中创建一个新数据,然后将其加载到 Power 查询中。

  

  然后获取搜索词并以变量的形式放入搜索地址中,搜索地址的配置就完成了。

  

  修改后的地址代码如下:

    getdata = (page)=>  let      keywords = 搜索词[ 搜索词]{0},      源 = Json.Document(Web.Contents("https://www.zhihu.com/api/v4/search_v3?t=general&q="& keywords & "&correction=1&offset="& Text.From(page*20) &"&limit=20&random=" & Text.From(Number.Random()))),      data = 源[data],      jsondata = Table.FromList(data, Splitter.SplitByNothing(), null, null, ExtraValues.Error)  in      jsondata,  转换为表 = Table.Combine(List.Transform({1..10}, getdata)),  

  ▲左右滑动查看

  ❹ 添加超链接

  到这一步,所有的数据都已经处理完毕,但是如果你想查看原创的知乎页面,你需要复制这个超链接并在浏览器中打开它。

  

  每次点击几次鼠标很麻烦;

  这里我们使用 HYPERLINK 函数来生成一个可点击的超链接,这样访问就容易多了。

  

  ❺ 最终效果

  最后的效果是:

  

  ❶ 输入搜索词;

  ❷ 右键刷新;

  ❸ 找到点赞数最高的那个;

  ❹点击【点击查看】,享受跳线的感觉!

  

  02 总结

  你知道在表格中搜索的好处吗?

  ❶ 按“点赞数”排序,按“评论数”排序;

  ❷ 如果你看过文章,可以加专栏写评论;

  ❸ 可以过滤自己喜欢的“作者”等。

  明白为什么,精英都被Excel控制了吧?

  现在大多数电子表格用户仍然使用 Excel 作为报告工具,绘制和绘制电子表格并编写公式。

  请记住以下 Excel 新功能。这些功能让Excel成长为功能强大的数据统计和数据分析软件,不再只是你印象中的报表。

  ❶强力查询:数据排序清理工具,搭载M强大的M语言,可以实现多表合并,也是本文的主要技术。

  ❷ Power Pivot:数据统计工具,可以自定义统计方法,实现数据透视表的多字段计算,自定义DAX数据计算方法。

  ❸ Power BI:强大易用的可视化工具,实现交互式数据呈现。是企业业务数据上报的优质解决方案。

  欢迎在留言区聊天:

  你还知道Excel还有哪些神奇的用途?

  您最希望 Excel 具有哪些功能?

  ...

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线