excel抓取网页数据(Python编程语言Excel爬虫函数学起来容易些什么?(图))

优采云 发布时间: 2022-01-10 07:04

  excel抓取网页数据(Python编程语言Excel爬虫函数学起来容易些什么?(图))

  近年来,Python编程语言非常流行,很多人使用Python开发网络爬虫工具。Python虽然简单,但学习起来并不容易,需要一定的基础。今天小编给大家介绍一个Excel爬虫功能,比较容易学习,可以满足数据采集在特定场景下的需求。

  

  有一个基金网页#qdiie,网页中有一个数据表格,如下图,需要将红框内标注的数据抓取到Excel表格中,并定期更新表格数据。

  

  爬取过程有六个步骤

  第一步是使用火狐或Chrome打开目标网页,右键查看代码找到表单的id。如果表格没有 id,请改用表格类样式。

  

  第二步,写公式=GetTableByIdW(B1,"flex_qdiie"),其中B1指的是要爬取的URL,“flex_qdiie”指的是网页中表格元素的id号。函数名中的 W 表示当前函数需要使用 Excel 浏览器。细心的朋友可能会有疑问,为什么要用Excel浏览器呢?原因是现在的网页越来越复杂,通过传统的HttpGet()或者HttpPost()方法无法读取完整的网页,所以需要使用浏览器来读取所有的网页数据。

  

  第三步,打开Excel浏览器,设置网页循环爬取任务。因为网页数据需要定期更新,所以需要Excel浏览器循环抓取网页。

  

  第四步,刷新Excel中的公式。这时候抓取函数会返回“flex_qdiie”表的所有数据,是一长串文本。可以发现,每一列用分号隔开,每一行用两个分号隔开。找到一个模式,我们可以使用 Split2Array() 函数来拆分和提取数据。

  513100;纳指etf;4.284;-0.93%;4228.65;29762;100;4.0850;20-11-16;4.0552;20-11-17;5.64%;会员;会员;会员;纳斯达克100;-0.30%;0.50%;0.50%;国泰基金;;164906;中国互联;1.994;-0.85%;556.36;8077;94;1.9950;20-11-16;1.9332;20-11-17;3.15%;-;-;-;中证海外中国互联网指数;-3.26%;1.20%;1.50%;交银施罗德;;513050;中概互联;2.080;-0.43%;13851.75;244643;-1300;2.1344;20-11-16;2.0605;20-11-17;0.95%;-;-;-;中国互联网50;-3.03%;0.50%;0.50%;易方达;;159822;新经济;1.024;-0.19%;1186.78;74473;-1500;1.0415;20-11-16;1.0269;20-11-17;-0.28%;-;-;-;标普中国新经济行业指数;-1.05%;;1.50%;银华基金;;159941;纳指etf;2.439;-1.01%;6268.25;39605;400;2.4695;20-11-16;2.4515;20-11-17;-0.51%;会员;会员;会员;纳斯达克100;-0.30%;0.50%;0.50%;广发基金;;513300;纳斯达克;0.991;-1.10%;2062.63;85267;-150;1.0042;20-11-16;0.9969;20-11-17;-0.59%;会员;会员;会员;纳斯达克100;-0.30%;0.50%;0.50%;华夏基金;;164824;印度基金;0.953;-0.52%;77.46;3293;-12;0.9669;20-11-16;0.9620;20-11-17;-0.94%;会员;会员;会员;印度etp指数;-;1.20%;1.50%;工银瑞信;;...

  第五步是拆分和提取数据。先拆分每一行的数据,再拆分每一列的数据。

  

  第六步,使用=AutoRefresh(120)公式设置定时刷新任务,每120秒自动刷新表数据。

  一共六步,完美抓取一张表的数据,实现自动定时刷新。有了实时数据,可以对数据进行处理和计算,达到监测预警的目的。怎么样,很简单,你可以写公式来进行网页数据采集。

  如果你觉得这个技巧有用,请帮忙转发给你的朋友

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线