excel抓取多页网页数据(PowerQuery可以用来抓取股票页数,就是要注意几个细节)
优采云 发布时间: 2022-03-04 07:01excel抓取多页网页数据(PowerQuery可以用来抓取股票页数,就是要注意几个细节)
女神节股市非常不稳定,可以下载数据留作纪念。Power Query 可以用来抓取股票信息,只需要注意几个细节:
先找到你需要的数据的网站,证券之星、同花顺、东方财富、新浪财经等。很多网站都有市场中心,提供当天和历史的股市信息信息查询。这个信息是公开的,可以匿名访问下载,但是有个问题,网站会有反爬机制,如果访问太频繁,就会断开连接,或者抓到太多数据一时间,它也会被封锁。断开。
接下来就是看看哪些网站可以被抓到,哪些不能被抓?
第一类:提供特定网页静态网址的可以被爬取
第二种:地址栏只提供主站地址,但可以找到具体页面的URL。
张二种url应该是可以爬到的,有些第二类不行,因为下面的Request中收录了网站发出的随机码,没有任何规则是爬不出来的。
还有如何延迟抓取,模仿人类速度
Power Query 提供了一个 M 函数 Function.InvokeAfter 可以延迟程序的运行。这个函数有两个参数。它前面是一个函数,后面是一个延迟间隔。
该函数的用法与其他函数略有不同:
在函数中,你需要使用“=>”来翻转它。右下角刷新时会有明显的延迟。
在爬取过程中使用这个函数,这样写
最后,当页面数量较多时,需要单独爬取
我测试了几个网站。爬取信息时,如果页面过多,则会被拒绝。一般来说,30页左右,应该可以接受。也可以根据实际情况自己试一试。
这是一个爬取 5 个页面的示例。所有A股股票市场信息超过2700行。如果每页有 20 行,就会有 100 多页。分5次,刮即可。
最好将抓取到的信息转移到本地文件中,否则刷新数据会很慢,很容易被网站拒绝访问。上图是我3月8日截取的A股股票信息,导入Power BI的可视化图表。