excel抓取多页网页数据(PowerQuery可以用来抓取股票页数,就是要注意几个细节)

优采云 发布时间: 2022-03-04 07:01

  excel抓取多页网页数据(PowerQuery可以用来抓取股票页数,就是要注意几个细节)

  女神节股市非常不稳定,可以下载数据留作纪念。Power Query 可以用来抓取股票信息,只需要注意几个细节:

  先找到你需要的数据的网站,证券之星、同花顺、东方财富、新浪财经等。很多网站都有市场中心,提供当天和历史的股市信息信息查询。这个信息是公开的,可以匿名访问下载,但是有个问题,网站会有反爬机制,如果访问太频繁,就会断开连接,或者抓到太多数据一时间,它也会被封锁。断开。

  接下来就是看看哪些网站可以被抓到,哪些不能被抓?

  第一类:提供特定网页静态网址的可以被爬取

  

  第二种:地址栏只提供主站地址,但可以找到具体页面的URL。

  

  张二种url应该是可以爬到的,有些第二类不行,因为下面的Request中收录了网站发出的随机码,没有任何规则是爬不出来的。

  

  还有如何延迟抓取,模仿人类速度

  Power Query 提供了一个 M 函数 Function.InvokeAfter 可以延迟程序的运行。这个函数有两个参数。它前面是一个函数,后面是一个延迟间隔。

  

  该函数的用法与其他函数略有不同:

  

  在函数中,你需要使用“=>”来翻转它。右下角刷新时会有明显的延迟。

  

  在爬取过程中使用这个函数,这样写

  

  最后,当页面数量较多时,需要单独爬取

  我测试了几个网站。爬取信息时,如果页面过多,则会被拒绝。一般来说,30页左右,应该可以接受。也可以根据实际情况自己试一试。

  

  这是一个爬取 5 个页面的示例。所有A股股票市场信息超过2700行。如果每页有 20 行,就会有 100 多页。分5次,刮即可。

  

  最好将抓取到的信息转移到本地文件中,否则刷新数据会很慢,很容易被网站拒绝访问。上图是我3月8日截取的A股股票信息,导入Power BI的可视化图表。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线