动态网页抓取(之前写过一篇使用爬虫抓取暗黑3玩家数据的意义 )
优采云 发布时间: 2021-09-29 02:09动态网页抓取(之前写过一篇使用爬虫抓取暗黑3玩家数据的意义
)
我写了一篇关于使用爬虫抓取暗黑破坏神3玩家数据的文章。由于凯恩之角的数据一直不更新,所以爬虫意义不大。
其实官方网站也可以看到玩家数据。没去爬的原因是……网页的源代码和网页上显示的数据不一样。直到最近我才知道这是一个动态网页。
百度了半天,感觉有一个比较简单的方法,就是F12使用开发者工具查找网页加载时发送的请求url。
比如我要爬取玩家“可乐和冰5750”的数据,他的个人数据页面是:
可乐加冰 5750
我们使用开发者工具,点击其中一个字符进入任务详情页面:
通过请求url,我们可以看到这是一个编号为id48423858的字符的数据。稍微改一下,删除hero/48423858,就可以看到
虽然我们在网页上看不到任何东西,但我们查看了网页的源代码,惊喜地发现里面有“可乐和冰5750”的所有字符数据
好的,让我们抓住它
明天星期三没有课。我打算花几天的时间写一个爬取任何一个玩家的信息(前提是玩家的BattleTag是已知的),包括角色的主要属性、装备和词缀,以及一些玩家的职业数据。争取一个友好的界面。工作量一定比以前大,希望一切顺利
这个学期的最终目标是学习数据库。希望爬虫得到的数据能写入我的数据库。比如我可以统计整个服务器前1000名玩家的产出和抽取。