网页数据抓取怎么写(我正在为一个数据科学101项目搜集曲棍球参考资料)
优采云 发布时间: 2022-04-05 20:06网页数据抓取怎么写(我正在为一个数据科学101项目搜集曲棍球参考资料)
我正在为数据科学 101 项目采集曲棍球参考资料。我遇到了特定表的问题。它的网页是:. 所需表格位于“高级统计报告(所有案例)”下。我尝试了以下代码:
url="https://www.hockey-reference.com/boxscores/201611090BUF.html"
ret %
read_html()%>%
html_nodes(xpath='//*[contains(concat( " ", @class, " " ), concat( " ", "right", " " ))]') %>%
html_text()
此代码从上表中获取所有数据,但在高级表之前停止。我还尝试通过以下方式获得更细粒度的内容:
url="https://www.hockey-reference.com/boxscores/201611090BUF.html"
ret %
read_html()%>%
html_nodes(xpath='//*[(@id = "OTT_adv")]//*[contains(concat( " ", @class, " " ), concat( " ", "right", " " ))]') %>%
html_text()
这会产生一个“字符(0)”消息。任何和所有帮助将不胜感激..如果不清楚,我对 R 很陌生。谢谢!