抓取ajax动态网页java(rvest从R中的应用)
优采云 发布时间: 2022-04-16 12:31抓取ajax动态网页java(rvest从R中的应用)
背景信息目前,我正在使用 rvest 从 R 中的一些 网站 中抓取产品信息。这适用于所有 网站 s,除了一个 网站 内容似乎是动态加载的通过 angularJS(?),因此不能迭代(例如通过 URL 参数)加载(就像我对其他 网站 所做的那样)。具体网址如下:
请记住,我在我的计算机上没有管理员权限,仅实施不需要或仅授予管理员权限一次的解决方案
期望的输出 最后,R 中的一个表收录产品信息(例如标签、价格、评级)=> 但是,在这个问题中,我完全需要帮助来动态加载和存储 网站。我可以自己处理 R 中的后处理。如果你能把我推向正确的方向,那就太好了。也许我下面列出的方法之一是正确的,但我似乎无法将这些转移到指定的 网站。
目前的方法,我发现 phantomJS 是一个无头浏览器,应该能够处理这个问题。我对 Java 脚本几乎一无所知,而且语法(至少对我而言)与我更习惯的语言(R、Matlab、SQL)非常不同,而且我真的很难在其他语言中实现可能在我的代码中其他地方工作的方法。基于这个例子(非常感谢),我设法从使用以下代码显示的第一页中至少检索到信息:
回复:
<p>require(rvest)
## change Phantom.js scrape file
url