js抓取网页内容(R中的没有权限,只能实施不需要或只需要一次性授予管理员权限)
优采云 发布时间: 2022-02-17 07:23js抓取网页内容(R中的没有权限,只能实施不需要或只需要一次性授予管理员权限)
背景
我正在使用 rvest 从 R 中的一些网站 中抓取产品信息。这适用于除一个 网站 之外的所有内容,其中内容似乎是通过 angularJS(?) 动态加载的,因此无法加载迭代地,例如通过 URL 参数(就像我为其他 网站 那样)。具体网址如下:
背景我目前正在使用 rvest 从 R 中的一些网站上抓取产品信息。这适用于除一个网站之外的所有网站,其中内容似乎是通过 angularJS (?) 动态加载的,因此不能迭代加载,例如通过 URL 参数(就像我对其他网站所做的那样)。具体网址如下:
请记住,我在我的计算机上没有管理员权限,只能实施不需要或只需要一次性管理员权限的解决方案
请记住,我在我的机器上没有管理员权限,只能实施不需要或只需要一次性授予管理员权限的解决方案
想要的输出
最后,R 中的表格收录产品信息(例如标签、价格、评级)=> 我完全需要这个问题的帮助来动态加载和存储 网站;我可以自己处理 R 中的后期处理。
如果你能把我推向正确的方向,那就太好了。也许我下面列出的方法之一是在正确的轨道上,但我似乎无法将它们转移到指定的 网站。
Desired OutputIn the end a table with product information (eg label, price, rating) => 不过,在这个问题中,我纯粹需要帮助来动态加载和存储网站;我可以自己处理 R 中的后处理。如果你能把我推向正确的方向,那就太好了;也许我下面列出的方法之一是正确的,但我似乎无法将它们转移到所述网站。
当前方法
我发现 phantomJS 是一个无头浏览器,它应该能够处理它。我对 Java Script 几乎一无所知,而且语法与我更习惯的语言(R、Matlab、SQL)如此不同(至少对我而言),我真的很难实现其他可能的方法在其他地方工作我的代码。
基于这个例子(非常感谢),我设法至少从显示的第一页开始检索信息,代码如下:
目前的方法我发现 phantomJS 作为一个无头浏览器,afaik 应该能够处理这个问题。我对 Java Script 几乎一无所知,语法(至少对我而言)与我更习惯的语言(R、Matlab、SQL)有很大不同,我真的很难实现其他地方建议的方法在我的代码中工作。基于此示例(非常感谢),我设法使用以下代码从显示的第一个页面中至少检索到信息:
R:
<p>require(rvest)
## change Phantom.js scrape file
url