js抓取网页内容(R中的没有权限，只能实施不需要或只需要一次性授予管理员权限)

优采云发布时间: 2022-02-17 07:23

　　背景

　　我正在使用 rvest 从 R 中的一些网站中抓取产品信息。这适用于除一个网站之外的所有内容，其中内容似乎是通过 angularJS(?) 动态加载的，因此无法加载迭代地，例如通过 URL 参数（就像我为其他网站那样）。具体网址如下：

　　背景我目前正在使用 rvest 从 R 中的一些网站上抓取产品信息。这适用于除一个网站之外的所有网站，其中内容似乎是通过 angularJS (?) 动态加载的，因此不能迭代加载，例如通过 URL 参数（就像我对其他网站所做的那样）。具体网址如下：

　　请记住，我在我的计算机上没有管理员权限，只能实施不需要或只需要一次性管理员权限的解决方案

　　请记住，我在我的机器上没有管理员权限，只能实施不需要或只需要一次性授予管理员权限的解决方案

　　想要的输出

　　最后，R 中的表格收录产品信息（例如标签、价格、评级）=> 我完全需要这个问题的帮助来动态加载和存储网站;我可以自己处理 R 中的后期处理。

　　如果你能把我推向正确的方向，那就太好了。也许我下面列出的方法之一是在正确的轨道上，但我似乎无法将它们转移到指定的网站。

　　Desired OutputIn the end a table with product information (eg label, price, rating) => 不过，在这个问题中，我纯粹需要帮助来动态加载和存储网站；我可以自己处理 R 中的后处理。如果你能把我推向正确的方向，那就太好了；也许我下面列出的方法之一是正确的，但我似乎无法将它们转移到所述网站。

　　当前方法

　　我发现 phantomJS 是一个无头浏览器，它应该能够处理它。我对 Java Script 几乎一无所知，而且语法与我更习惯的语言（R、Matlab、SQL）如此不同（至少对我而言），我真的很难实现其他可能的方法在其他地方工作我的代码。

　　基于这个例子（非常感谢），我设法至少从显示的第一页开始检索信息，代码如下：

　　目前的方法我发现 phantomJS 作为一个无头浏览器，afaik 应该能够处理这个问题。我对 Java Script 几乎一无所知，语法（至少对我而言）与我更习惯的语言（R、Matlab、SQL）有很大不同，我真的很难实现其他地方建议的方法在我的代码中工作。基于此示例（非常感谢），我设法使用以下代码从显示的第一个页面中至少检索到信息：

　　R：

<p>require(rvest)

## change Phantom.js scrape file

url

0

2022-02-17

js抓取网页内容

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

js抓取网页内容(R中的没有权限，只能实施不需要或只需要一次性授予管理员权限)

0 个评论

发起人

AI时代内容工厂

js抓取网页内容(R中的没有权限，只能实施不需要或只需要一次性授予管理员权限)

0 个评论

发起人

相关问题