js抓取网页内容(R中的没有权限,只能实施不需要或只需要一次性授予管理员权限)

优采云 发布时间: 2022-02-17 07:23

  js抓取网页内容(R中的没有权限,只能实施不需要或只需要一次性授予管理员权限)

  背景

  我正在使用 rvest 从 R 中的一些网站 中抓取产品信息。这适用于除一个 网站 之外的所有内容,其中内容似乎是通过 angularJS(?) 动态加载的,因此无法加载迭代地,例如通过 URL 参数(就像我为其他 网站 那样)。具体网址如下:

  背景我目前正在使用 rvest 从 R 中的一些网站上抓取产品信息。这适用于除一个网站之外的所有网站,其中内容似乎是通过 angularJS (?) 动态加载的,因此不能迭代加载,例如通过 URL 参数(就像我对其他网站所做的那样)。具体网址如下:

  请记住,我在我的计算机上没有管理员权限,只能实施不需要或只需要一次性管理员权限的解决方案

  请记住,我在我的机器上没有管理员权限,只能实施不需要或只需要一次性授予管理员权限的解决方案

  想要的输出

  最后,R 中的表格收录产品信息(例如标签、价格、评级)=> 我完全需要这个问题的帮助来动态加载和存储 网站;我可以自己处理 R 中的后期处理。

  如果你能把我推向正确的方向,那就太好了。也许我下面列出的方法之一是在正确的轨道上,但我似乎无法将它们转移到指定的 网站。

  Desired OutputIn the end a table with product information (eg label, price, rating) => 不过,在这个问题中,我纯粹需要帮助来动态加载和存储网站;我可以自己处理 R 中的后处理。如果你能把我推向正确的方向,那就太好了;也许我下面列出的方法之一是正确的,但我似乎无法将它们转移到所述网站。

  当前方法

  我发现 phantomJS 是一个无头浏览器,它应该能够处理它。我对 Java Script 几乎一无所知,而且语法与我更习惯的语言(R、Matlab、SQL)如此不同(至少对我而言),我真的很难实现其他可能的方法在其他地方工作我的代码。

  基于这个例子(非常感谢),我设法至少从显示的第一页开始检索信息,代码如下:

  目前的方法我发现 phantomJS 作为一个无头浏览器,afaik 应该能够处理这个问题。我对 Java Script 几乎一无所知,语法(至少对我而言)与我更习惯的语言(R、Matlab、SQL)有很大不同,我真的很难实现其他地方建议的方法在我的代码中工作。基于此示例(非常感谢),我设法使用以下代码从显示的第一个页面中至少检索到信息:

  R:

<p>require(rvest)

## change Phantom.js scrape file

url

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线