js提取指定网站内容( web浏览器客户端轻松查询不同域上的资源(图))
优采云 发布时间: 2022-03-30 17:01js提取指定网站内容(
web浏览器客户端轻松查询不同域上的资源(图))
Javascript 从其他 网站 获取数据以显示在我的 网站 上
htmlcss
Javascript 从其他 网站 抓取数据以显示在我的 网站、javascript、html、css、Javascript、Html、Css,我正在尝试我的项目,试图从 网站 抓取中获取数据数据,并显示在我原来的 网站 上 比如我想在 网站 中搜索一个 关键词pepper 我想爬取之后,我想要一个 关键词pepper 在我的 网站 中显示结果我可以知道我可以使用什么方法来执行此操作 感谢获取请求的页面源,使用 RegExp 解析所需部分,提取所有其余链接,重复这些链接的过程,直到您完全抓取此 网站。请注意,您不需要抓取 facebook、google+ 或类似的 网站 我假设您正在尝试完全从客户端而不是从服务器来实现这一点。使这变得困难的是 JavaScript。您无法从 Web 浏览器客户端点击
我正在尝试我的项目,试图从 网站 中抓取数据并将其显示在我原来的 网站 上
比如我想在网站中搜索一个我要爬取的关键词pepper
之后,我想在我的 网站 上显示结果
我可以知道我可以用什么方法来做到这一点
谢谢
获取请求的页面源,使用RegExp解析需要的部分,提取所有剩余的链接,重复这些链接的过程,直到你完全爬取了这个网站。请注意,您不需要抓取 facebook、google+ 或类似网站网站
我假设您正在尝试完全从客户端而不是从服务器来实现这一点。使这变得困难的是 JavaScript。您无法从 Web 浏览器客户端轻松查询不同域上的资源
您要么需要收录非 JavaScript 客户端技术 Flash、Java、PNaCl 等,要么需要一个服务器端组件。您可以在网上找到一些类似的 Flash 对象,但我没有使用它们,也无法提供任何选项建议。我通常也不推荐这个解决方案
如果您可以使用服务器端组件,那么您最好 ping 和抓取您的服务器,或插入标头。CORS Header 允许您将 JavaScript 中的所有逻辑保留在客户端,但将您可以查询的域限制为预定义的列表和传统浏览器中的域。
我使用什么代码来获取页面源代码?@user2982110 使用 PHP Curl,因为 JS 不是一个选项。你想在 CLI 中运行这个脚本,比如 Cron Job 或类似的东西。我试过 iframe+。加载,但浏览器阻止我这样做。我认为这在 JS 中是不可能的,如果你知道的话,我可以用 python 指导你,但这可能是题外话。您能否解释一下我如何在 python+ 中执行此操作并在浏览器中应用?TQ 想了一会儿,它可以是 lang 中性: 1 正如 Justinas 所说,您必须提取页面源 GIYF,然后 2 使用 xpath 提取页面内容。这里又是一种指定 HTML 文件元素的方法。. 全球青年基金会