抓取ajax动态网页java(GWT纯Ajax站点主页的问题是什么?怎么解决?)
优采云 发布时间: 2022-01-04 03:25抓取ajax动态网页java(GWT纯Ajax站点主页的问题是什么?怎么解决?)
GWT 通常是一个纯 Ajax 站点。它的内容是由 Javascript 动态创建的。因此,它在搜索可抓取性和与社交网站和其他网站的共享方面带来了很多问题。
在典型的社交网络上共享我的 GWT 应用程序时,生成的“快照”或“屏幕截图”只是一个空白页面(通常是背景颜色)。
尝试使用 Google 等工具将 GWT 应用程序添加到搜索索引时也是如此。
关于主页的问题:
场景:网站
此页面是应用程序的主页。
有哪些有效的方法可以使应用程序(例如)被抓取并获得站点的快照以进行 SNS 共享?
关于收录要抓取的内容列表的动态页面(例如搜索结果)的问题:
场景:页面是,/#PostsPage
此页面通过 Ajax 调用(RPC 或 Restlet)生成要发布的列表,然后动态构建列表。
点击一个特定的帖子,它会被转发到一个名为#PostPage;id=123的页面,这个页面也收录了爬虫需要到达的东西。
应该对 GWT 应用程序进行哪些调整,以便搜索抓取工具可以抓取所有列表及其每个页面。
同样,对于首页,有没有什么方法可以将/#PostPage;id=123页面分享到SNS网站,得到正确渲染的页面?
这回答了你所有的问题,即使这个问题是一个骗局。