htmlunit抓取动态网页(如何实现静态页面名字和动态页面的名字的含义?)

优采云 发布时间: 2022-02-22 05:00

  htmlunit抓取动态网页(如何实现静态页面名字和动态页面的名字的含义?)

  在构建非常大的 网站 时,动态生成的网页是必不可少的。但是,动态页面的名称(即其 URL)往往缺乏明确的含义。例如,名为 product.asp?Id=4 的页面不像名为 /applicances/dishwashers/Model3809.htm 的页面那样令人难忘。本文介绍如何实现静态页面名称与动态页面的映射。

  概述

  除了静态页面名称更有意义的优势之外,另一个优势是搜索引擎可以索引这些页面。大多数搜索引擎,如 Alta Vista 和 Yahoo,不会检索 URL 中带有问号的页面,因为它们担心会进入一个永无止境的链接迷宫。将动态页面名称转换为静态页面名称后,搜索引擎会对这些页面进行索引和分类,从而为网站带来更多流量。

  要使用本文中描述的方法将动态名称转换为静态名称,您必须使用 Windows 2000 和 IIS 5.0。IIS 5.0 中使这种转换成为可能的两项改进是:使用 Server.Transfer 的“自定义错误消息”功能和在 ASP 页面中使用 Server.Transfer 的能力。虽然IIS4.0也支持自定义错误信息,但是它使用了Response.Redirect,没什么用,所以这个方法需要使用IIS5.0。Response.Redirect 是无用的,因为搜索引擎不遵循重定向。

  使用本文中描述的方法,网站开发人员首先使用静态样式 URL 链接实际不存在的页面。然后设置 IIS 服务器并告诉它使用指定的 ASP 页面 (404.asp) 来处理 网站 上的所有 404 错误。在这个 404.asp 页面中,将原创 URL 转换为正式的动态 URL,用 Server.Transfer 执行,将目标页面返回给用户的浏览器。

  假设您有以下网址:

  替换为网站的域名,会返回404错误。我们要做的第一件事是使用一些专用的 .asp 页面来处理所有这些 404 错误。这可以使用 IIS 5.0 的“自定义错误消息”功能来完成。设置此功能的过程如下:

  ●在MMC中打开IIS服务器管理器

  ● 右键单击​​ Web网站 节点并选择属性

  ●点击“自定义错误信息”页面

  ●向下滚动直到找到 404 错误

  双击 404 错误以打开错误映射属性对话框

  ●将消息类型更改为URL

  ●在URL框中输入“/404.asp”

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线