抓取动态网页(关于一下动态网址和静态网址的话题网址(图))

优采云 发布时间: 2022-01-06 03:14

  抓取动态网页(关于一下动态网址和静态网址的话题网址(图))

  yylqymzk 发表于 2010-4-26 18:05

  网页编辑学院:动态 URL 和静态 URL 发布者:Juliane Stiller 和 Kaspar Szymanski,搜索质量团队

  原文:动态 URL 与静态 URL

  发表于:2008 年 9 月 22 日,下午 3:20

  这种情况在与网络管理员沟通时经常发生。一些广为流传的想法在过去可能是正确的,但可能不再适合当前的情况。这发生在我们最近和几个朋友谈论 URL 的结构时。我的一位朋友非常担心动态网址的使用,甚至认为“搜索引擎无法处理动态网址”。另一位朋友认为动态网址对于搜索引擎来说根本不是问题。这些都是过去的事情了。另一个人甚至说他从来不明白动态 URL 和静态 URL 之间的区别。对我们来说,这一刻让我们决定研究动态 URL 和静态 URL 的主题。首先,让我们定义一下我们要讨论的主题:

  什么是静态网址?

  顾名思义,静态 URL 是不会更改的 URL。它通常不收录任何 URL 参数。例如:。您可以在搜索框中输入 filetype:html 以在 Google 上搜索静态 URL。使用这种类型的 URL 更新页面需要时间,尤其是在信息量快速增长的情况下,因为每个单独的页面都必须更改编译后的代码。这就是为什么 网站 管理员在处理大型且经常更新的 网站,例如在线购物 网站、论坛社区、博客或内容管理系统时使用动态 URL 的原因。

  什么是动态网址?

  如果将网站的内容存入数据库,按要求显示页面,则可以使用动态URL。在这种情况下,网站 提供的内容基本上是基于模板的。通常,动态 URL 如下所示:。您可以通过查找符号来识别动态 URL,例如?= &。动态 URL 的一个缺点是不同的 URL 可以具有相同的内容。因此,不同的用户可能会链接到具有不同参数的 URL,但这些 URL 都收录相同的内容。这也是网络管理员有时希望将这些动态 URL 重写为静态 URL 的原因之一。

  我应该让我的动态 URL 看起来是静态的吗?

  在处理动态 URL 时,希望您能理解以下事实:

  实际上很难正确生成和维护从动态 URL 到静态 URL 的重写转换。

  向我们提供原创动态 URL 更安全。请让我们处理诸如检测和避免有问题的参数之类的事情。

  如果您想重写 URL,请删除那些不必要的参数,同时将其保留为动态 URL。

  如果您想提供静态网址而不是动态网址,那么您实际上应该生成相应的静态内容。

  静态网址和动态网址,Googlebot 识别哪个更好?

  我们遇到过很多网站管理员,就像我们的朋友一样,他们认为静态或看似静态的URL有利于网站的索引和排名。此观点基于以下假设:搜索引擎在抓取和分析收录会话 ID 和源跟踪器的 URL 时存在问题。然而,事实是谷歌在这两个领域都取得了长足的进步。在点击率方面,静态网址可能略占优势,因为用户可以轻松阅读此网址。但是,在索引和排名方面,使用数据库驱动的网站并不意味着明显的劣势。与隐藏参数使它们看起来是静态 URL 相比,我们更喜欢 网站 直接向搜索引擎提供动态 URL。

  现在,让我们来看看一些广为流传的关于动态 URL 的观点,并纠正一些欺骗 网站 管理员的假设。:)

  误解:“无法抓取动态 URL。”

  事实:我们可以抓取动态 URL 并解释不同的参数。如果为了让网址看起来是静态的而隐藏了可以向谷歌提供有价值信息的参数,这样做会导致网址的抓取和排名出现问题。我们的建议是:请不要更改动态 URL 的格式以使其看起来是静态的。建议尽量使用静态 URL 来展示静态内容,但如果您决定展示动态内容,请不要隐藏参数让它们看起来是静态的,因为这样做会移除那些对我们有用的有用信息分析网址。

  误解:“动态 URL 必须少于 3 个参数。”

  事实:参数数量没有限制。但是,一个好的经验法则是不要让您的 URL 太长(这适用于所有 URL,无论是静态的还是动态的)。您可以删除一些对 Googlebot 不重要的参数,并为用户提供更好看的动态网址。如果您不确定哪些参数可以删除,我们建议您将动态 URL 中的所有参数都提供给我们,我们的系统会找出哪些不重要。隐藏参数会影响我们正确分析您的网址,我们将无法识别这些参数,从而可能会丢失一些重要信息。

  以下是我们认为您可能有疑问的一些问题。

  这是否意味着我应该完全避免重写动态 URL?

  这是我们的建议,除非你能保证你只删除多余的参数,否则你可以完全删除所有可能产生不利影响的参数。如果你随意修改你的动态URL,让它看起来是静态的,你必须意识到这样做是有风险的,有些信息可能无法正常编译和识别。如果你想给你的网站添加静态版本,请提供真正静态的内容,比如生成的文件可以通过网站的对应路径获取。如果您只修改动态 URL 的呈现而不提供静态内容,那么您可能会适得其反。请直接提供标准的动态网址,我们会自动找出那些多余的参数。

  你能举个例子吗?

  如果您有一个标准格式的动态网址,例如:foo?key1=value&key2=value2,我们建议您不要更改它。谷歌将决定可以删除哪些参数;或者您可以为用户删除不必要的参数。但要小心,只删除那些不重要的参数。以下是具有多个参数的动态 URL 的示例:

  language=en-标记这个文章的语言

  answer=3 – 这个 文章 收录数字 3

  sid=8971298178906-会话识别码为8971298178906

  query=URL-使这个 文章 找到的查询是并非所有参数都提供附加信息。所以重写这个 URL 可能不会造成任何问题,因为所有不相关的参数都被删除了。

  下面是一些已修改为看起来像静态 URL 的 URL 示例。与不重写直接提供的动态网址相比,这些网址可能会造成更多的抓取问题。

  sid=98971298178906/query=URL

  98971298178906/查询/网址

  ,3,98971298178906,URL 如果把动态URL改写成上面提到的例子,可能会给我们带来很多不必要的爬取,因为这些URL收录了会话标识符(sid)和查询(query)参数。变量值,这个无形中产生了很多看起来不一样的URL,但是它们收录的内容是一样的。这些格式让我们很难理解通过这个URL返回的实际内容和参数URL和98971298178906是无关的。但是,以下重写的示例删除了所有无关参数:

  尽管我们可以正确处理此 URL,但我们仍然不鼓励您使用此类重写。因为很难维护,而且一旦在原来的动态 URL 上增加了新的参数,就需要立即更新 URL。如果不这样做,将再次导致 URL 看起来像带有隐藏参数的静态 URL。所以最好的解决方案是通常保持动态 URL 原样。或者,如果您删除了不相关的参数,请记住保持此 URL 动态:

  我们希望这个文章 可以对您和我们的朋友有所帮助,并澄清有关动态 URL 的各种猜测。如果您有更多问题,请加入我们的网站管理员支持论坛进行讨论。

  a_zheng_2010 发表于 2015-1-10 21:11

  什么是静态网址?

  283578916的小号发表于2017-12-22 23:51

  666666666666

  誊: [1]

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线