天猫网站内容架构分析(Google处理的网址结构的命名规则及解决办法!)
优采云 发布时间: 2021-12-03 16:05天猫网站内容架构分析(Google处理的网址结构的命名规则及解决办法!)
1、网址命名规则
大多数网站 URL命名规则是“根域名+列+文章页面”,部分网站 URL命名规则是“根域名+文章页面”,大部分可以生成的变量是文章页面的命名规则。监控权大的朋友可能会注意到,他们的命名规则并不合理,那么什么样的URL命名规则更有利于搜索引擎呢?谷歌在《创建一个让谷歌易于处理的URL结构》一文中给出的一些建议是:
A、网站的URL结构尽量简单,并考虑网站组织的内容,使URL的构造合乎逻辑,易于理解(使用易读的词代替尽可能长的*敏*感*词*号码)。
B、建议您在网址中使用标点符号,以帮助搜索引擎更好地分析网页内容。例如,在URL中使用连字符(-)并尽量避免使用下划线(_),用连字符分隔两个词,更利于搜索引擎蜘蛛的语义分析。
C、尽量少使用复杂的网址,尤其是那些收录多个可变参数的网址(网址是静态的),因为它可能会产生大量不必要的网址,都指向你网站上相同或相似的内容,会给爬虫带来麻烦,消耗Googlebot大量不必要的带宽,可能无法完全索引你的所有内容网站。
URL结构不合理的原因和解决方法,后面会详细讨论。有兴趣的可以阅读原文。在分析 URL 命名规则时,最好在开始构建站点之前监控电源。这样可以避免后期更改URL导致的大量错误页面和减肥。
2、URL 级别深度
相信大家已经对URL的级别进行了充分的讨论。对网站的要求,两级、三级、四级不同。选择一个二级结构的URL,我们希望更多的网站权重直接转移到这些页面,选择三层URL结构是最常见的SAP训练方法。主要原因是为了区分 URL 的各个列。四层的URL结构大多比较大。栏目和首页之间还有一个频道页,这样用四层来很好的区分。如需细分,建议长期为网站开通二级域名。
另外,大家对于网址的级别有一个误区,就是网址的级别越深,越难爬取。其实这是一个局部的、全面的认识。事实上,搜索引擎并没有因为我们的网站抓取某个网址。此页面的蜘蛛爬行入口太少。所以如果我们希望我们网页的某些页面成为收录,我们也可以做一些外链来吸引蜘蛛爬取。
3、 URL 标准化
关于URL的标准化,相信大家都非常关注。比如最常见的URL标准化,就是对首页URL中的四种可能形式进行301重定向,让网站的权重集中在首选域上。但这只是最基本的 URL 标准化操作。考虑到URL的命名和层次结构,我们还需要检查网页的收录中是否有类似网页内容的URL,尤其是一些动态网页容易产生这种情况,对于比如设置wordpress程序,很容易出现多个动态重复的页面URL。因此,在这种情况下,可以在robots.txt文件中写入爬取规则,禁止蜘蛛爬取所有动态URL。地址,具体操作是写命令Disallow:? /*?*
4、URL权重可控
当然,URL结构优化还涉及到一些其他的细节。很重要的一点就是后期对URL权重的控制。比如一开始,我们需要做长远的考虑和设计,网站的栏目很多,但是这些栏目并不是我们第一阶段想要投资的。这时候我们可以用robots来屏蔽这些栏目的蜘蛛,或者用nofollow标签来阻止权重的传递,从而得出一个合理的网页权重引导。如果我们有精力开始开发新的栏目,就放开搜索引擎蜘蛛的爬取权限。
|||网址越深,越难爬取。