搜索引擎如何抓取网页( 唯一性网站中同一内容页只与唯一一个url相对应)

优采云 发布时间: 2022-02-08 14:18

  搜索引擎如何抓取网页(

唯一性网站中同一内容页只与唯一一个url相对应)

  

  1、简单明了网站结构蜘蛛抓取相当于遍历web的有向图,所以结构简单明了,层次分明的网站一定是自己喜欢的,尽力而为确保蜘蛛的可读性。(1)树形结构的最优结构是“首页-频道-详情页”;(2)平面首页到详情页的层级要尽量少,友好爬取好投递权重。(3)net保证每个页面至少有一个文本链接指向,这样网站可以尽可能全面的爬取收录,内部链接构建还可以产生排序的正面效果。(4)导航给每个页面增加一个导航,方便用户知道路径。(5) 子域和目录的选择相信有大量站长对此存有疑虑,在我们看来,当内容较少、内容相关性较高时,建议以目录的形式实现,有利于权重的继承和收敛;当内容较大,与主站相关性稍差时,建议以子域的形式实现。2、简洁美观的url规则(1)唯一网站@ >同一内容页面中只对应一个唯一的url,太多的url会分散页面的权重,目标url有被系统重新过滤的风险;(2)简洁即少动态参数尽量少,url尽量短;(3) 美观让用户和机器通过url来判断页面的内容)我们推荐如下的url形式:url尽量短,便于阅读,以便用户快速理解,例如使用拼音作为目录名称;相同的内容只在系统中生成一个唯一对应的url,去掉无意义的参数;如果不能保证url的唯一性,尝试对目标url做不同形式的url301;防止用户在主域名中输入错误的备用域名301。3、其他注意事项(1)不要忽略不幸的robots文件,默认情况下,部分系统robots被搜索引擎阻止爬取。当网站

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线