输入关键字 抓取所有网页(唯一性网站中同一内容页只与唯一一个url相对应)
优采云 发布时间: 2022-01-01 21:15输入关键字 抓取所有网页(唯一性网站中同一内容页只与唯一一个url相对应)
1、 简洁明了的网站结构蜘蛛爬行相当于遍历网络的有向图,所以一个简单明了、层次分明的网站结构绝对是它喜欢,并尽量保证蜘蛛的可读性。 (1)最优的树状结构是“首页—频道—详情页”;(2)平面首页到详情页的层级尽量小,利于爬取,可(3)mesh保证每个页面至少有一个文本链接指向它,这样网站可以被尽可能全面的抓取收录,以及内链构建还可以产生排名主动作用。(4)Navigation 给每个页面增加了一个导航,方便用户知道路径。(5)子域和目录的选择相信很多站长都有关于这个问题,在我们看来,当内容小,内容相关度高的时候,建议以目录的形式来实现,有利于权重的继承和收敛;当内容大的时候并且与主站的相关性稍差,建议以as的形式实现子域。 .2、简洁美观的URL规则(1)唯一性网站同一内容页面只对应一个URL。过多的URL会分散页面的权重和目标URL有被系统过滤的风险;(2)动态参数尽量简洁,URL尽量短;(3)美观让用户和机器判断网页内容通过网址,我们推荐以下网址形式:网址尽量简短易读,便于用户快速理解,例如使用拼音作为目录名;系统中内容相同只生成一个唯一对应的URL,去掉无意义的参数;如果不能保证url的唯一性,尽量使用不同形式的url301到目标url;防止用户输入错误的备用域名301到主域名. 3、其他注意事项(1)不要忽略倒霉的robots文件,by默认情况下,某些系统机器人被搜索引擎阻止。当网站建立后,及时检查并写入相应的robots文件。 网站 在日常维护中也要注意定期检查; (2)创建网站站点地图文件和死链文件,并通过百度站长平台及时提交;(3)部分电子商务网站有地域跳转问题,库存无库存。建议统一做一个页面,并在页面上标注库存,该区域无库存请勿返回无效页面,由于出口有限的蜘蛛,正常页面将无法收录。(4) 合理使用机器人、站点地图、索引量、抓取压力、死链提交、网站revision 等工具提供的站长平台。