面向机器的抓取优化(一):缺省设置301跳转
优采云 发布时间: 2021-07-08 20:51面向机器的抓取优化(一):缺省设置301跳转
面向机器的抓取优化
1 默认域名是唯一的:默认设置301重定向到。一方面可以减轻搜索引擎页面的减重负担,另一方面可以汇总相同内容的反向链接权重。对于默认使用https访问的网站,如果不重定向(比如之前的支付宝),经常会出现浏览器提示安全认证路径不匹配;另外:谷歌站长工具中还有一个默认的域名配置;
2 遗忘流量:想办法采集因域名解析失败和拼写错误造成的流量损失;之前激活过的域名尽量不要删除,保留并设置为最新地址;有渠道获取DNS 是这个记录吗?
3 404页面操作:返回hard 404(返回http header而不是html 404 header),使用referer统计跟踪404日志,解决这些问题;
4 保存 HEAD 请求:对于一些蜘蛛(主要是百度蜘蛛),经常使用头部请求来检查旧链接的有效性。建议这些请求可以直接返回304处理,节省服务器处理资源;
5 永久转向:避免302,转向时尽量使用301到最终地址;
6 注意站内搜索:使用搜索做内容之间的关联和发现,每个文章提供相关的文章等功能;并且可以解析出搜索源关键词的404次访问尤其应该通过站点进行搜索。用户提供其他可选内容。
7 使用google站长工具跟踪收录和错误抓取问题并及时纠正;
8 归档页面URL标准化:虽然搜索引擎声称动态页面和静态页面收录和RANK不受影响,但为了管理方便,还是尽量将内容页面标准化为静态地址,并尽可能的添加到页面中 唯一的地址减少了繁重搜索引擎抓取相同内容的不同链接后的麻烦,比如各个论坛的内页:
面向用户的内容优化
1 主动检查垃圾邮件本身,防止大量镜像内容,搜索引擎往往不得不对不利于垃圾邮件处理的网站采用整体减权的方法;
2 为防止用户使用第三方计数器和小JS功能(如用户鼠标指针风格炫目)被植入病毒和木马,谷歌将发送邮件至较严重网站的webmaster@Mailbox警报相关问题。所以这个邮箱一定要定期创建和检查;
3 结构化数据源:RSS、sitemaps存档入口,最高效的是使用各种ping接口实时向搜索引擎发送最新内容(百度最近也支持相应接口和协议);
4 注意搜索结果页标题和元描述的可读性:元描述不参与排序,但好的标题和元描述往往比纯算法建议的摘要更接近用户目标,并且是在目前的排名位置。在这种情况下,努力吸引用户更多的点击也是一种有效的策略;