js抓取网页内容(怎样引导蜘蛛正确抓取?避免造成一些不必要的收录和抓取)
优采云 发布时间: 2022-01-30 23:09js抓取网页内容(怎样引导蜘蛛正确抓取?避免造成一些不必要的收录和抓取)
在SEO优化过程中,日志中经常会出现很多无效爬取,或者同一页面有多个收录。如何引导蜘蛛正确爬行?避免造成一些不必要的 收录 和刮擦?
无效抓取的原因
通过我们对搜索引擎爬取策略的了解,我们知道搜索引擎会通过互联网链接和目录进行分布式爬取,而我们爬取无效的原因有以下五点:
这些文件和规则的配置一般都是seo来完成的,但是还不够。必须正确配置,才能合理利用搜索引擎分配给我们的爬取资源。而且,如果结构不合理或无效文件被爬取过多,也会在搜索引擎上造成质量差的印象。
正确的配置方式
在robots中,除了屏蔽目录,还有对链接的屏蔽规则,例如:%E6%94%B6%E5%BD%95
我们不希望搜索url被爬取收录,我们可以通过规则进行屏蔽,在规则中找到常见的?s=,在其后加*组成规则。
另外,没有设置机器人的同学可以参考:另外,不重要的程序文件也要及时屏蔽。
程序配置要注意的一点是避免产生重复的url。如果程序端无法修改,则必须在服务器端适配跳转规则,避免重复收录。一个典型的案例就是翻页重复问题,一般是程序造成的,比如:
本质上,这两个页面的url虽然不同,但内容是一样的,所以需要及时适配跳转规则,避免无效爬取和重复收录。
合理使用nofollow属性,单页重复链接或者不需要爬取链接都可以通过使用nofollow属性来解决。
对于搜索引擎来说,所有新的内容都可以认真爬取,但是众所周知,网页中的css和js文件并不需要为seo占用大量的爬取资源。为合理起见,相关配置文件的数量可以尽量少,可以根据类型和用途进行分类汇总。
另外,我们之前也提到过,主域名的跳转适配在建站过程中也需要正确配置,否则很有可能同时出现www和不www收录 ,且权重不集中。表现。