js抓取网页内容(怎样引导蜘蛛正确抓取？避免造成一些不必要的收录和抓取)

优采云发布时间: 2022-01-30 23:09

　　在SEO优化过程中，日志中经常会出现很多无效爬取，或者同一页面有多个收录。如何引导蜘蛛正确爬行？避免造成一些不必要的收录和刮擦？

　　无效抓取的原因

　　通过我们对搜索引擎爬取策略的了解，我们知道搜索引擎会通过互联网链接和目录进行分布式爬取，而我们爬取无效的原因有以下五点：

　　这些文件和规则的配置一般都是seo来完成的，但是还不够。必须正确配置，才能合理利用搜索引擎分配给我们的爬取资源。而且，如果结构不合理或无效文件被爬取过多，也会在搜索引擎上造成质量差的印象。

　　正确的配置方式

　　在robots中，除了屏蔽目录，还有对链接的屏蔽规则，例如：%E6%94%B6%E5%BD%95

　　我们不希望搜索url被爬取收录，我们可以通过规则进行屏蔽，在规则中找到常见的?s=，在其后加*组成规则。

　　另外，没有设置机器人的同学可以参考：另外，不重要的程序文件也要及时屏蔽。

　　程序配置要注意的一点是避免产生重复的url。如果程序端无法修改，则必须在服务器端适配跳转规则，避免重复收录。一个典型的案例就是翻页重复问题，一般是程序造成的，比如：

　　本质上，这两个页面的url虽然不同，但内容是一样的，所以需要及时适配跳转规则，避免无效爬取和重复收录。

　　合理使用nofollow属性，单页重复链接或者不需要爬取链接都可以通过使用nofollow属性来解决。

　　对于搜索引擎来说，所有新的内容都可以认真爬取，但是众所周知，网页中的css和js文件并不需要为seo占用大量的爬取资源。为合理起见，相关配置文件的数量可以尽量少，可以根据类型和用途进行分类汇总。

　　另外，我们之前也提到过，主域名的跳转适配在建站过程中也需要正确配置，否则很有可能同时出现www和不www收录，且权重不集中。表现。

0

2022-01-30

js抓取网页内容

0 个评论

要回复文章请先登录或注册