博客搜索引擎优化(搜索引擎日志分析是必不可少的一块?)
优采云 发布时间: 2021-09-22 15:04博客搜索引擎优化(搜索引擎日志分析是必不可少的一块?)
对于网站优化,搜索引擎日志分析至关重要。无论你是收录数百的小网站,还是收录数百万的大中型网站,如果SEO想要做得好,它必须进行科学的日志分析。日志是网站服务器上所有事件的记录,包括用户访问记录和搜索引擎捕获记录,对于一些大型网站日志,每天有几个G大小的日志。我们可以使用Linux命令将它们分开。在大型网站日志文件中,它们通常是普通人看不到的机密文件,因为我们可以从日志中分析访客趋势和区域趋势。搜索引擎优化不需要那么多数据,我们只需要分析搜索引擎的捕获记录,所以无论数据量有多大,处理后都不会特别大。此外,当前的硬盘非常便宜,可以考虑将其用于存储日志文件。那么我们主要分析哪些数据呢
合格的网站管理员或SEOER必须能够理解网站服务器日志文件。此日志记录了搜索引擎对网站进行爬网的痕迹,并为网站管理员提供了蜘蛛是否正在访问的有力证据。站长朋友可以通过网站日志分析搜索引擎蜘蛛的捕获情况,以及网站中是否存在收录异常问题@
1、每个搜索引擎的总爬网次数(和趋势)
在日志文件中,每个搜索引擎捕获的数量都被清楚地记录下来。例如,可以记录百度、谷歌、搜狗等搜索引擎的捕获记录。它可以通过使用DOS命令或Linux命令来实现。搜索引擎的收录由捕获量和文章质量决定。当文章质量保持不变时,蜘蛛的捕获量越大,那么收录的捕获量就越多。在日志分析过程中,我们必须清楚地知道蜘蛛每天的捕获量,并每天记录下来。也许绝对值没有任何意义。我们可以看看它的趋势。当渔获量有一天呈下降趋势时,我们必须找到原因
2、记录搜索引擎爬行器的非重复爬行次数
在最后一步中,我们分析了爬行器的捕获数据,然后我们需要消除重复,即搜索引擎的唯一非重复捕获。事实上,对于收录,很多页面只需要抓取一次,但在实际操作过程中,很多页面是重复抓取的,而谷歌的技术更先进,重复抓取率可能更低,但百度等搜索引擎的重复抓取率非常高。您可以通过日志分析查看它。如果每天有数百万次爬网,它们可能会在主页上爬网数万次,因此您必须分析许多数据。当你分析它时,你就会知道问题的严重性
3、fetches每个目录和搜索引擎
在以上两个步骤中,我们记录了整体爬网量和非重复爬网量,然后我们需要分析每个搜索引擎如何爬网每个目录,这有利于块优化。例如,当您的网站流量增加时,您可以知道哪个目录的流量增加了,然后按下查看哪个目录的爬网量增加了,您可以分析哪个目录的爬网量减少了以及原因,然后在网站中进行适当的链接结构调整,例如使用nofollow标记
4、统计搜索引擎捕获的状态代码
当搜索引擎抓取你的页面时,它不仅抓取你的内容,而且还有一个抓取返回码。我们应该记录这些返回码,尤其是一些类似的返回码301、 404、500和其他状态代码。从这些状态代码中,我们发现了网站一些潜在的问题,例如为什么会有很多404页面,这是程序的原因,事实上,我们可以在Google管理员工具中看到这些数据,这也会提示您错误的404页面出现在何处。我们还应该注意一些301状态代码,看看这些301是否按照我们的意愿跳转,网站应该尽量减少跳转,当页面跳转时,它通常会延长页面的加载时间。最常见的301可能是网页URL跳转为带“/”而不带“/”。我们应该尽最大努力避免网站出现这种情况@
5、计算搜索引擎蜘蛛的数量和时间
我们可以使用一些日志分析工具来设置标准。例如,光年日志分析工具可以计算每个搜索引擎蜘蛛每天出现的次数,它每天在网站中停留的时间,以及是否有IP蜘蛛每天24小时在网站中爬行。蜘蛛越多越好。这通常是你网站体重提升的表现。这些数据可以每天记录。在一段时间内,可以进行比较分析,看停留时间是否增加,访问次数是否增加。这样,我们就可以判断网站的重量是增加了还是减少了
如果你想知道网站log文件收录什么内容,你必须首先知道每个搜索引擎的蜘蛛名称。例如,百度的蜘蛛程序名为Baidu pider,谷歌的机器人程序名为Google Googlebot等等。通过在日志内容中搜索上面的蜘蛛名称,我们可以知道哪个搜索引擎已经爬过网站了,这里有它们的痕迹。此外,您必须能够理解常见的HTTP状态代码。最常见的HTTP状态代码是200(成功捕获页面)、304(上次捕获和此捕获之间没有更改)、404(未找到页面,错误链接)500(服务器不响应,通常由服务器维护,在失败时发生,网站无法打开)。这些状态代码必须被我们的站长朋友理解,服务器状态代码的值是我们与蜘蛛通信的信号。在了解了这些基本信息之后,我们可以根据网站log进行分析。一般来说,我们只关注百度和谷歌蜘蛛的爬行和爬行。当然,如果有特殊需要,我们也可以分析其他几个蜘蛛的爬行情况@大量的谷歌蜘蛛和百度蜘蛛出现在网站日志中,表明搜索引擎蜘蛛经常来访问你的网站
在分析日志文件时,我们必须说明分析日志文件的时间。在什么情况下我们应该分析日志文件?首先,当新的网站刚刚建立的时候,也是站长朋友们最迫切的时候。我们通常焦急地等待搜索引擎的收录网站内容。我们经常做的是去百度或谷歌,使用命令站点:next网站domain name查看它是否是收录. 现在,事实上,我们不需要经常询问网站是否是收录,我们想知道搜索引擎是否关心我们的搜索结果网站. 我们可以使用网站log文件进行检查。你怎么认为?检查网站日志是否已被搜索引擎蜘蛛捕获。检查返回的状态码是否为200或其他。如果返回200,则表示捕获成功。如果返回404,则表示页面错误或页面不存在,需要执行301永久重定向或302临时重定向。一般来说,成功捕获后,搜索引擎会在稍后发布。一般来说,谷歌机器人发布速度更快,最快的机器人可以被第二个杀死。然而,百度的反应很慢,最快的是一周左右。不过,在11月份百度算法调整后,发布速度仍然非常快。其次,当网站收录异常时,我们应该将正常的收录日志与异常日志进行比较和分析,以找出问题所在。这可以解决网站收录问题,也有利于完全优化。第三,搜索引擎K删除网站后,我们必须观察网站日志文件来弥补它。通常,在这种情况下,只有日志文件中的几个爬行器在主页和机器人上爬行。我们需要找出被K的原因并加以纠正,然后将其提交给搜索引擎。接下来,我们可以观察日志,看看蜘蛛在一段时间内是否正常缓慢地出现,蜘蛛的数量是否增加,或者经常出现并返回到200,恭喜。你的网站又活了。如果你半年都没有回复,建议你放弃域名,再打一次
许多站长朋友不知道如何使用网站log文件。当他们遇到网站收录问题时,他们会问别人,而不是自我检查。这是网站管理员或SEOER的悲哀。此外,互联网上的许多软文提到需要做好日志文件的分析工作,但这只是软文的问题,也许文章的作者没有查看日志文件。说到底,我还是希望站长朋友千万不要忽略网站log文件。合理使用网站log文件是站长或SEOER的必要技能。此外,理解网站log文件不需要深入的编码知识。实际上,您只需要理解HTML代码和几个返回的状态代码。你不能懒惰,也不能以运气对待你的网站。这种心理会让你惨败。如果你是一个小站长或SEOER,如果你以前没有意识到网站log文件的重要性,你应该好好对待你的网站log,因为你看到了我写的文章log