如何修改网站内容(网站seo优化做得如何？整体趋势走向该去怎么调整)

优采云发布时间: 2022-01-03 17:17

　　对于seo人员来说，必须掌握的一项技能是网站日志分析。因为我们只能从网站的日志和百度账号管理后台的数据，对我们的网站seo优化有一个大概的了解？如何调整整体趋势，而不是所谓的网站随机优化。

　　前期准备提醒：

　　[要安装和下载的工具是 Cygwin、Notepad++ 和 Excel 电子表格以及一个日志文件。】

　　网上也有比较好的网站日志分析工具。它用于网页上的在线分析。具体的使用方法也很简单。只需输入您的网站 URL（请在此处填写），然后导入您的网站日志文件，然后“点击分析”即可。在这里你可以看到你的网站使用了哪些搜索引擎收录，蜘蛛爬行的频率，以及哪个时间段？以及判断哪些低权重和高权重的蜘蛛来爬行，一目了然。

　　但唯一的缺点是不能一键导出数据。对于大型网站，内容越多越麻烦。如果是博客之类的小网站，内容少，手动复制粘贴。也非常快。并且无法保证检测是 100% 准确的。一般来说，cygwin分析的数据应该比较准确和专业。

　　获取网站404错误页面

　　在这里，让我谈谈 Cygwin 是什么。根据百度百科的解释：Cygwin是一个运行在windows平台上的类UNIX仿真环境，是一款免费开发的软件。对于学习UNIX/Linux操作环境，或将应用程序从UNIX移植到Windows，或进行一些特殊的开发工作，尤其是使用GNU工具集在Windows上进行嵌入式系统开发，非常有用。随着嵌入式系统开发在中国越来越流行，越来越多的开发者对Cygwin产生了兴趣。好吧，听太多官方消息也没有用。直接用它来做网站日志分析，看看怎么分析。

　　在使用此工具之前，您必须先下载并安装它。目前好像不支持苹果电脑的安装，windows系统是允许的。

　　具体安装步骤这里不详述。安装步骤是下一步。您可以在引擎中搜索安装教程。有很多这方面的教程。在这里，我就直接说说这个工具的使用方法。

　　工具下载后，有一个地方需要注意。下载保存的某个路径下会有以下文件。这些文件缺一不可，就这些文件：

　　打开cygwin工具后，不知道这些文件在哪里。可以通过输入“pwd”命令查看存储路径：

　　我放在系统盘里

　　好的，知道了这些，我们的目的就是分析网站的日志。首先我们要下载你的网站的日志，先给它起个好名字，我这里的名字是1.log，然后把下载的1.日志文件和5个文件放在一起：

　　这是第一步。下载日志文件后，我们需要用它来提取网站404错误页面，什么搜索引擎蜘蛛抓取了404错误页面，我们以“百度”为例子，写法为：“百度蜘蛛”。<//p

p提取过程如下，这里把几个步骤写下来：/p

p第一步：/p

p先把百度的蜘蛛分开，然后分成5段看效果，看能不能提取成功？输入命令为：/p

pprecodecat 1.log|grep 'Baiduspider'|head -5/code/pre/p

pimg src='https://p5.toutiaoimg.com/origin/pgc-image/21660f87105944eba2bf9fbfaf538db6?from=pc' alt='如何通过cygwin这款工具进行网站日志的分析？值得收藏的干货文章'//p

p第二步：/p

p发现正常输出说明百度的搜索引擎蜘蛛来爬取我们的网站，OK，那我们就只提取百度搜索引擎蜘蛛爬取的所有信息，并将提取的信息命名为为方便确认，将后缀为.txt的文件命名为“baidu.txt”，输入如下命令：/p

pprecodecat 1.log|grep 'Baiduspider'>>baidu.txt

　　输入命令回车后，1.log中存放的目录文件中会有一个baidu.txt文件，如下图：

　　第 3 步：

　　好的，我们已经提取了百度搜索引擎蜘蛛抓取的所有网页，包括状态码为404、200、301的页面，因为我们只需要提取状态码为404的页面。

　　这时候，要想找到对应状态码的位置，就需要知道它在baidu.txt文件的哪个部分，解压前需要先统计一下。一起来分析一下。

　　先用Notepad++工具打开baidu.txt文件，结果是密数：

　　别担心看不明白，一起“数羊”吧。

　　对于每个空格，此段数计为一个段。我们想要找到一行中所有状态码的数量，恰好在第 9 段。

　　知道段数后，就知道状态码是什么，是多少，也了解当前网站的具体情况。下面我们用这一系列命令来提取所有状态码页的信息，命令如下：

　　cat baidu.txt|awk '{print $9}'|sort|uniq -c

　　回车后终端会显示网站的所有状态码及对应的数字，如下图：

　　第四步：

　　于是再次判断404情况：只统计状态码的输入指令：

　　cat baidu.txt|grep '404'>>404.txt

　　我想提醒您，您可以简单地将 404 状态代码分开。为了确认，将其另存为 404.txt 文件。同样，还有比这个404.txt文件更多的文件。

　　当然这一步还没有结束，因为提取的数据是404状态码的整行，我们的目的是提取网站404页面的链接，所以我们需要提取本节的链接，并在一行中找到相应的链接哪一个？连续找到第七个：

　　第 5 步：

　　然后输入命令提取链接：

　　cat 404.txt|awk '{print $7}'>>baidu404.txt

　　注意：因为需要解压哪个文件，必须解压哪个文件，这里是404.txt文件的解压。

　　回车后发现文件里多了一个baidu404.txt文件。为了知道是百度抓取的404页面，方便识别，将其命名为baidu404.txt。

　　Opening 是这些链接的 404 状态码：

　　我们一般提交404错误页面给百度。网站后台就是把所有的404页面放在一个文件里，比如404.txt文件，然后提交给百度。这时候如果你的网站很大，经常修改修改，404页面，甚至几万甚至几十万的数据都无法避免。开头提到的loghao的网页版好像不一致。要求之一是函数不能导出，提取是否100%准确也不确定。而且使用这个cygwin这个工具，虽然使用过程有点复杂，但是还是靠谱的，对于一些SEO新手来说，会用，是不是觉得很充实？

　　如果404页面太多，我们将Excel表格拼接起来，我以虚拟URL为例。具体实现过程如下：

　　先把提取出来的404链接放到Excel的B列数据格中，在A列数据格中写上你的网站真实URL，做拼接处理。拼接命令是先在C列输入“=”号，然后Ctrl+A，再输入“&”，再输入Ctrl+B，最后回车，就是一个拼接的链接地址。

　　最后在C列拼接的数据网格中，鼠标悬停一会，出现一个“+”，双击即可拼接。

　　如果有几万条数据，这种方法效率更高吗？然后可以复制和粘贴其他人。怎么提交到百度后台，相信做seo的人都懂。

　　最后再补充一点：

　　做seo优化，活的很好，如果你想查看一个链接被搜索引擎蜘蛛反复抓取的次数，因为你知道哪些页面被反复抓取，你可以为网站@做点什么> 对应网站链接添加nofollow属性操作，避免多次爬取，多爬取其他页面的机会和数量，输入如下命令：

　　cat baidu.txt|awk '{print $7}'|sort|uniq -c

　　注意：只有“/”代表首页，前面的数字代表爬取次数。

　　如果你想通过“hlw”一栏下的内容查看哪些页面被自己的某一列爬取，比如百度搜索引擎蜘蛛爬取了哪些页面，可以输入命令：

　　cat baidu.txt|awk '/hlw/'|sort|uniq -c

　　然后按回车，结果会显示有多少条记录。

　　如果以后有网站没有收录的问题，你可以用这个查询方法解决你的网站问题，而不是盲目的。优化网站，用cygwin这块来分析网站日志和百度网站后端索引量作为自定义规则，看看哪些栏目内容没有被索引，哪些索引下降严重？网站你做了什么？

　　只有分析我们每天做的事情的统计数据，才能有针对性地解决问题，就像了解疾病的原因，才能对症下药，才能对症下药。

0

2022-01-03

如何修改网站内容

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

如何修改网站内容(网站seo优化做得如何？整体趋势走向该去怎么调整)

0 个评论

发起人

AI时代内容工厂

如何修改网站内容(网站seo优化做得如何？整体趋势走向该去怎么调整)

0 个评论

发起人

相关问题