如何修改网站内容(网站seo优化做得如何?整体趋势走向该去怎么调整)
优采云 发布时间: 2022-01-03 17:17如何修改网站内容(网站seo优化做得如何?整体趋势走向该去怎么调整)
对于seo人员来说,必须掌握的一项技能是网站日志分析。因为我们只能从网站的日志和百度账号管理后台的数据,对我们的网站seo优化有一个大概的了解?如何调整整体趋势,而不是所谓的网站随机优化。
前期准备提醒:
[要安装和下载的工具是 Cygwin、Notepad++ 和 Excel 电子表格以及一个日志文件。 】
网上也有比较好的网站日志分析工具。它用于网页上的在线分析。具体的使用方法也很简单。只需输入您的网站 URL(请在此处填写),然后导入您的网站日志文件,然后“点击分析”即可。在这里你可以看到你的网站使用了哪些搜索引擎收录,蜘蛛爬行的频率,以及哪个时间段?以及判断哪些低权重和高权重的蜘蛛来爬行,一目了然。
但唯一的缺点是不能一键导出数据。对于大型网站,内容越多越麻烦。如果是博客之类的小网站,内容少,手动复制粘贴。也非常快。并且无法保证检测是 100% 准确的。一般来说,cygwin分析的数据应该比较准确和专业。
获取网站404错误页面
在这里,让我谈谈 Cygwin 是什么。根据百度百科的解释:Cygwin是一个运行在windows平台上的类UNIX仿真环境,是一款免费开发的软件。对于学习UNIX/Linux操作环境,或将应用程序从UNIX移植到Windows,或进行一些特殊的开发工作,尤其是使用GNU工具集在Windows上进行嵌入式系统开发,非常有用。随着嵌入式系统开发在中国越来越流行,越来越多的开发者对Cygwin产生了兴趣。好吧,听太多官方消息也没有用。直接用它来做网站日志分析,看看怎么分析。
在使用此工具之前,您必须先下载并安装它。目前好像不支持苹果电脑的安装,windows系统是允许的。
具体安装步骤这里不详述。安装步骤是下一步。您可以在引擎中搜索安装教程。有很多这方面的教程。在这里,我就直接说说这个工具的使用方法。
工具下载后,有一个地方需要注意。下载保存的某个路径下会有以下文件。这些文件缺一不可,就这些文件:
打开cygwin工具后,不知道这些文件在哪里。可以通过输入“pwd”命令查看存储路径:
我放在系统盘里
好的,知道了这些,我们的目的就是分析网站的日志。首先我们要下载你的网站的日志,先给它起个好名字,我这里的名字是1.log,然后把下载的1.日志文件和5个文件放在一起:
这是第一步。下载日志文件后,我们需要用它来提取网站404错误页面,什么搜索引擎蜘蛛抓取了404错误页面,我们以“百度”为例子,写法为:“百度蜘蛛”。<//p
p提取过程如下,这里把几个步骤写下来:/p
p第一步:/p
p先把百度的蜘蛛分开,然后分成5段看效果,看能不能提取成功?输入命令为:/p
pprecodecat 1.log|grep 'Baiduspider'|head -5/code/pre/p
pimg src='https://p5.toutiaoimg.com/origin/pgc-image/21660f87105944eba2bf9fbfaf538db6?from=pc' alt='如何通过cygwin这款工具进行网站日志的分析?值得收藏的干货文章'//p
p第二步:/p
p发现正常输出说明百度的搜索引擎蜘蛛来爬取我们的网站,OK,那我们就只提取百度搜索引擎蜘蛛爬取的所有信息,并将提取的信息命名为为方便确认,将后缀为.txt的文件命名为“baidu.txt”,输入如下命令:/p
pprecodecat 1.log|grep 'Baiduspider'>>baidu.txt
输入命令回车后,1.log中存放的目录文件中会有一个baidu.txt文件,如下图:
第 3 步:
好的,我们已经提取了百度搜索引擎蜘蛛抓取的所有网页,包括状态码为404、200、301的页面,因为我们只需要提取状态码为404的页面。
这时候,要想找到对应状态码的位置,就需要知道它在baidu.txt文件的哪个部分,解压前需要先统计一下。一起来分析一下。
先用Notepad++工具打开baidu.txt文件,结果是密数:
别担心看不明白,一起“数羊”吧。
对于每个空格,此段数计为一个段。我们想要找到一行中所有状态码的数量,恰好在第 9 段。
知道段数后,就知道状态码是什么,是多少,也了解当前网站的具体情况。下面我们用这一系列命令来提取所有状态码页的信息,命令如下:
cat baidu.txt|awk '{print $9}'|sort|uniq -c
回车后终端会显示网站的所有状态码及对应的数字,如下图:
第四步:
于是再次判断404情况:只统计状态码的输入指令:
cat baidu.txt|grep '404'>>404.txt
我想提醒您,您可以简单地将 404 状态代码分开。为了确认,将其另存为 404.txt 文件。同样,还有比这个404.txt文件更多的文件。
当然这一步还没有结束,因为提取的数据是404状态码的整行,我们的目的是提取网站404页面的链接,所以我们需要提取本节的链接,并在一行中找到相应的链接 哪一个?连续找到第七个:
第 5 步:
然后输入命令提取链接:
cat 404.txt|awk '{print $7}'>>baidu404.txt
注意:因为需要解压哪个文件,必须解压哪个文件,这里是404.txt文件的解压。
回车后发现文件里多了一个baidu404.txt文件。为了知道是百度抓取的404页面,方便识别,将其命名为baidu404.txt。
Opening 是这些链接的 404 状态码:
我们一般提交404错误页面给百度。网站 后台就是把所有的404页面放在一个文件里,比如404.txt文件,然后提交给百度。这时候如果你的网站很大,经常修改修改,404页面,甚至几万甚至几十万的数据都无法避免。开头提到的loghao的网页版好像不一致。要求之一是函数不能导出,提取是否100%准确也不确定。而且使用这个cygwin这个工具,虽然使用过程有点复杂,但是还是靠谱的,对于一些SEO新手来说,会用,是不是觉得很充实?
如果404页面太多,我们将Excel表格拼接起来,我以虚拟URL为例。具体实现过程如下:
先把提取出来的404链接放到Excel的B列数据格中,在A列数据格中写上你的网站真实URL,做拼接处理。拼接命令是先在C列输入“=”号,然后Ctrl+A,再输入“&”,再输入Ctrl+B,最后回车,就是一个拼接的链接地址。
最后在C列拼接的数据网格中,鼠标悬停一会,出现一个“+”,双击即可拼接。
如果有几万条数据,这种方法效率更高吗?然后可以复制和粘贴其他人。怎么提交到百度后台,相信做seo的人都懂。
最后再补充一点:
做seo优化,活的很好,如果你想查看一个链接被搜索引擎蜘蛛反复抓取的次数,因为你知道哪些页面被反复抓取,你可以为网站@做点什么> 对应网站链接添加nofollow属性操作,避免多次爬取,多爬取其他页面的机会和数量,输入如下命令:
cat baidu.txt|awk '{print $7}'|sort|uniq -c
注意:只有“/”代表首页,前面的数字代表爬取次数。
如果你想通过“hlw”一栏下的内容查看哪些页面被自己的某一列爬取,比如百度搜索引擎蜘蛛爬取了哪些页面,可以输入命令:
cat baidu.txt|awk '/hlw/'|sort|uniq -c
然后按回车,结果会显示有多少条记录。
如果以后有网站没有收录的问题,你可以用这个查询方法解决你的网站问题,而不是盲目的。优化网站,用cygwin这块来分析网站日志和百度网站后端索引量作为自定义规则,看看哪些栏目内容没有被索引,哪些索引下降严重? 网站你做了什么?
只有分析我们每天做的事情的统计数据,才能有针对性地解决问题,就像了解疾病的原因,才能对症下药,才能对症下药。