seo网站日志分析工具(怎样读服务器原始日志文件(serverraw)(组图))
优采云 发布时间: 2021-11-11 00:21seo网站日志分析工具(怎样读服务器原始日志文件(serverraw)(组图))
读者hiisee问
如何使用 PHP 脚本在后台获取有关蜘蛛的详细信息?比如蜘蛛在哪里/什么时候来的/搜索了多少页面/喜欢哪个不喜欢等,浏览器是否使用相同的技术?谢谢,我又麻烦你了。
正好我之前没有讲过流量统计和分析。这两天我会讲几个方面。今天,我们来谈谈如何将服务器原创日志文件作为 SEO 读取。
网站服务器会自动记录每个访问者的一些访问信息并保存在服务器的原创日志文件中。
通常,托管服务提供商会提供您在控制面板中下载此文件。如果您的托管服务提供商未提供原创日志文件,您应该更改该位置。
原创日志文件只是一个纯文本文件,只要用写字板或记事本等文本编辑软件打开即可。
以下是我上个月从博客本身的日志文件中随机选择的一行。我们来看看它收录哪些信息:
221.201.77.63 – – [02/Jul/2006:15:30:41 +0800] “GET /seoblog/2006/04/17/user-friendly -网站/ HTTP/1.1" 200 19031"
wd=PRADA%B9%D9%B7%BD%CD%F8%D5%BE&cl=3" “Mozilla/4.0(兼容;MSIE 6.0;Windows NT 5.1 ; SV1; Alexa 工具栏)"
(注:虽然上面是很久以前的一段日志,但是当前日志文件中收录的信息格式是一样的,完全没有变化)
用户IP地址
221.201.77.63
这是访问者使用的IP地址,可以告诉你访问者来自哪里。如果您查看此 IP 地址的位置,则可以看到此访问者来自中国北京。
约会时间
02/Jul/2006:15:30:41
这是访问某个文件的时间。结合 IP 地址,您可以跟踪特定用户从一个网页到另一个网页的访问顺序。
时区
+0800
这个数字是相对于格林威治标准时间的时差,北京在东八区。
服务器操作
GET /seoblog/2006/04/17/user-friendly-website/ HTTP/1.1
服务器必须执行的操作是 GET 或 POST。除了一些CGI脚本外,通常应该是GET,即从服务器获取某个网页或图片文件。
示例中的这一行表示根据HTTP/1.1协议(协议)/seoblog/2006/04/17/user-friendly-website/获取文件
返回状态码
200
下一行是服务器是否响应成功。200 表示文件获取成功。如果返回 404,则未找到该文件。401需要密码,403禁止查看,500服务器错误,当然还有很多其他的服务器状态码。
文件大小
19031
这一行是指获得的文件大小,在我们的例子中是 19031 字节。
访客来源
%B9%D9%B7%BD%CD%F8%D5%BE&cl=3
这一段告诉我们访问者是从哪里来到这个页面的。可能是同一个网站的另一个页面,可能是某个搜索引擎的搜索页面,也可能是另一个网站的链接。
例子来自百度,搜索关键词是“PRADA官方网站”。
这条信息以前非常重要。流量分析系统可以根据这些信息计算出哪些搜索用户搜索了关键词访问您的网站。可惜所有搜索引擎都屏蔽了这个关键词信息。我们只能知道流量来自哪个搜索引擎,而不能知道关键词来自哪个搜索引擎。
浏览器类型
Mozilla/4.0(兼容;MSIE 6.0;Windows NT 5.1;SV1;Alexa 工具栏)
最后一段代表的是有关浏览器和用户计算机的一些信息。
例如,上一段表示用户使用的电脑是兼容Netscape的Mozilla浏览器,Windows NT操作系统,浏览器为IE6.0,安装了Alexa Toolbar。
在本段中,如果用户正在使用其他类型的计算机或浏览器,或者正在访问搜索引擎蜘蛛,您可能还会看到以下代码:
百度蜘蛛+(+)
Mozilla/4.0(兼容;MSIE 6.0;Windows NT 5.0;Maxthon;Alexa 工具栏)
RSS 在线阅读器
Mozilla/5.0(兼容;Googlebot/2.1;+)
意思不用解释,一眼就能看出来。
追踪用户轨迹
这是很多网站运营商需要学习的地方。
从日志文件中排除对图片的访问,去掉中间插入的其他访问者的信息,只列出某个用户在一段时间内从某个IP地址浏览过的网页,可以看出该用户在你在网站上做了什么动作,浏览了哪些页面。
用户行为信息为网站运营商提供了极大的帮助。