从网页抓取数据(携程旅行网页搜索营销部孙波在《首届百度站长交流会》)
优采云 发布时间: 2021-12-17 20:11从网页抓取数据(携程旅行网页搜索营销部孙波在《首届百度站长交流会》)
昨天在QQ交流群看到一个菜鸟问如何简单分析网站的日志,清楚的知道一个网站的数据抓包情况,抓哪些目录比较好,有哪些IP . 段蜘蛛爬行等。
A 网站 需要发展得更快,走得更远。它离不开日常的数据分析。正如携程网搜索营销部孙波在“首届百度站长交流大会”上所说的那样,渠道改版使用数据模型后,网页的索引量从原来的几十万上升到了5个以上今年百万。这说明数据分析的重要性。
说到日常网站日志分析,这里强调一下需要用到两个工具:Excel和光年日志分析工具。可能有朋友在分析网站的日志时需要用到另外一个工具WebLogExplorer。
其实在网站的日志分析中,最需要的工具就是Excel(Excel 07版或Excel 10版)。在这里,我想和大家简单分享一下我的一些经验。
网站 身体爬取统计:
借助光年日志分析工具,我们可以得到蜘蛛总爬行量,蜘蛛总停留时间,以及各个搜索引擎的蜘蛛访问次数(我只做百度优化,所以说一下百度蜘蛛爬行情况),如图1所示:
只需将上述数据制作成Excel,如图2所示:
平均停留时间=总停留时间/访问次数,计算公式:=C2/B2回车键
平均爬取量=总爬取量/访问次数,计算公式:=D2/B2回车键
单页爬取时间==停留时间*3600/总爬取计算公式:=D2/C2回车键
蜘蛛状态码统计:
借助一个Excel表格,打开日志(最直接的方法是将日志拖入Excel表格中),然后统计蜘蛛状态码,如图3:
通过Excel表格下“数据”功能下的过滤,可以统计出蜘蛛状态码如下。具体统计操作如图4所示:
点击IP段下拉框,找到文本过滤器,选择自定义过滤器。
从图3可以看出,蜘蛛抓取到的状态码200的特征为HTTP/1.1"200,依此类推:状态码500为HTTP/1.1"50< @0、状态码404是HTTP/1.1"404、状态码302是HTTP/1.1"302.....现在你可以过滤掉每个的状态码蜘蛛,如下图所示:
如上图5所示,如果选择收录关系,可以统计百度蜘蛛200状态码的抓取量,等等。
Spider IP段统计:
如上图,只需将状态码改为IP段即可,如:HTTP/1.1"200 to 202.108.251.33
目录爬取统计:
如上图,只需将状态码改为对应的目录名即可,如:HTTP/1.1"200 to /tagssearchList/
综上所述:
如何通过简单的Excel来分析网站日志数据,就介绍到这里。不知道各位seo有没有平时分析网站的日志。反正我一般都会分析这些东西。我觉得有必要分析一下网站的日志。至于分析这些数据有什么作用,如何通过这些数据找出网站的不足,然后列出调整方案,逐步调整网站的结构。相信很多人已经写过了,我来了,就不多说了。
谢谢观看