从网页抓取数据(携程旅行网页搜索营销部孙波在《首届百度站长交流会》)

优采云发布时间: 2021-12-17 20:11

　　昨天在QQ交流群看到一个菜鸟问如何简单分析网站的日志，清楚的知道一个网站的数据抓包情况，抓哪些目录比较好，有哪些IP . 段蜘蛛爬行等。

　　A 网站需要发展得更快，走得更远。它离不开日常的数据分析。正如携程网搜索营销部孙波在“首届百度站长交流大会”上所说的那样，渠道改版使用数据模型后，网页的索引量从原来的几十万上升到了5个以上今年百万。这说明数据分析的重要性。

　　说到日常网站日志分析，这里强调一下需要用到两个工具：Excel和光年日志分析工具。可能有朋友在分析网站的日志时需要用到另外一个工具WebLogExplorer。

　　其实在网站的日志分析中，最需要的工具就是Excel（Excel 07版或Excel 10版）。在这里，我想和大家简单分享一下我的一些经验。

　　网站身体爬取统计：

　　借助光年日志分析工具，我们可以得到蜘蛛总爬行量，蜘蛛总停留时间，以及各个搜索引擎的蜘蛛访问次数（我只做百度优化，所以说一下百度蜘蛛爬行情况），如图1所示：

　　只需将上述数据制作成Excel，如图2所示：

　　平均停留时间=总停留时间/访问次数，计算公式：=C2/B2回车键

　　平均爬取量=总爬取量/访问次数，计算公式：=D2/B2回车键

　　单页爬取时间==停留时间*3600/总爬取计算公式：=D2/C2回车键

　　蜘蛛状态码统计：

　　借助一个Excel表格，打开日志（最直接的方法是将日志拖入Excel表格中），然后统计蜘蛛状态码，如图3：

　　通过Excel表格下“数据”功能下的过滤，可以统计出蜘蛛状态码如下。具体统计操作如图4所示：

　　点击IP段下拉框，找到文本过滤器，选择自定义过滤器。

　　从图3可以看出，蜘蛛抓取到的状态码200的特征为HTTP/1.1"200，依此类推：状态码500为HTTP/1.1"50< @0、状态码404是HTTP/1.1"404、状态码302是HTTP/1.1"302.....现在你可以过滤掉每个的状态码蜘蛛，如下图所示：

　　如上图5所示，如果选择收录关系，可以统计百度蜘蛛200状态码的抓取量，等等。

　　Spider IP段统计：

　　如上图，只需将状态码改为IP段即可，如：HTTP/1.1"200 to 202.108.251.33

　　目录爬取统计：

　　如上图，只需将状态码改为对应的目录名即可，如：HTTP/1.1"200 to /tagssearchList/

　　综上所述：

　　如何通过简单的Excel来分析网站日志数据，就介绍到这里。不知道各位seo有没有平时分析网站的日志。反正我一般都会分析这些东西。我觉得有必要分析一下网站的日志。至于分析这些数据有什么作用，如何通过这些数据找出网站的不足，然后列出调整方案，逐步调整网站的结构。相信很多人已经写过了，我来了，就不多说了。

　　谢谢观看

0

2021-12-17

从网页抓取数据

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

从网页抓取数据(携程旅行网页搜索营销部孙波在《首届百度站长交流会》)

0 个评论

发起人