excel抓取网页动态数据(携程旅行网页搜索营销部孙波在孙波在《首届百度站长交流会》)

优采云 发布时间: 2022-02-10 20:04

  excel抓取网页动态数据(携程旅行网页搜索营销部孙波在孙波在《首届百度站长交流会》)

  昨天看到一个QQ交流群的新手问,如何简单分析网站的日志,清楚的知道网站的数据抓取情况,哪些目录比较好抓取,哪些IP那里。分段蜘蛛爬行等

  一个网站要想发展得更快、走得更远,离不开一个日常的数据分析,正如携程网搜索营销部孙波在“首届百度站长交流会”上所说,在使用数据模型后改版渠道,今年被收录的网页数从原来的几十万增加到500万以上。由此可见数据分析的重要性。

  说到日常的网站日志分析,这里我强调需要用到两个工具:Excel和Lightyear Log Analysis Tool。可能还有朋友在分析网站的日志的时候需要用到另外一个工具Web Log Explorer。

  其实在网站的日志分析中,最需要的工具就是Excel(Excel 07或者Excel 10)。在这里,我想和大家简单分享一下我的一些经验。

  网站人体爬行统计:

  借助光年日志分析工具,我们可以得到各搜索引擎的蜘蛛总爬取量、蜘蛛总停留时间、蜘蛛访问量(由于我只做百度优化,我就说百度蜘蛛爬取),如下图1所示:

  

  以上数据可以制作成Excel,如下图2所示:

  

  平均停留时间=总停留时间/访问次数,计算公式:=C2/B2回车键

  平均爬取量=总爬取量/访问量,计算公式:=D2/B2回车键

  单页抓取时间==停留时间*3600/总抓取量计算公式:=D2/C2回车键

  蜘蛛状态码统计:

  借助Excel表格,打开日志(最直接的方法就是将日志拖到Excel表格中),然后统计蜘蛛状态码,如下图3所示:

  

  通过Excel表格下“数据”功能下的过滤,可以统计蜘蛛状态码如下。具体统计操作如图4所示:

  点击IP段下拉框,找到文本过滤器,选择自定义过滤器。

  从图3可以看出,蜘蛛爬取的状态码200特征为HTTP/1.1" 200,以此类推:状态码500为HTTP/1.1" 500、@ >状态码 404 是 HTTP/1.1" 404、状态码 302 是 HTTP/1.1" 302...。现在你可以过滤掉每个蜘蛛状态码,如如下图:

  

  如上图5所示,如果选择收录关系,可以统计百度蜘蛛200状态码的抓取量,以此类推。

  蜘蛛IP段统计:

  如上图,可以用IP段替换状态码,如:HTTP/1.1" 200 换成202.108.251.33

  目录爬网统计:

  如上图所示,可以将状态码替换为对应的目录名,如:HTTP/1.1" 200替换为/tagssearchList/

  综上所述:

  这里介绍如何通过简单的Excel分析网站日志数据。我不知道您作为 seo 是否通常分析 网站 日志。无论如何,我通常会分析这些东西。需要分析网站的日志。至于分析这些数据,作用是什么,如何通过这些数据发现网站的不足,然后列出调整方案,一步步调整网站的结构,我相信很多人都已经写过了,这里就不多说了。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线