excel抓取多页网页数据(携程旅行网页搜索营销部孙波在《首届百度站长交流会》(组图))
优采云 发布时间: 2022-02-26 09:19excel抓取多页网页数据(携程旅行网页搜索营销部孙波在《首届百度站长交流会》(组图))
用简单的Excel分析网站日志数据,哪些目录比较好爬,哪些IP段蜘蛛爬取等。一个网站要发展得更快更远,离不开每天的数据分析,正如携程网搜索营销部孙波在“首届百度站长交流会”上所说,利用数据模型修改频道后,被收录的网页数量从原来的几十万增加到了5个以上今年万元。由此可见数据分析的重要性。说到日常的网站日志分析,这里我强调需要用到两个工具:Excel和Lightyear Log Analysis Tool。可能还有朋友在分析网站的日志的时候需要用到另外一个工具Web Log Explorer。其实在日志分析< @网站,最需要的工具是 Excel(Excel 07 或 Excel 10)。在这里,我想和大家简单分享一下我的一些经验。网站个体爬取统计:借助光年日志分析工具,得到各搜索引擎的蜘蛛总爬取量、蜘蛛总停留时间、蜘蛛访问量(我只做百度优化,所以我会讲百度蜘蛛爬取情况),如下图1:将上面的数据做成Excel,如下图2:平均停留时间=总停留时间/访问次数,计算公式:=C2/B2输入平均抓取量=总抓取量/访问次数,计算公式:=D2/B2进入单页抓取时间==停留时间*3600/总抓取量计算公式:=D2/C2进入蜘蛛状态码统计:借助Excel,打开日志(最直接的方法就是将日志拖到Excel表格中),然后统计蜘蛛状态码,如下图3所示: 通过“数据”功能下的过滤Excel表格,下面可以统计蜘蛛状态码。具体统计操作如图4所示:点击IP段下拉框,找到文本过滤器,选择自定义过滤器。
从图3可以看出,spider的状态码200的特征是HTTP/1.1" 200,以此类推:状态码500就是HTTP/1.1" 500、@ >状态码 404 是 HTTP/1.1" 404、状态码 302 是 HTTP/1.1" 302..... 现在可以过滤掉每个蜘蛛状态码,如下图所示: 如上图5所示,选择收录关系统计百度蜘蛛200状态码的抓取量,以此类推。蜘蛛IP段统计:如上图,可以将状态码替换为IP段,如:HTTP/1.1" 200 改为 202.108.25 1. 33 目录爬取统计:如上图,将状态码替换为对应的目录名即可,如:@k17@ 通过简单的 Excel >日志数据在这里介绍。我不知道您作为 seo 是否通常分析 网站 日志。无论如何,我通常会分析这些东西。需要分析网站的日志。至于分析这些数据,作用是什么,如何通过这些数据发现网站的不足,然后列出调整方案,一步步调整网站的结构,我相信很多人都已经写过了,这里就不多说了。本文由徐宇博博客原创撰写,转载请注明出处 xuyubo./weiboke/62.html 文章来源:北大青鸟5195 @k17@ 通过简单的 Excel >日志数据在这里介绍。我不知道您作为 seo 是否通常分析 网站 日志。无论如何,我通常会分析这些东西。需要分析网站的日志。至于分析这些数据,作用是什么,如何通过这些数据发现网站的不足,然后列出调整方案,一步步调整网站的结构,我相信很多人都已经写过了,这里就不多说了。本文由徐宇博博客原创撰写,转载请注明出处 xuyubo./weiboke/62.html 文章来源:北大青鸟5195 需要分析网站的日志。至于分析这些数据,作用是什么,如何通过这些数据发现网站的不足,然后列出调整方案,一步步调整网站的结构,我相信很多人都已经写过了,这里就不多说了。本文由徐宇博博客原创撰写,转载请注明出处 xuyubo./weiboke/62.html 文章来源:北大青鸟5195 需要分析网站的日志。至于分析这些数据,作用是什么,如何通过这些数据发现网站的不足,然后列出调整方案,一步步调整网站的结构,我相信很多人都已经写过了,这里就不多说了。本文由徐宇博博客原创撰写,转载请注明出处 xuyubo./weiboke/62.html 文章来源:北大青鸟5195