seo网站日志分析工具(第一、确定是否有蜘蛛过来爬行如何辨别站点安全信息及文章内容质量怎样根据不同的IP)

优采云 发布时间: 2022-03-12 23:15

  seo网站日志分析工具(第一、确定是否有蜘蛛过来爬行如何辨别站点安全信息及文章内容质量怎样根据不同的IP)

  最近有同学问我网站日志分析知识,这里贴一下我整理的日志分析技巧。

  没有。一、 来判断蜘蛛是否要爬来爬去

  如何判断蜘蛛是否来爬:

  1、边看边看网站日志代码,这是给分析高手的

  2、通过网站日志分析工具查看,比较适合初学者

  通过网站日志分析工具,可以直接查看网站的哪些页面被蜘蛛爬取过。

  二、 客户端 IP 将知道蜘蛛类型。

  1、220.181.108.*百度蜘蛛的ip段(提权蜘蛛)

  2、123.125.71.*ip段百度蜘蛛(不如文章抓蜘蛛)

  3、123.125.68.*百度蜘蛛(检查蜘蛛)的ip段

  4、117.28.255.*ip段百度蜘蛛(假蜘蛛)

  页面 三、 检查页面状态是否正常

  通过URL日志,我们可以直接看到服务器响应码,看看我们哪些页面有问题,哪些是正常的。一般情况下,如果返回的状态码是200,说明正常,如果有404,说明页面有问题。

  四、 网站的搜索引擎友好性

  从 网站 日志中,我们可以直接看到爬虫爬到我们站点的次数。抓取次数越多,蜘蛛对我们的网站就越友好。

  从上图中我们可以直接看到爬取我们网站的蜘蛛数量,但是在爬取数量中也有假蜘蛛,所以我们还需要通过客户端ip确认哪些是真蜘蛛,哪些是假的。

  随着算法的不断更新,新站的检查周期越来越长,以至于很多新站主通过site:域名更新文章,而搜索收录却没有显示。这其中大部分是因为搜索引擎陷入困境,没有及时发布。

  对于上述二、我们可以通过客户端ip识别网站安全信息和文章内容质量

  根据不同的IP,我们可以分析网站的状态,常见的百度蜘蛛IP如下:

  1、123.125.68.*如果你来的比较频繁,别人来的比较少,网站进入沙箱或者被降级的可能性很大.

  2、220.181.68.*每天只增加不减少,这是进入沙盒或被降级的标志。

  3、220.181.7.*, 123.125.66.* 搜索引擎开始爬取。

  4、121.14.89.*摆脱新站巡检期。

  5、203.208.60.*网站启动异常。

  6、210.72.225.*此IP段连续巡站。

  7、220.181.108.*高质量文章内容页面或主页抓取。

  一般爬取成功的返回码是200,如果返回状态显示304,说明网站还没有更新,爬虫来了但是还没有爬到。如果是 200 064 则不用担心,这只是一些动态页面抓取。

  对于上面的三、,如果服务器返回一个状态,比如200404,则页面不存在。304 表示网页没有更新。这些可以通过网站日志中的代码直接看到。如果出现大量的404,就非常有必要对这些404页面采取措施。我们可以使用 robots.txt 协议来屏蔽这些页面,阻止搜索引擎抓取该页面。

  以上四、真蜘蛛,来的次数越多越好!

  好吧,我们把它介绍到 网站 日志中。网站日志可以通过两种方式获取:

  1、ftp 空间日志文件夹

  2、登录到你站点的服务器,通常是网站日志位置 C:WINDOWS/system32/LogFiles

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线