网页flash文本抓取器(Robot的搜索引擎(Robot)是什么?(Robot)是机器人)

优采云 发布时间: 2022-03-03 08:09

  网页flash文本抓取器(Robot的搜索引擎(Robot)是什么?(Robot)是机器人)

  Robot 英文直译是机器人。在搜索引擎优化SEO中,我们经常将其翻译为:检测器。

  有时候,你会遇到爬虫(crawler)、蜘蛛(spider),都是检测器之一,只是名字不一样。

  SEO中经常提到的这个检测器(Robot)是什么?

  搜索引擎用来抓取网页的工具。它是一个软件或一系列自动程序(显然,不是机器)。

  不同的搜索引擎给他们的机器人起不同的名字。

  Google: googlebot 百度: baiduspider MSN: MSNbot Yahoo: Slurp(这个来自yahoo的比较特别,没有“姓”,用的是象声词。Slurp,机器人吃tsk tsk声音时发出中文理解)

  关于Robot,主要关注的是Robots.txt,上面的名字收录在网站log中。

  百度用来抓取网页的程序叫做Baiduspider——百度蜘蛛。我们主要分析网站被百度爬取的情况。 网站日志中百度蜘蛛Baiduspider的活动:爬取频率,返回HTTP状态码。

  如何查看日志:

  通过FTP,在网站的根目录下找到一个日志文件,文件名一般收录log,下载并解压里面的记事本,这是网站的日志,里面记录了网站 被访问和操纵。

  由于每个服务器和主机的情况不同,不同主机的日志功能记录的内容也不同,有的甚至没有日志功能。

  日志内容如下:

  61.135.168.22 - - [11/Jan/2009:04:02:45 +0800] “GET /bbs/thread-7303-1- 1.html HTTP/1.1″ 200 8450 “-” “Baiduspider+(+)”

  分析:

  GET /bbs/thread-7303-1-1.html代表,抓取/bbs/thread-7303-1-1.html这个页面。

  200 表示抓取成功。

  8450 表示抓取了 8450 个字节。

  如果你的日志中的格式不是这样的,说明日志格式设置不一样。

  在很多日志中可以看到200 0 0和200 0 64代表正常爬取。

  爬取频率是通过查看每日日志中的百度蜘蛛爬取次数得出的。爬取频率没有标准化的时间表或频率数,我们一般通过多天的日志对比来判断。当然,我们希望百度蜘蛛每天爬的次数越多越好。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线