本网站内容收集互联网网站在美( 技术理想化每种数据收集方式的缓存不是指物理芯片CPU)
优采云 发布时间: 2021-09-27 20:14本网站内容收集互联网网站在美(
技术理想化每种数据收集方式的缓存不是指物理芯片CPU)
一、 技术理想化
每种数据采集方式都有其独特的技术优势,但没有一种采集方式可以完美捕捉到所有访问者在网站上的行为。每种技术也会由于其自身的局限性而使您看到。得到的数据并不是完美的数据。以计算页面停留时间为例,下图为一次访问的时间记录:(图中时间为进入页面的时间)
通常计算页面停留时间的方法是:当前页面的进入时间和下一页的进入时间的差值。可以看出,上面例子中页面的停留如下:
A页:5分钟
B页:1分钟
C页:4分钟
D页:?
为什么页面 D 上没有停留时间?没错,无论使用哪种采集方式来捕获页面D的准确停留时间,原因很简单。这些数据采集方式无法捕捉到访问者离开的瞬间(或长时间停留在退出页面没有进行任何点击,或浏览器直接关闭)。因此,不同的工具厂商对退出页面的停留时间有不同的定义,有的统一计算为1分钟,有的简单地视为0分钟。
目前主要有以下技术或限制数据的获取,或混淆现有的采集数据。
1. 缓存
这里所说的缓存并不是指CPU等物理芯片的缓存,而是为节省网络资源,提高网页浏览速度而建立的浏览器缓存或代理服务器缓存。对这两种缓存的简单理解就是将访问过的网页内容(包括图片和cookie文件等)存储在计算机或代理服务器中。调用之前读过的页面时,可以直接调用缓存中的内容,无需再次从网站服务器重传数据。
下图显示了访问一个网站后留在本地缓存文件夹中的文件记录:
由于访问者通过本地缓存访问网站时,不会向网站服务器发送请求,所以服务器中自然没有这次访问的Log记录。换句话说,通过Web日志采集的数据肯定会丢失这部分流量。
2. 网络爬虫
如果要讲清楚搜索引擎爬虫的原理和算法,恐怕单章是不够的,也不是本书的内容,这里不再赘述。
下面首先给出网站服务器Log中的搜索引擎爬虫记录:
203.208.60.178 [10/Nov/2011:12:00:00 +0800] "-" "GET /index.php HTTP/1. 1" 200 30000 "-" "Mozilla/5.0 (兼容;Googlebot/2.1;+)"
从上面的日志记录可以看出,2011年11月10日12:00:00,谷歌的Googlebot(谷歌的搜索引擎爬虫名)访问并爬取了homepage/index.php。
这意味着这部分数据将混合在网络日志采集的数据中。同时需要提醒的是,爬虫访问网站服务器只是为了下载抓取主要信息,不会像网民访问时那样在浏览器中显示网页内容;换句话说,它是此时网页的来源。代码中的 JavaScript 数据采集代码无法执行。
3. 防火墙
由于防火墙的原理和机制比较复杂,这里就不详细解释了。有兴趣的人可以从维基百科或其他资源中了解它。
对防火墙功能的简单理解,可以看作是根据网络中的信任程度来控制来回传输的数据流。它就像一个过滤器,不断监督和过滤试图通过它的数据流。
虽然防火墙为网络带来安全,但它也可能阻止 JavaScript 脚本向数据采集服务器发送数据。这无疑会让 JavaScript 标签失去一些流量。
二、 访客理想化
网站分析主要是跟踪访问者在网站上的行为,但往往会受到访问者在个人电脑上的行为的影响。或许这就是理想与现实的差距,因为你不能要求所有的网友都按照自己想要的方式上网。
1. IP 设置
Web日志在采集数据时主要依靠访问者的IP来区分唯一访问者。但是,当出现如下动态IP分配方式时,采集数据中的误差在所难免。
为一台机器使用不同的 IP 很可能会导致访问者比实际人数多。可以看出,网站分析工具的统计数据实际上并不是实际访问人数,而只是一个IP或一个浏览器。所以更别说多人使用同一台电脑是否能正确统计了。
2. JavaScript 有效设置
一些访问者可能会选择关闭浏览器中的有效 JavaScript 设置以确保安全。这会比一些网页特效损失更多;对于使用 JavaScript 标签的工具供应商,他们也会在目标处丢失一些访问者。网站记录所有操作。
3. Cookie 设置
(1)禁用 Cookie
互联网的普及将人们带入了一个全面的信息社会,人们保护个人信息的意识逐渐增强。由于他们对私人信息的敏感性,有些人选择禁用 cookie。
(上图显示cookie设置可分为第一方cookie和第三方cookie两种,至于这两种cookie的区别,有兴趣的可以上网查查资料)
如果没有 cookie,JavaScript 标签的使用将无法区分访问次数和唯一身份访问者数量。如果没有这两个基本措施,网站 分析就无能为力了。因此,禁用 cookie 对从 JavaScript 标签采集数据是一个巨大的打击。