本网站内容收集互联网网站在美( 技术理想化每种数据收集方式的缓存不是指物理芯片CPU)

优采云发布时间: 2021-09-27 20:14

　　本网站内容收集互联网网站在美(

技术理想化每种数据收集方式的缓存不是指物理芯片CPU)

　　一、技术理想化

　　每种数据采集方式都有其独特的技术优势，但没有一种采集方式可以完美捕捉到所有访问者在网站上的行为。每种技术也会由于其自身的局限性而使您看到。得到的数据并不是完美的数据。以计算页面停留时间为例，下图为一次访问的时间记录：（图中时间为进入页面的时间）

　　通常计算页面停留时间的方法是：当前页面的进入时间和下一页的进入时间的差值。可以看出，上面例子中页面的停留如下：

　　A页：5分钟

　　B页：1分钟

　　C页：4分钟

　　D页：？

　　为什么页面 D 上没有停留时间？没错，无论使用哪种采集方式来捕获页面D的准确停留时间，原因很简单。这些数据采集方式无法捕捉到访问者离开的瞬间（或长时间停留在退出页面没有进行任何点击，或浏览器直接关闭）。因此，不同的工具厂商对退出页面的停留时间有不同的定义，有的统一计算为1分钟，有的简单地视为0分钟。

　　目前主要有以下技术或限制数据的获取，或混淆现有的采集数据。

　　1. 缓存

　　这里所说的缓存并不是指CPU等物理芯片的缓存，而是为节省网络资源，提高网页浏览速度而建立的浏览器缓存或代理服务器缓存。对这两种缓存的简单理解就是将访问过的网页内容（包括图片和cookie文件等）存储在计算机或代理服务器中。调用之前读过的页面时，可以直接调用缓存中的内容，无需再次从网站服务器重传数据。

　　下图显示了访问一个网站后留在本地缓存文件夹中的文件记录：

　　由于访问者通过本地缓存访问网站时，不会向网站服务器发送请求，所以服务器中自然没有这次访问的Log记录。换句话说，通过Web日志采集的数据肯定会丢失这部分流量。

　　2. 网络爬虫

　　如果要讲清楚搜索引擎爬虫的原理和算法，恐怕单章是不够的，也不是本书的内容，这里不再赘述。

　　下面首先给出网站服务器Log中的搜索引擎爬虫记录：

　　203.208.60.178 [10/Nov/2011:12:00:00 +0800] "-" "GET /index.php HTTP/1. 1" 200 30000 "-" "Mozilla/5.0 (兼容；Googlebot/2.1；+)"

　　从上面的日志记录可以看出，2011年11月10日12:00:00，谷歌的Googlebot（谷歌的搜索引擎爬虫名）访问并爬取了homepage/index.php。

　　这意味着这部分数据将混合在网络日志采集的数据中。同时需要提醒的是，爬虫访问网站服务器只是为了下载抓取主要信息，不会像网民访问时那样在浏览器中显示网页内容；换句话说，它是此时网页的来源。代码中的 JavaScript 数据采集代码无法执行。

　　3. 防火墙

　　由于防火墙的原理和机制比较复杂，这里就不详细解释了。有兴趣的人可以从维基百科或其他资源中了解它。

　　对防火墙功能的简单理解，可以看作是根据网络中的信任程度来控制来回传输的数据流。它就像一个过滤器，不断监督和过滤试图通过它的数据流。

　　虽然防火墙为网络带来安全，但它也可能阻止 JavaScript 脚本向数据采集服务器发送数据。这无疑会让 JavaScript 标签失去一些流量。

　　二、访客理想化

　　网站分析主要是跟踪访问者在网站上的行为，但往往会受到访问者在个人电脑上的行为的影响。或许这就是理想与现实的差距，因为你不能要求所有的网友都按照自己想要的方式上网。

　　1. IP 设置

　　Web日志在采集数据时主要依靠访问者的IP来区分唯一访问者。但是，当出现如下动态IP分配方式时，采集数据中的误差在所难免。

　　为一台机器使用不同的 IP 很可能会导致访问者比实际人数多。可以看出，网站分析工具的统计数据实际上并不是实际访问人数，而只是一个IP或一个浏览器。所以更别说多人使用同一台电脑是否能正确统计了。

　　2. JavaScript 有效设置

　　一些访问者可能会选择关闭浏览器中的有效 JavaScript 设置以确保安全。这会比一些网页特效损失更多；对于使用 JavaScript 标签的工具供应商，他们也会在目标处丢失一些访问者。网站记录所有操作。

　　3. Cookie 设置

　　(1）禁用 Cookie

　　互联网的普及将人们带入了一个全面的信息社会，人们保护个人信息的意识逐渐增强。由于他们对私人信息的敏感性，有些人选择禁用 cookie。

　　（上图显示cookie设置可分为第一方cookie和第三方cookie两种，至于这两种cookie的区别，有兴趣的可以上网查查资料）

　　如果没有 cookie，JavaScript 标签的使用将无法区分访问次数和唯一身份访问者数量。如果没有这两个基本措施，网站分析就无能为力了。因此，禁用 cookie 对从 JavaScript 标签采集数据是一个巨大的打击。

0

2021-09-27

本网站内容收集互联网网站在美

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

本网站内容收集互联网网站在美( 技术理想化每种数据收集方式的缓存不是指物理芯片CPU)

0 个评论

发起人

AI时代内容工厂

本网站内容收集互联网网站在美( 技术理想化每种数据收集方式的缓存不是指物理芯片CPU)

0 个评论

发起人

相关问题