汇总:埋点及数据采集系统简介

优采云 发布时间: 2022-10-19 05:04

  汇总:埋点及数据采集系统简介

  “买点是在互联网上获取数据的基础,数据采集系统是提高追踪点效率、保证追踪点规范和数据质量的有力工具。”

  埋葬,在互联网上,可以说是一种常见的技术。大到BAT,小到创业公司,如果没有埋点,那么大部分数据源基本上都会丢失。本文章简要介绍了埋点和数据采集系统的概况。

  01 - 什么是埋点

  嵌入是指用于捕获、处理和发送特定用户行为或事件的相关技术及其实现过程。例如,用户单击按钮、浏览页面等。

  刚入行的孩子可能会问:为什么要埋没?A:就是获取数据,即获取用户在何时、何地、做了什么操作。仔细想想,如果你不埋点,用户点击前端页面的一个按钮,你怎么知道用户点击了?

  有点技术背景的孩子会问:如果我点击一个按钮,网站 不会收到请求,我从后台不知道,那我为什么要埋掉呢?答:因为不是所有的操作后台都能接收到请求,很多网站页面为了方便用户在一个请求中加载了很多内容,而且它们之间的tab切换根本不请求服务器,所以Data会错过了。APP端就更不用说了,很多都是原生页面,页面剪裁切,完全没有网络请求。

  那么,如果你有服务器请求的数据,你就不需要把它埋起来了吗?哈哈,这里是埋点的分类:前端埋点和后端埋点。

  所谓前端埋点,如前所述,将一段JS代码或SDK埋在网站前端或APP上,每次用户触发特定行为,就会采集到这样一条日志并定期发送到服务器。这样就完成了前端用户行为日志的采集。为什么叫“葬礼”?就是因为每个目标位置都嵌入了一段采集代码,所以在视觉上称为埋点。前端嵌入是很多工作。例如,页面上有 20 个按钮。一般情况下,每个按钮都需要嵌入一些代码。有的网站有上千页,代码可以穷尽。

  所谓后端埋点,其实是一种数据类型,自然地请求和与服务器交互。这种数据不需要通过前端埋没,只要每次在服务器端记录用户的请求即可。比如用户在电商网站上搜索时,每次输入关键词搜索,肯定会请求后端(否则没有搜索结果)。可以记录每个请求的内容、时间、人员等信息。工作量远小于前端埋代码。

  当然,用户会问。比如我在搜索页面输入了关键词但是没有搜索。如果是后端埋点,岂不是无法记录?你是对的,但是这种数据一般比较少,不需要对这个数据做前端embedding。毕竟,后端嵌入的实现比前端要容易得多。当然具体情况具体分析。如果真的是精细化运营,哪怕是一点点的用户行为都应该算在内,但还是要衡量一下性价比。

  因为这篇文章主要是想讲data采集系统,如何进行埋点的设计,埋点的实现,以及各类埋点事件模型的介绍,还有很多涉及的内容,这里就不展开了,以后找时间更深入的分享。

  02—

  什么是数据采集系统

  

  一般情况下,埋点的设计和实现都是人工完成的。数据PM会梳理出对跟踪点的要求,对跟踪点的设计规则,R&D负责跟踪点的实施。

  但正如上面简要提到的,埋点的工作量巨大,重复的内容也很多,这无疑不是一种高效的方式。而更重要的是,采集的埋点和数据需要经过一系列的数据清洗、数据处理、数据开发,才能产生业务人员想看的报表或报表,这很长。数据链接。

  数据采集系统应运而生。

  其实市面上还有很多data采集系统,很多网站都提供免费的data采集服务。如谷歌的谷歌分析、百度统计、友盟等。基本上所有数据采集系统。以下为百度统计截图:

  GA是采集做得很好的web端,而友盟则专注于APP端。

  这些网站的核心原理是提供一块JS(web端)或者SDK(APP端),用户可以把这段代码埋在自己的网站中,然后登陆GA或者百度统计,可以看到数据的各种表现。

  除非有一些比较个性化的埋点需求,比如一些特殊的按键,特殊的操作,想要采集向下,或者干脆对网站进行全埋。

  你会发现这个平台大大节省了埋点的工作量,同时也节省了大量的数据处理和处理工作,并且有各种现成的可视化分析模块进行分析,非常方便。下图:

  有得也有失。丢了什么?不保证数据安全。为什么?因为你嵌入到第三方网站中的JS和SDK本质上​​是将用户在前端采集上的行为发送给第三方服务器,所以你的网站上的用户在本质上,第三方网站是清楚的。

  而且,第三方平台采集都是与流量相关的内容、交易、搜索等后端相关的内容,除非公司将其传递给第三方网站,否则第三方-方网站将无法对这部分内容进行分析,因为分析的全面性。但是,免费使用,是不是很香?这取决于如何测量。

  但是对于大厂来说,数据采集系统一般都是走自研的路子。

  03—

  

  data采集系统收录哪些模块

  那么,data采集 系统中通常收录哪些模块?

  (1) 数据采集 模块

  该部分主要完成data采集的各种配置,主要包括:站点接入、埋点申请、埋点解决方案等模块

  (2) 数据管理模块

  这部分主要是对采集的数据进行宏观管理。包括现场管理、活动管理等。

  (3) 统计分析模块

  这部分主要是分析各个维度的流量数据。很多内容其实和BI分析系统有重叠,比如流量路径分析、留存分析、归因分析等等。还有很多基本的监测报告。

  (4) 采集监控模块

  这部分主要是监控采集的项目。

  ●

  ●

  <p style="max-width: 100%;min-height: 1em;box-sizing: border-box !important;overflow-wrap: break-word !important;">后台回复“入群”

  即可加入小z数据干货交流群

  <br style="max-width: 100%;box-sizing: border-box !important;overflow-wrap: break-word !important;" /></p>

  详细说明:分页列表详细信息采集 | 2个月精通优采云第1课

  之前的教程中,我们以赶集网店数据采集和携程旅行数据采集为例,感受了一波优采云swish swish采集数据。(li) 监管 (hai) 运作。

  嗯?这两个实战案例,规则配置差不多,采集流程也有点类似吧?

  来吧,是时候回溯源头,通过现象看本质了。

  网页的内容由相似的块组成。需要点击“下一步”翻页,然后点击各个链接进入详情页采集数据,没错——页面列表详情采集。

  本文中的示例 网站 地址为:

  在开始采集之前,先观察网页的结构,明确采集的内容。以示例 URL 为例,内容有 4 页,每页有 3 个电影链接。我们需要点击每部电影的链接,进入电影详情页面,采集电影剧情、上映时间等字段。

  优采云基于火狐内核浏览器,通过模拟人类的思维和操作方式,自动提取网页内容。以示例网址为例,在优采云中打开后,需要创建一个点击“Next”的翻页循环,自动点击“Next”进行翻页。再创建一个电影链接列表循环,打开每部电影的链接,进入电影详情页面。然后 采集 来自电影详情页面的数据。

  1 打开网页

  1) 登录优采云7.0采集器,点击新建任务,选择“自定义采集”。进入任务配置页面

  2) 输入 URL 为 采集 并单击“保存 URL”。系统会进入工艺设计页面,自动打开之前输入的URL

  2 创建一个翻页循环

  1)用鼠标点击“下一页”按钮,在弹出的操作提示框中选择“循环点击下一页”。这一步会模拟手动并自动点击翻页

  

  3 建立一个循环列表

  1) 点击下图中第一部电影《教父2》的链接,链接会被选中并标有绿色框

  2)优采云的智能算法会自动检测其他相似元素(本例中是另外两个电影标题链接)。在操作提示框中选择“全选”,优采云自动选择所有电影链接

  3) 选择“循环点击各个链接”,优采云会自动一一点击各个影片链接进入影片详情页面

  4 提取数据

  1)点击页面上要提取的电影的标题字段,标题字段会被选中,选中后会用红色框标出。

  2)在弹出的提示框中,选择“采集该元素的文本”,表示页面中的文本数据为采集

  3)同理,点击另一段你要采集,然后选择“采集这个元素的文字”

  5 修改字段名称

  1) 点击“Process”按钮,显示“Process Designer”和“Customize Current Action”面板。(在规则配置过程中可以随时打开进程)

  2) 在如下界面中,修改字段名称。这里的字段名相当于表头,方便采集时区分各个字段类别。修改后点击“确定”保存

  

  6 启动 采集

  1) 点击“保存并启动”,在弹出的对话框中选择“本地启动采集”。系统将在本地计算机上启动一个采集任务和采集数据

  2)任务采集完成后会弹出采集的提示,然后选择导出数据,这里以选择导出excel2007为例,然后点击确定

  3)选择文件存储路径,然后点击保存

  然后,我们在几分钟内得到这些数据

  有没有更好的学习*敏*感*词*模式的方法?

  任何建议或问题,请给我biubiubiu!

  推荐给小可爱们

  学习分页列表详细信息采集

  趁热打铁

  更多实用教程

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线