汇总:埋点及数据采集系统简介

优采云发布时间: 2022-10-19 05:04

　　汇总:埋点及数据采集系统简介

　　“买点是在互联网上获取数据的基础，数据采集系统是提高追踪点效率、保证追踪点规范和数据质量的有力工具。”

　　埋葬，在互联网上，可以说是一种常见的技术。大到BAT，小到创业公司，如果没有埋点，那么大部分数据源基本上都会丢失。本文章简要介绍了埋点和数据采集系统的概况。

　　01 - 什么是埋点

　　嵌入是指用于捕获、处理和发送特定用户行为或事件的相关技术及其实现过程。例如，用户单击按钮、浏览页面等。

　　刚入行的孩子可能会问：为什么要埋没？A：就是获取数据，即获取用户在何时、何地、做了什么操作。仔细想想，如果你不埋点，用户点击前端页面的一个按钮，你怎么知道用户点击了？

　　有点技术背景的孩子会问：如果我点击一个按钮，网站不会收到请求，我从后台不知道，那我为什么要埋掉呢？答：因为不是所有的操作后台都能接收到请求，很多网站页面为了方便用户在一个请求中加载了很多内容，而且它们之间的tab切换根本不请求服务器，所以Data会错过了。APP端就更不用说了，很多都是原生页面，页面剪裁切，完全没有网络请求。

　　那么，如果你有服务器请求的数据，你就不需要把它埋起来了吗？哈哈，这里是埋点的分类：前端埋点和后端埋点。

　　所谓前端埋点，如前所述，将一段JS代码或SDK埋在网站前端或APP上，每次用户触发特定行为，就会采集到这样一条日志并定期发送到服务器。这样就完成了前端用户行为日志的采集。为什么叫“葬礼”？就是因为每个目标位置都嵌入了一段采集代码，所以在视觉上称为埋点。前端嵌入是很多工作。例如，页面上有 20 个按钮。一般情况下，每个按钮都需要嵌入一些代码。有的网站有上千页，代码可以穷尽。

　　所谓后端埋点，其实是一种数据类型，自然地请求和与服务器交互。这种数据不需要通过前端埋没，只要每次在服务器端记录用户的请求即可。比如用户在电商网站上搜索时，每次输入关键词搜索，肯定会请求后端（否则没有搜索结果）。可以记录每个请求的内容、时间、人员等信息。工作量远小于前端埋代码。

　　当然，用户会问。比如我在搜索页面输入了关键词但是没有搜索。如果是后端埋点，岂不是无法记录？你是对的，但是这种数据一般比较少，不需要对这个数据做前端embedding。毕竟，后端嵌入的实现比前端要容易得多。当然具体情况具体分析。如果真的是精细化运营，哪怕是一点点的用户行为都应该算在内，但还是要衡量一下性价比。

　　因为这篇文章主要是想讲data采集系统，如何进行埋点的设计，埋点的实现，以及各类埋点事件模型的介绍，还有很多涉及的内容，这里就不展开了，以后找时间更深入的分享。

　　02—

　　什么是数据采集系统

　　一般情况下，埋点的设计和实现都是人工完成的。数据PM会梳理出对跟踪点的要求，对跟踪点的设计规则，R&D负责跟踪点的实施。

　　但正如上面简要提到的，埋点的工作量巨大，重复的内容也很多，这无疑不是一种高效的方式。而更重要的是，采集的埋点和数据需要经过一系列的数据清洗、数据处理、数据开发，才能产生业务人员想看的报表或报表，这很长。数据链接。

　　数据采集系统应运而生。

　　其实市面上还有很多data采集系统，很多网站都提供免费的data采集服务。如谷歌的谷歌分析、百度统计、友盟等。基本上所有数据采集系统。以下为百度统计截图：

　　GA是采集做得很好的web端，而友盟则专注于APP端。

　　这些网站的核心原理是提供一块JS（web端）或者SDK（APP端），用户可以把这段代码埋在自己的网站中，然后登陆GA或者百度统计，可以看到数据的各种表现。

　　除非有一些比较个性化的埋点需求，比如一些特殊的按键，特殊的操作，想要采集向下，或者干脆对网站进行全埋。

　　你会发现这个平台大大节省了埋点的工作量，同时也节省了大量的数据处理和处理工作，并且有各种现成的可视化分析模块进行分析，非常方便。下图：

　　有得也有失。丢了什么？不保证数据安全。为什么？因为你嵌入到第三方网站中的JS和SDK本质上是将用户在前端采集上的行为发送给第三方服务器，所以你的网站上的用户在本质上，第三方网站是清楚的。

　　而且，第三方平台采集都是与流量相关的内容、交易、搜索等后端相关的内容，除非公司将其传递给第三方网站，否则第三方-方网站将无法对这部分内容进行分析，因为分析的全面性。但是，免费使用，是不是很香？这取决于如何测量。

　　但是对于大厂来说，数据采集系统一般都是走自研的路子。

　　03—

　　data采集系统收录哪些模块

　　那么，data采集系统中通常收录哪些模块？

　　(1) 数据采集模块

　　该部分主要完成data采集的各种配置，主要包括：站点接入、埋点申请、埋点解决方案等模块

　　(2) 数据管理模块

　　这部分主要是对采集的数据进行宏观管理。包括现场管理、活动管理等。

　　(3) 统计分析模块

　　这部分主要是分析各个维度的流量数据。很多内容其实和BI分析系统有重叠，比如流量路径分析、留存分析、归因分析等等。还有很多基本的监测报告。

　　(4) 采集监控模块

　　这部分主要是监控采集的项目。

　　●

　　<p style="max-width: 100%;min-height: 1em;box-sizing: border-box !important;overflow-wrap: break-word !important;">后台回复“入群”

　　即可加入小z数据干货交流群

　　详细说明:分页列表详细信息采集 | 2个月精通优采云第1课

　　之前的教程中，我们以赶集网店数据采集和携程旅行数据采集为例，感受了一波优采云swish swish采集数据。(li) 监管 (hai) 运作。

　　嗯？这两个实战案例，规则配置差不多，采集流程也有点类似吧？

　　来吧，是时候回溯源头，通过现象看本质了。

　　网页的内容由相似的块组成。需要点击“下一步”翻页，然后点击各个链接进入详情页采集数据，没错——页面列表详情采集。

　　本文中的示例网站地址为：

　　在开始采集之前，先观察网页的结构，明确采集的内容。以示例 URL 为例，内容有 4 页，每页有 3 个电影链接。我们需要点击每部电影的链接，进入电影详情页面，采集电影剧情、上映时间等字段。

　　优采云基于火狐内核浏览器，通过模拟人类的思维和操作方式，自动提取网页内容。以示例网址为例，在优采云中打开后，需要创建一个点击“Next”的翻页循环，自动点击“Next”进行翻页。再创建一个电影链接列表循环，打开每部电影的链接，进入电影详情页面。然后采集来自电影详情页面的数据。

　　1 打开网页

　　1) 登录优采云7.0采集器，点击新建任务，选择“自定义采集”。进入任务配置页面

　　2) 输入 URL 为采集并单击“保存 URL”。系统会进入工艺设计页面，自动打开之前输入的URL

　　2 创建一个翻页循环

　　1）用鼠标点击“下一页”按钮，在弹出的操作提示框中选择“循环点击下一页”。这一步会模拟手动并自动点击翻页

　　3 建立一个循环列表

　　1) 点击下图中第一部电影《教父2》的链接，链接会被选中并标有绿色框

　　2）优采云的智能算法会自动检测其他相似元素（本例中是另外两个电影标题链接）。在操作提示框中选择“全选”，优采云自动选择所有电影链接

　　3) 选择“循环点击各个链接”，优采云会自动一一点击各个影片链接进入影片详情页面

　　4 提取数据

　　1）点击页面上要提取的电影的标题字段，标题字段会被选中，选中后会用红色框标出。

　　2）在弹出的提示框中，选择“采集该元素的文本”，表示页面中的文本数据为采集

　　3）同理，点击另一段你要采集，然后选择“采集这个元素的文字”

　　5 修改字段名称

　　1) 点击“Process”按钮，显示“Process Designer”和“Customize Current Action”面板。（在规则配置过程中可以随时打开进程）

　　2) 在如下界面中，修改字段名称。这里的字段名相当于表头，方便采集时区分各个字段类别。修改后点击“确定”保存

　　6 启动采集

　　1) 点击“保存并启动”，在弹出的对话框中选择“本地启动采集”。系统将在本地计算机上启动一个采集任务和采集数据

　　2）任务采集完成后会弹出采集的提示，然后选择导出数据，这里以选择导出excel2007为例，然后点击确定

　　3）选择文件存储路径，然后点击保存

　　然后，我们在几分钟内得到这些数据

　　有没有更好的学习*敏*感*词*模式的方法？

　　任何建议或问题，请给我biubiubiu！

　　推荐给小可爱们

　　学习分页列表详细信息采集

　　趁热打铁

　　更多实用教程

0

2022-10-19

免费采集系统

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

汇总:埋点及数据采集系统简介

0 个评论

发起人

AI时代内容工厂

汇总:埋点及数据采集系统简介

0 个评论

发起人

相关问题