传统数据与大数据之间的区别,你知道吗?
优采云 发布时间: 2021-08-15 00:12传统数据与大数据之间的区别,你知道吗?
您想更好地了解传统数据和大数据的区别,在哪里可以找到数据以及可以使用哪些技术来处理数据?
这些是处理数据时必须采取的第一步,因此这是一个很好的起点,特别是如果您正在考虑从事数据科学职业!
“数据”是一个广义的术语,可以指“原创事实”、“处理过的数据”或“信息”。为确保我们在同一页面上,让我们在讨论细节之前将它们分开。
我们采集原创数据,然后对其进行处理以获得有意义的信息。
嗯,很容易将它们分开!
现在,让我们进入细节!
原创数据(也称为“原创事实”或“原创数据”)是您积累并存储在服务器上但尚未触及的数据。这意味着您无法立即对其进行分析。我们将原创数据的采集称为“数据采集”,这是我们要做的第一件事。
什么是原创数据?
我们可以将数据视为传统数据或大数据。如果您不熟悉这个想法,您可以想象收录分类数据和数值数据的表格形式的传统数据。这些数据被结构化并存储在可以从计算机管理的数据库中。采集传统数据的一种方法是调查人员。让他们以 1 到 10 的等级评估他们对产品或体验的满意度。
传统数据是大多数人习惯的数据。例如,“订单管理”可帮助您跟踪销售、采购、电子商务和工单。
但大数据是另一回事。
顾名思义,“大数据”是为超大数据保留的术语。
您还会经常看到它带有字母“V”。如“大数据的 3V”中所述。有时我们可以拥有5、7甚至11个“V”的大数据。它们可能包括您对大数据的愿景、大数据的价值、您使用的可视化工具或大数据一致性的可变性。等等...
但是,您必须记住以下最重要的标准:
音量
大数据需要大量的存储空间,通常分布在多台计算机上。它的大小以TB、PB甚至EB为单位
品种
在这里,我们不仅谈论数字和文字。大数据通常意味着处理图像、音频文件、移动数据等。
速度
在处理大数据时,目标是尽快从中提取模式。我们在哪里遇到大数据?
答案是:在越来越多的行业和公司中。这些是一些著名的例子。
作为最大的在线社区之一,“Facebook”会跟踪其用户的姓名、个人数据、照片、视频、录制的消息等。这意味着他们拥有各种各样的数据。全球有 20 亿用户,其服务器上存储的数据量巨大。
以“金融交易数据”为例。
当我们每 5 秒记录一次股票价格时会发生什么?还是每一秒?我们得到了一个庞大的数据集,需要大量内存、磁盘空间和各种技术才能从中提取有意义的信息。
传统数据和大数据都将为您提高客户满意度奠定坚实的基础。但这些数据可能有问题,因此您必须在做任何其他事情之前对其进行处理。
如何处理原创数据?
让我们把原创数据变成漂亮的东西!
在采集到足够的原创数据后,首先要做的就是我们所说的“数据预处理”。这是一组将原创数据转换为更易于理解且对进一步处理有用的格式的操作。
我认为这一步会被挤在原创数据和处理之间!也许我们应该在这里添加一个部分...
数据预处理
那么,“数据预处理”的目的是什么?
它试图解决数据采集中可能出现的问题。
例如,在您采集的某些*敏*感*词*中,您可能有一个注册年龄为 932 岁或姓名为“UK”的人。在执行任何分析之前,您需要将此数据标记为无效或更正。这就是数据预处理的全部内容!
让我们研究预处理传统数据和大原创数据所使用的技术?
类标签
这涉及将数据点标记为正确的数据类型,换句话说,按类别排列数据。
我们将传统数据分为两类:
一个类别是“数量”——如果您想存储每天售出的商品数量,那么您正在跟踪价值。这些是您可以操纵的数字。例如,您可以计算每天或每月销售的平均产品数量。
另一个标签是“分类的”——这里你处理的是数学无法处理的信息。例如,一个人的职业。请记住,数据点仍然可以是数字,而不是数字。他们的出生日期是一个数字,你不能直接操纵它来给你更多的信息。
考虑基本的*敏*感*词*。 *(使用的数据集来自我们的SQL课程)
我们将使用此表和有关客户的文本信息来清楚地举例说明数值变量和分类变量之间的区别。
注意第一列,它显示了分配给不同客户的 ID。你不能操纵这些数字。 “平均”ID 不会为您提供任何有用的信息。这意味着即使它们是数字,它们也没有数值,是分类数据。
现在,关注最后一列。这显示了客户提出的投诉数量。你可以操纵这些数字。将它们加在一起得出投诉总数是有用的信息,因此它们是数字数据。
我们可以查看的另一个示例是每日历史股价数据。
*这是我们在 Python 课程中使用的。
在您在这里看到的数据集中,有一列收录观察日期,这被视为分类数据。还有一列收录股票价格的数字数据。
当您使用大数据时,事情会变得更加复杂。除了“数量”和“类别”数据,您还有更多选择,例如:
文本数据
数字图像数据
数字视频数据
和数字音频数据
数据清洗
也称为“数据清理”或“数据清理”。
数据清洗的目的是处理不一致的数据。这可以采取多种形式。假设您采集了一个收录美国各州的数据集,其中四分之一的名称拼写错误。在这种情况下,您必须实施某些技术来纠正这些错误。您必须清除数据;线索就是名字!
大数据的数据类型更多,数据清洗的方法也更广。有一些技术可以验证数字图像是否已准备好进行处理。并且有具体的方法来保证文件的音频质量足以继续。
缺失值
“缺失值”是您必须处理的其他事情。并非每个客户都会为您提供所需的所有数据。客户经常会告诉你他的姓名和职业,而不是他的年龄。在这种情况下你能做什么?
您是否应该忽略客户的整个记录?或者您可以输入剩余客户的平均年龄吗?
无论采用哪种最佳解决方案,都必须先清理数据并处理缺失值,然后才能进一步处理数据。
处理传统数据的技术
让我们输入两种处理传统数据的常用技术。
平衡
假设您编制了一份调查问卷,以采集有关男性和女性购物习惯的数据。假设您想确定谁在周末花的钱更多。但是,当您完成数据采集时,您会发现 80% 的受访者是女性,只有 20% 是男性。
在这种情况下,您发现的趋势将更多地针对女性。解决这个问题的最好方法是应用平衡技术。例如,如果从每个组中抽取相同数量的受访者,则比例为 50/50。
数据重组
从数据集中洗牌就像洗牌一样。这将确保您的数据集不会出现由有问题的数据采集引起的有害模式。数据改组是一种提高预测性能并有助于避免误导性结果的技术。
但是如何避免这种错觉呢?
嗯,这是一个详细的过程,但简而言之,shuffle 是一种随机化数据的方法。如果我从数据集中获得前 100 个观察值,则它不是随机样本。最高的观察将首先被提取。如果我打乱数据,那么可以肯定的是,当我连续输入 100 个条目时,它们将是随机的(并且很可能具有代表性)。
大数据处理技术
让我们来看看一些处理大数据的特定案例技术。
文本数据挖掘
想想以数字格式存储的大量文本。嗯,许多科学项目正在进行中,以从数字资源中提取特定的文本信息。例如,您可能有一个数据库,用于存储学术论文中有关“营销费用”(您研究的主要主题)的信息。大数据分析技术有哪些?如果数据库中存储的来源数量和文本量足够小,您可以轻松找到所需的信息。通常,尽管数据量很大。可能收录学术论文、博客文章、在线平台、私人excel文件等信息。
这意味着您需要从许多来源中提取“营销支出”信息。换句话说,就是“大数据”。
这不是一件容易的事,这促使学者和从业者开发了执行“文本数据挖掘”的方法。
数据屏蔽
如果您想维持可靠的商业或政府活动,您必须保留机密信息。在线共享个人详细信息时,您必须对信息应用一些“数据屏蔽”技术,以便在不损害参与者隐私的情况下对其进行分析。
与数据混洗一样,“数据屏蔽”也可能很复杂。它使用随机和虚假数据隐藏原创数据,并允许您分析所有机密信息并将其保存在安全的地方。将数据屏蔽应用于大数据的一个例子是通过“保密数据挖掘”技术。
完成数据处理后,您将获得所需的有价值且有意义的信息。我希望我们了解传统数据和大数据之间的差异以及我们如何处理它们。