【香樟推文】知识发现及其数据挖掘的发展历史

优采云 发布时间: 2021-07-06 23:19

  【香樟推文】知识发现及其数据挖掘的发展历史

  总结:本文介绍了知识发现和数据挖掘的发展历程,以及数据挖掘的常用技术和应用。

  [关键词] 知识发现、数据挖掘

  1、引言

  随着数据库技术的成熟和数据应用的普及,人类积累的数据量呈指数级增长。 20世纪90年代,随着互联网的出现和发展,以及随后的内网、外网、VPNVirtualPrivatenetwork的产生和应用,将整个世界链接成一个小地球村,人们可以在互联网上交换数据和信息并协同工作。时间和空间。这样,展现在人们面前的,就不仅是这个部门、单位、行业庞大的数据库,而是浩瀚的信息海洋,数据泛滥的洪流淹没了人们。当数据量急剧增加时,如果没有有效的方法通过计算机和信息技术提取有用的信息和知识,人们将在信息的海洋中如大海捞针一样束手无策。据估计,大型企业数据库中只有 7% 的数据得到了很好的利用。这样,相比于“数据过剩”和“信息爆炸”,人们会感到“信息贫乏”(Informationpoor)和“数据入狱”(datainjail)。约翰·奈斯贝特 (John Naisbett) 惊呼“Wearedrowninginformation, butstarvingforknowledge”(人类被数据淹没,但渴望知识)。

  面对海量的数据,人们呼唤海量数据中去粗留精、去伪存真的技术。从数据库中发现知识(KDD)及其核心技术——数据挖掘(DM)应运而生。

  2、知识发现过程

  知识发现(KDD)是从数据中发现有用知识的整个过程;数据挖掘 (DM) 是 KDD 过程中的一个特定步骤,它使用特殊算法从数据中提取模式。 1996 年,Fayyad、Piatetsky Shapiror 和 Smyth 将 KDD 过程定义为从数据中识别有效模式的重要过程,这是新的、可能有用且最终可以理解的。

  KDD过程是一个多步骤相互关联、反复人机交互的过程。具体:

  ①学习某个应用领域:包括应用中的前置知识和目标。

  ②建立目标数据集:选择一个数据集或关注多个数据集的一个子集。

  ③数据预处理:去除噪声或无关数据,去除空白数据字段,考虑时序和数据变化等

  ④数据转换:寻找数据的特征表示,利用维数变换或转换方法减少有效变量的个数或寻找数据的不变量。

  ⑤选择数据挖掘功能:确定数据挖掘的目的。

  ⑥选择数据挖掘算法:利用KDD过程中的标准,选择特定的数据挖掘算法(如聚合、分类、回归、聚类等)来搜索数据中的模式。

  ⑦数据挖掘:搜索或生成特定的兴趣模式或特定的数据集。

  ⑧说明:对发现的模式进行说明,去除多余的不合适的模式,转化有用的模式让用户理解。

  ⑨发现知识:将该知识集成到操作系统中,获取该知识的功能或证明该知识。使用先验的、可信的知识来检查和解决知识中可能存在的矛盾。

  3、知识发现的核心——数据挖掘

  所谓的数据挖掘,就是从数据库中提取隐藏的、以前未知的、可能有用的信息的过程。数据挖掘是KDD的核心部分。数据挖掘与传统分析工具的区别在于,数据挖掘使用基于发现的方法,使用模式匹配等算法来确定数据之间的重要联系。

  数据挖掘算法的好坏将直接影响发现知识的质量。目前的研究大多集中在数据挖掘算法和应用上。需要注意的是,有学者认为数据挖掘和知识发现具有相同的含义,用KDD/DM表示。它是一个迭代过程,通常涉及多个相互关联的步骤:预处理、假设、算法选择、提取规则、结果的评估和解释、模式转化为知识,最后应用。在实践中,人们往往没有严格区分数据库中的数据挖掘和知识发现,而将两者混为一谈。科研领域一般称为KDD,工程领域一般称为数据挖掘。

  4、数据挖掘中的常用技术

  目前市场上数据挖掘应用的商品化工具和软件种类繁多,大致可以归纳为以下主要类型:

  [1] 传统主观指导系统:这是一个专业应用系统。如基于技术分析方法的金融市场分析。所采用的方法从简单的分析到基于高等数学的分形理论和谱分析。这项技术需要一个经验模型作为先决条件。该类商品包括American Metastak、SuperCharts、CandlestickForecaster、WallStreetMoney等[2]传统统计分析:这类技术包括相关分析、回归分析和因子分析。一般情况下,用户先提供假设,然后系统使用数据进行验证。缺点是只能在训练后使用。同时,用户在数据探索过程中需要重复进行一系列操作。此类产品包括美国的SAS、SPSS和Stargraphis。由于近年来更先进的DM方法的出现和使用,这些厂商在他们原有的系统中集成了一些DM组件,以获得更完整的功能。以上两种技术主要以传统数理统计和其他数学为基础,已普遍用于数据分析。

  [3] 神经网络(NN)技术:神经网络技术是软计算(SoftComputing)领域的重要方法。它是科研人员多年模拟人脑神经学习功能的结果。它已成功应用于各个工业部门。在DM(KDD)的应用中,当难以从复杂或不准确的数据中推导出概念和确定方向时,使用神经网络技术尤其有效。训练好的神经网络可以被想象成具有一些专业知识的“专家”,因此它可以像人类一样从经验中学习。 NN 的结构很多,但最常用的是多层 BP(反向传播)模型。它已广泛应用于各种DM(KDD)工具和软件中。有些是以神经网络为主导技术的,比如*敏*感*词*的PolyAnalyst、美国的BrainMaker、Neurosell和OWL。 NN 技术也被广泛用作嵌入各种 DM 软件包的方法。缺点是当用于分析金融市场等复杂系统时,NN需要具有大量神经元和连接数的复杂结构,使得*敏*感*词*融应用分析系统广泛而成功地采用。

  [4] 决策树:在知识工程领域,决策树是一种简单的知识表示方法,将案例逐步分类为不同的类别。由于分类规则比较直观,所以比较容易理解。这种方法一般仅限于分类任务。在该系统中,美国的IDIS、法国的SIPINA、英国的Clementinc和澳大利亚的C5.0.都在系统中采用了这种方法。 [5] 进化编程(Evolutionary Programming):这种方法的独特思想是:系统自动生成关于目标变量对其他变量的依赖的业务假设,并形成用内部编程语言表达的程序。内部程序(假设)的生成过程是进化的,类似于遗传算法的过程。当系统发*敏*感*词*融到医疗的各种应用,并能取得非常好的效果。

  [6] 基于案例的推理(CBR——Casebasedreasoning):这种方法的思想很简单。在预测未来情况或做出正确决策时,系统会寻找与*敏*感*词*融市场或医疗诊断应用中提供可靠的结果。*敏*感*词*的 PalyAnalyst 和美国的 Neuroshell 均采用了这项技术。

  上面列出的 DM 技术不能详尽无遗,因为多年的数理统计分析以及 AI 和 KE 研究提供了具有不同特征的广泛方法。 DM 开发者可以根据不同的任务选择使用它们。此外,近年来对软计算(SoftComputing)和不确定信息处理(dealingwithUncertaintyofinformation)方法的研究推动了DM(KDD)技术向更深层次的发展。

  需要注意的是,上面提到的DM中的数据是指数据库中以表格形式存在的记录和条目。这种数据称为结构化数据。在企业中,还有另一种以文本和网页形式存在的数据,称为非结构化数据。它来自不同的信息来源,如文本、图像、影视、音频等。当然,文本是最重要的一种非结构化数据。 1995 年,分析师预测文本等非结构化数据将成为在线存储中的主要数据形式。到1998年初,互联网上的信息网页数量已超过5亿。随着互联网的扩张和大量在线文本的出现,将标志着这片巨大的非结构化数据海洋中收录着极其丰富的有用信息,即知识。人们从书本中获取知识的方式是阅读和理解。开发一种工具,可以帮助用户从非结构化数据中提取关键概念并快速有效地检索感兴趣的信息,这将是一个非常引人入胜的研究领域。目前,各种基于图书索引检索和超文本技术的搜索引擎都可以帮助用户找到自己需要的信息。但是,要深入挖掘这类数据中的有用信息,还需要更高层次的技术支持,与人工智能领域相关。预计将采用知识表示和获取方法(如语义网络概念映射等),以及自然语言理解的研究成果。它还可能涉及语言心理学等领域。最近有关于基于文本的 DM 工具的报道。如 IBM 的 TexMiner、NetQuestion、WedCawler 和 TextAnalyst。

  5、数据挖掘的实际应用

  DM (KDD) 工具和软件已在各个部门得到很好的应用,并获得了显着的收益。

  [1] 金融方面:银行*敏*感*词*和保险行业,预测存贷趋势,优化存贷策略,利用DM将市场划分为有意义的群体和部门,从而更好地帮助市场经理和业务主管专注于促销活动并设计新的市场动向。

  [2] 在客户关系管理方面:DM 可以识别产品使用模式或协助了解客户行为,从而可以改进渠道管理(例如银行分行和 ATM)。另一个例子是基于客户生命周期模型实施的适时营销(RightTimeMarKeting)。

  [3] 在零售/营销领域:它是数据挖掘技术应用最早也是最重要的领域。 DM用于分析客户的购物篮,以协助货架布局、促销时间、促销产品组合以及了解滞销和商业活动的畅销产品状况等。通过对各连锁店某厂家产品的市场占有率分析、客户统计和历史分析,可以判断销售和广告的效果。

  [4] 在过程控制/质量监督和保证方面:DM 协助管理大量变量之间的相互作用。 DM可以自动发现一些异常的数据分布,暴露制造和装配操作中的变化和变化。各种因素有助于质量工程师快速发现问题的范围并采取纠正措施。

  [5] 在电信部门:基于DM的分析辅助组织战略变革以适应外部世界的变化,并确定市场变化模式以指导销售计划。在网络容量利用率方面,DM可以提供对客户群服务所使用的结构和模式的了解,从而指导容量规划者对网络设施做出最佳投资决策。

  [6] 化学/制药行业:自动从各种文件中提取有关化学反应的信息,并发现新的有用化学成分。在遥感领域,来自卫星和其他来源的海量数据可以在天气预报和臭氧层监测中发挥重要作用。

  [7] 军事:在军事信息系统中使用 DM 进行目标特征提取和情景关联规则挖掘。

  简而言之,DM可广泛应用于银行金融、零售批发、制造、保险、公共设施、政府、教育、远程通信、软件开发、交通运输等企事业单位和国防科研。据报道,DM的投资回报率已达到400%甚至10倍。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线