前言:中文期刊网精心挑选了数据挖掘技术应用范文供你参考和学习,希望我们的参考范文能激发你的文章创作灵感,欢迎阅读。
数据挖掘技术应用范文1
随着科技的进一步发展,已经带动着各大领域的创新和发展。而我国在近年来,城市信息化的普及也在不断推进,网络技术的改革和发展也显得格外重要。而特别很多企业对于自身的信息和数据储存、共享以及处理都格外注重,要求技术本身要包含安全性、便捷性以及可靠性。,而是在大数据提出后,数据挖掘技术已经成为了一种新的主流技术,而研究数据挖掘技术的理念、方法以及应用领域,将对我国工程施工领域的未来带来更多的机遇和挑战。
关键词:
大数据时代数据挖掘技术分析和研究运用数据挖掘技术,也被称为数字处理技术,顾名思义,就是对于目前各大企业的内部数据,进行整理、调整、挖掘实施以及评估等一系列处理操作,其主要的目标是保证全局数据都能够得到充分的优化。而大数据则是区分于以往抽样调查的方法,而是对于全局数据进行分析,从而保证分析的全面以及完成。而大数据技术也包含4个优点,即高数量、高速度、多元化以及高价值。而笔者将通过本文,就大数据时代的数据挖掘技术与应用进行分析和探讨。
1相关概念的简介
1.1大数据的概念关于大数据的理念提出,可以追溯到麦肯锡研究院于2011年的《大数据:创新、竞争和生产力的下一个新领域》,其中阐述的观念就涵盖数据方面,即数据已经融入到了人们的日常生活中,也是生产运作的一个重要因素。而大数据的运用,对于消费以及生产水平都是一种有效的提升提升,根据美国曾经的《大数据研究和发展倡议》资料,截至2011年一年,全球总的数据就增加了1.8ZB,而进行人均计算,相当于每个人都具有至少200GB的数据资源,而且这一数据还在呈现出日益增长的趋势,根据统计计算,这一数值将会按照约为50%/年的速度增长。
1.2数据挖掘作为一个新型学科,数据挖掘技术源于20世纪的80年代,那时其效用与目前存在本质差异,科学家最初研究大数据,主要是用于一些人工智能技术的开发。简而言之,技术层面上,数据挖掘就是一个对数据进行发掘创新的过程,即要求目标数据具有隐蔽性、挖掘价值以及挖掘潜力,而且需要操作者在一堆冗杂的、随机的、模糊的数据库中进行挖掘;而对于商业层面上来说,数据挖掘就是在一些大量的数据信息中获得规律以及价值信息,从而为决策提供重要的知识凭据。
2数据挖掘的研究手段
对于数据挖掘而言,不同的研究手段将是其开展的重要基础,而研究手段的决定,主要需要依靠科学的计算为依据,分析和对比数据中存在的一些不为人知的规则,然后通过研究手段的改变去应付不同的问题,对于实际操作来说,就是针对不同的数据找出不同的解决方法,而常见数据挖掘的研究手段主要可以分为四类,即聚类研究、分类和预测以及关联研究。
2.1聚类研究将抽选的数据或者对象的库进行类似“分类”的聚类划分,然后再将其中的相同或者相近的数据划分为一个组类,由此建立起多个组类开展研究的过程。整个过程突出的是一种无知识基础、无监督管控的学习过程。而整个过程由于分类研究有本质的差异,因为聚类研究在事先根本无法得到目标的重要属性数据,而这种分析方法主要可以用于多个区域,例如心理、统计、医药、销售以及数据识别等,而根据其隶属度的取值,有能将其分为两种研究方法,即硬聚类与模糊聚类,对于前者来说,就是将目标按照影响标准进行划分,即目标如果属于某类,必定不属于其他类;而对于后者来说,主要取决与隶属度的取值不同。而划分过程可能会将目标划分入多个聚类中。此外聚类的计算方法也能分为多种,即包含密度算法、层次算法、划分算法、网格算法以及模型算法等等。
2.2分类与估测对于分类与数值估测来说,都是属于是问题预测方式,其中前者要求估测各个类中的标号,这些标号都是分散且无规律的,而估测方法可以采用函数模型,要求模型类型为连续值函数。分类估测作为数据挖掘的起始工作,主要需要反应已经获知的训练数据库的特点,从而根据以上基础完成其中对每一类的情况以及特点完成相应的分类操作,而整个操作也是受到督促的,对于一般的分类算法可以有决策树、粗糙集、贝叶斯、遗传等算法,而估测主要是基于分类以及回归基础,估测数据将来的动向,即包含局势外推、时间序列以及回归分析几类。
2.3关联研究关联研究是源于自然生物间微妙的关系,而某事情的发生和发展也会引发连锁的事情发展,也就类似所谓“蝴蝶效应”的定义。而关联研究的研究目标即是研究物与物之间的微妙关系,包含一些依赖关系等等,从而找出其中的规则,基于规则,分析将来的动向。以购物为例,分析购物者的心理规律以及习惯,可以从他们对于购物的一系列表现,例如购物篮的物品类型、放置规律、购物消费理念、购物环境需求等等,而掌握这些规律,足以让一个销售企业获得巨大的消费市场以及商机。
3大数据时代的数据挖掘的运用
3.1数据准备准备流程需要依附于研究者已经建立起长期且丰富数据资源的数据库,而根据这些无规则的原始数据进行相应的挖掘前的准备的工作,例如数据的处理、择取、清除、推敲以及转变,作为基础的流程,数据准备操作在整个流程中起到重要的基础作用。
3.2数据挖掘开展数据挖掘操作,需要根据挖掘对象的情况择选最优的计算方法,从而获取其中的规律性,例如对应采用决策树算法、分类算法、神经网络算法以及Apriori算法等。
3.3数据挖掘的模式评估研究模式评估的对象主要是通过数据挖掘处理过程数据,而评估流程是了解、研究且取得其中数据的规则,然后对数据进行转变“翻译”成通俗易懂的语言,供人们去研究和思考。
3.4数据挖掘的知识应用知识应用是数据挖掘的最后一步,通常知识运用就是一种现实运用的过程,通过数据准备、挖掘、研究评估,最后将结果数据或者规律用于现实中,从而体现数据的本身的价值,这就是知识应用的内涵。
4大数据时代的数据挖掘的运用
4.1市场营销方面市场营销行业已经是目前数据挖掘采用最多的行业,数据挖掘的作用主要体现在的对于消费者群体的消费习惯以及行为进行解析,从而改变销售方法,提升产品的销售量,此外,除了一些购物消费以外,数据挖掘技术以及拓展到了各大金融行业,例如保险行业、银行行业以及电子商务行业等等。例如:在市场营销方面,采用数据挖掘中的聚类研究,即客户一系列无规则、无意识的行为数据,对他们进行识别,即根据客户的忠诚度、消费意识进行分类,帮助企业寻找其中的潜在客户以及固定客户群。
4.2数据挖掘的科学分析科学本身就是一个寻找规律、发现规律以及利用规律的过程,而且任何科学研究都是需要基于数据作为基础,所以数据挖掘对于科学领域也具有重要的意义和价值,特别是针对一些未知的事物、领域或者知识,通过数据挖掘可以有效展示数据规则。例如对于太空行星的分析,遗传基因DNA的数据以及遗传规律等。
4.3制造业与其他行业不同,制造业运用数据挖掘的目的主要是产品质量检查方面,例如研究产品的数据,找出其中规则。分析整体生产流程,解析其中过程,找出影响生产质量以及效率的问题,然后通过对这些问题进行解决,提升企业经济效益。对于制造业而言,数据挖掘运用主要体现在决策方面,即首先通过数据筛选,获取有用的知识和数据,然后采用决策树算法,统计决策,然后选择其中正确的决策,即像根据目前产品的流行情况,预测目前生产产品的受欢迎度,然后决策生产的时间以及周期。
4.4教育方面对于教育行业来说,最重要的除了教师的教学方法以外,学生的学习情况、心理动向以及教学评估都是十分重要的,采用数据挖掘技术,则可以有效将这些数据通过分类、筛选以及处理,得出有效的数据规则,供学校教学改革时进行参考。例如:教学质量评估数据挖掘模块的开发,即将教学质量相关的项目通过QSLSevrer进行整合和存储,例如教学准备、教学内容、教学方式以及教学态度等,最后学生可以进行自行浏览并且完成评估,而评估结果则会上传系统进行最后通过数据挖掘,筛选其中有用的信息,再通过Apr1ori算法挖掘其中关联规律。
5结语
虽然数据挖掘技术不是一项新兴的技术,但是其还具有较大的研究价值与运用前景,特别是在特殊领域的运用,对于一系列数据进行科学冗杂的处理,然后分析其中规则价值,可以有效提升各大行业的经济效益。
参考文献
[1]赵倩倩,程国建,冀乾宇,戎腾学.大数据崛起与数据挖掘刍议[J].电脑知识与技术,2014,11(33):7831-7833.
[2]韩英.浅析大数据时代的数据挖掘与精细管理[J].成都航空职业技术学院学报,2013,12(04):63-71.
数据挖掘技术应用范文2
[关键词]数据挖掘 企业 应用
[中图分类号]TP[文献标识码]A[文章编号]1007-9416(2010)02-0079-02
1 前言
数据挖掘能帮助企业减少不必要投资的同时提高资金回报。数据挖掘给企业带来的潜在的投资回报几乎是无止境的。世界范围内具有创新性的公司都开始采用数据挖掘技术来判断哪些是他们的最有价值客户、重新制定他们的产品推广策略,以用最小的花费得到最好的销售。
2 数据挖掘概述
数据挖掘是一种决策支持过程,是一类深层次的数据分析方法。它主要基于AI、机器学习、统计学等技术,高度自动化地分析企业原有的数据,作出归纳性地推理,从中挖掘出潜在的模式,预测客户行为,帮助企业的决策者调整市场策略,减少风险,做出正确的决策。数据挖掘的商业应用可以描述为:按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化的先进有效的方法。数据挖掘是一个利用各种分析工具在海量数据中发现模型和数据间关系的过程,这些模型和关系可以用来做出预测。数据挖掘,还可以称为数据库中的知识发现(Knowledge Discovery in Database, KDD),是从大量数据中提取出可信、新颖、有效并能被人理解的信息的高级处理过程。
2.1 数据挖掘是在数据库技术、人工智能技术、概率与数理统计的基础上发展起来的一种的技术。
2.1.1 数据库技术
SQL统治数据库查询语言标准三十多年这一事实本身就与现在 IT 发展的节拍不符,难道我们“只会查询”吗?所以就有很多专家纷纷转向数据仓库与数据挖掘技术,从数据查询转向数据挖掘、从数据演绎转向数据归纳。传统的数据库系统的体系结构也过于瘦少,只有不协调的两层,这样的结构就造成了只有程序员能编程,老板只能求助于这些“专家”。
2.1.2 人工智能技术
人工智能技术的三大难题:“知识获取、知识表示、缺乏常识”直接制约了它在现实技术市场上的作为。而在与数据仓库技术的结合上,它可以发挥重要作用,这使得它转向数据挖掘技术。
2.1.3 概率与数理统计
数理统计技术是应用数学中最重要、最活跃的学科。但在与数据库技术的结合上作为有限,这从 SQL 中那可怜的几条汇总函数便可看出。随着数据挖掘对查询、归纳对演绎需求的进化,概率与数理统计将获得新的生命力。
2.2 数据挖掘中最常用的技术:
2.2.1 工神经网络(Artificial Neural Networks)
人工神经网络是仿照生理神经网络结构的非线性预测模型,通过学习进行模式识别。神经网络常用于两类问题:分类和回归。在结构上,可以把一个神经网络划分为输入层、输出层和隐含层。而神经网络的知识体现在网络连接的权值上,是一个分布式矩阵结构;神经网络的学习体现在神经网络权值的逐步计算上,为的是防止训练过度和控制训练的速度,如图1所示:
2.2.2 决策树 (Decision Tree)
决策树方法是利用信息论中的互信息(信息增益)寻找数据库中具有最大信息量的属性字段,建立决策树的一个节点,再根据概述性字段的不同取值建立树的分支;在每个分支子集中重复建立树的下层节点和分支过程。决策树的基本组成部分:决策节点、分支和叶子。比如,在贷款申请中,要对申请的风险大小做出判断,为了解决这个问题而建立的一棵决策树,如图2所示:
2.2.3 临近搜索方法(Nearest Neighbor Method)
临近搜索方法将数据集合中每一个记录进行分类的方法。
2.2.4 规则推理(Rule Induction)
从统计意义上对数据中的“如果-那么”规则进行寻找和推导。
2.3 数据挖掘步骤
数据挖掘的数据分析过程可以分为三个步骤:
2.3.1 确定业务对象
清晰地定义出业务问题,认清数据挖掘的目的是数据挖掘的重要一步,挖掘的最后结构是不可预测的,但要探索的问题应是有预见的,为了数据挖掘而数据挖掘则带有盲目性,是不会成功的。
2.3.2 数据准备(Data Preparation)
本阶段又可进一步细分为两步:数据集成、数据选择和预分析。
(1)集成(Integration)。在这一步中,将从操作型环境中提取并集成数据,解决语义二义问题,消除脏数据等等。很明显,数据集成的目的和所利用的技术与数据仓库的数据集成完全一致,都是为了建立统一的数据视图。数据挖掘不一定需要建立在数据仓库的基础上,但如果数据挖掘与数据仓库能协同工作,则必将大大地提高数据挖掘的工作效率。
(2)数据选择和预分析(Data Selection and Pre-Analysis)。这一步将负责缩小数据范围,提高数据挖掘的质量,前面提到的验证型工具长于对数据的细致,深入地观察和表述,在这一步中可以发挥相当的作用。
2.3.3 挖掘(Mining)
数据挖掘(Data Mining processor)综合利用前面提到的四种数据挖掘方法分析数据库中的数据。
2.3.4 表述(Presentation)
与验证型工具一样,数据挖掘将获取的信息以便于用户理解和观察的方式反映给用户,这时可以利用可视化工具。由于用户要求的不同,DM分析的数据的范围会有所不同,这样DM系统会得出不同的结论。这些基于不同数据集合的分析结果除了通过可视化工具提供给用户外还可以存储在知识库中,供日后进一步分析和比较。
2.3.5 评价(Assess)
如果分析人员对分析结果不满意,可以递归的执行上述三个过程,直到满意为止。
3 数据挖掘在企业决策过程中的作用
3.1 数据挖掘的功能
数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘就是对海量数据进行精加工。严格地说,数据挖掘是一种技术,从大量的数据中抽取出潜在的、不为人知的有价值信息、模式和趋势,然后以易于理解的可视化形式表达出来,其目的是为了提高市场决策能力、检测异常模式、控制可预见风险、在经验模型基础上预言未来趋势等。数据挖掘技术在商业领域已经不是一个新名词,最早成功应用于高投入、高风险、高回报的金融领域,正在不断向电信、保险、零售等客户资源信息密集的行业拓展。美国财富杂志500强之一的第一数据公司(First Data Corp.)就在为第一国家银行(First National Bank)、美国在线交易(Ameritrade holding Co.)、奥马哈保险公司(Mutual of Omaha Co.)等著名的金融证券和保险公司提供数据挖掘的产品服务,这些企业在风险控制、挖掘客户、降低成本方面的年收益数以亿计。
3.2 在企业决策过程中利用数据挖掘的作用
本文为全文原貌 未安装PDF浏览器用户请先下载安装 原版全文
目前,商业数据挖掘的应用重点集中在对企业内部信息资源的加工处理,指导企业运营的战术策略的实施。具体地说,就是在以客户需求为价值源泉、进销存为价值链的各环节进行数据增值分析,并将分析结果迅速向链条的上一环节传递,调整链条上游的执行达到改善下游环节执行结果的目的,最终形成以客户终端需求为导向的价值增值。
部分企业资源计划软件中集成了对计划、生产、产品销售进行数据挖掘的模块,能够提供商业智能的分析结果;另外,客户需求的价值链终端是另一个数据挖掘技术应用的重点,客户关系管理的目的就是创造、挽留客户并不断升级对客户的服务,以保证企业利润的持续增长。“以客户为中心”的数据挖掘内容涵盖了客户需求分析、客户忠诚度分析、客户等级评估分析等三部分,有些还包括产品销售。
客户需求分析包括:消费习惯、消费频度、产品类型、服务方式、交易历史记录、需求变化趋势等因素分析。
客户忠诚度分析包括:客户服务持续时间、交易总数、客户满意程度、客户地理位置分布、客户消费心理等因素分析。
客户等级评估分析包括:客户消费规模、消费行为、客户履约情况、客户信用度等因素分析。
产品销售分析包括:区域市场、渠道市场、季节销售等因素分析。
然而,数据挖掘不仅仅用于客户关系管理,ERP更不能够完全覆盖数据挖掘的整个内涵。企业数据挖掘的内容不仅包括企业的内部信息资源,更包括大量的企业外部信息资源。商业数据挖掘的下一个应用热点将建立在两类信息资源充分整合的基础上。
相对于内部信息资源而言,企业外部的宏观政策环境、市场需求动向和竞争对手情报等信息资源左右着企业战略决策与宏观发展规划,也直接决定企业市场战术策略的实施,所以对信息资源的整合利用以及竞争情报分析将成为企业级数据挖掘应用的重点。
以IBM为例,为了导正企业战略决策方向,IBM于1993年提出三项竞争策略:立即加强对竞争对手的研究、建立一个协调统一的竞争情报运行机制以及将可操作的竞争情报运用于公司战略、市场计划及销售策略。其新的竞争策略通过研究市场格局和竞争对手的状况、合理定位并改善自身的产品和服务两个途径有效地提升了企业核心竞争力,采用的竞争情报运行机制及竞争情报规划能够把全公司的竞争情报力量集中于主要的竞争对手和主要威胁,不断地优化现有的情报资源。
随着企业市场竞争的日益加剧,企业竞争情报已经不限于原有意义上的数据采集、整理、分类、的概念,“在线”需求逐步超越“离线”需求,“受动式服务”正为“主动式、自助式”服务所取代,数据挖掘技术已经成为“信息分析”这个企业竞争情报系统中核心模块的技术支撑。“数据在线服务”和“竞争情报个性化服务”将成为企业级数据挖掘应用的新热点需求,也将成为知识经济下新兴的数据服务模式。
4 结语
数据挖掘的核心技术是人工智能、机器学习、统计学等,但一个DM系统不是多项技术的简单组合,而是一个完整的整体,它还需要其他辅助技术的支持,才能完成数据采集、预处理、数据分析、结果表述这一系列任务,最后将分析结果呈现在用户面前。
[参考文献]
[1] 胡百敬,SQL Server 2000 数据转换服务[M],北京:中国铁道出版社,2003.1.
[2] Reed Jacobson,SQL Server 2000 Analysis services 学习指南[M].北京:机械工业出版社,2001.
[3] 韩加炜J.(Han,JiaWei),数据挖掘:概念与技术[M].北京:机械工业出版社,2001.
[4] 陈京民,数据仓库与数据挖掘[M],北京:电子工业出版社,2002.
[5] 李真文, SQL Server 2000 开发人员指南[M].北京:北京希望电子出版社,2001.
[6] 石钧.ADO编程技术[M].北京:清华大学出版社,2001.
[7] Jared Jackson,Jussi Myllymaki,基于Web的数据挖掘[C].网站获取,2001.6.
数据挖掘技术应用范文3
关键词:数据挖掘;技术;应用;分析
中图分类号:TP311文献标识码:A文章编号:1007-9599 (2012) 01-0000-02
Application Analysis of the Data Mining Technology
Zhang Yihui
(Shandong Polytechnic,Jinan250104,China)
Abstract:With the advent and popularization of the Internet age,a lot of information get together,in the quick and easy at the same time to give people the agent has brought us a problem,how is the large amount of data to digest and true and false identification,followed by information how secure is to ensure that lay their unified approach method.This is a new term-data mining technology.Data mining is a relatively new database technology,there is a wide range of practical applications demand;made a comprehensive overview of data mining technology,citing a data mining system composition and mining method.
Keywords:Data mining;Technology;Application;Analysis
何为数据挖掘,所谓数据挖掘(Data Mining)在传统的定义就是提取隐含在大量的、不完全的、有噪声的、模糊的、随机的数据中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。意思简单来讲就是从一大堆乱七八糟的信息数据里提取一些对自己有用的数据知识。
一、数据挖掘的概念
从面的定义中我们对数据挖掘有了一个模糊的了解,其实数据挖掘技术通俗的从字面意思理解就是从数据中挖掘有用的数据。我国一些单位普遍都采用了计算机技术来处理单位的一些业务,因为计算机的分析处理数据的能力比较强,所有产生了大量的业务数据,通过计算机来分析这一大批数据不单单是为了研究的需要,更为重要的是从这些杂乱的数据中分析提取一些对自身企业有价值的数据信息。一些企业单位要从大批量的数据中获取对自己有用的数据来进行企业运作以及提高自身企业的竞争能力,这就好比从矿石中提炼金子一样,提取的都是精华。所以数据挖掘越来越得到人们的重视。
随着数据挖掘和知识发现核心技术研究的逐步深入,其核心模块已经强有力的形成了三大的技术领域:数据库技术、人工智能和数理统计。随着高性能的关系数据库引擎的广泛数据集成和相关理论研究和相关技术的成熟,,让数据库挖掘技术进入了实用阶段。
在国际上,由美国人工智能协会主办的KDD(数据库中的知识发现,简称KDD)已经渐渐被人们所接受,已经召开了数十次国际研讨会,随着规模的不断壮大,在注重多种发现策略和技术的集成,理论研究指导实践应用,以及多种学科之间的相互渗透的基础上,研究重点也逐渐从发现方法转向系统应用,成为目前计算机领域的研究热点;与国外相比,国内研究起步较晚,主要是处在基础理论上的研究。国家自然科学基金对于该领域的研究项目是1993年首次支持。目前,知识发现的基础理论及其应用研究在国内的许多知名的高等院校和科研机构已经开展。
二、数据挖掘系统的组成
以下是典型的数据挖掘的几个组成部分:
(一)数据挖掘所操作的最直接的对象就是数据库,这些数据库是一个或一组可以在数据上进行数据收集、存储、处理和集成的数据库、数据仓库或其他类型的信息库。
(二)数据库或数据仓库服务器:在数据处理过程中,根据客户的数据挖掘请求的指令信息,数据库或数据仓库服务器负责提取相关数据反馈信息。
(三)知识库:数据挖掘的关键技术就是知识库,它是用于指导数据搜索、查找、分析或拟合评估模式的兴趣度的领域知识集。另外将数据信息集中属性或属性值组成不同的数据抽象层的概念分层和用户确信方面的知识数据也包括在里面。
(四)数据挖掘引擎:用于特征化、关联、分类、聚类分析以及演变和偏差分析的一组功能模块,这是数据挖掘系统的基本组成。
(五)模式评估模块:这是数据挖掘实现的关键所在,在数据挖掘过程中参照兴趣度做度量,并与数据挖掘模块交互配合,以便将数据搜索、归并、聚焦在有趣模式的操作。根据所用数据挖掘方法的不同,模式评估模块也可以使用兴趣度阀值作为评定参数,去过滤发现的模式挖掘数据,也可以与数据挖掘模块集成在一起使用。
(六)图形用户界面:是以图形界面的形式给出用户数据查询操作或指令任务,并提供中间参考信息提示、帮助搜索、确定聚焦兴趣度,根据数据挖掘的中间结果进行探索式数据挖掘的操作模块,是在用户和数据挖掘系统之间通信的桥梁,是用户与系统交互的中介。
三、数据挖掘方法
数据挖掘方法的来源主要是由人工智能和机器学习的方法发展来的,结合传统的统计分析方法、模糊数学方法以及科学计算可视化技术,以数据库为研究对象,形成的数据挖掘的方法和技术。数据挖掘是数据和信息系统及其应用的学科前沿,是综合了数据库、专家系统和可视化等领域的相关技术的多学科和多种网络技术交叉结合的新领域,在商业利益的强大推动下,每年都有新的数据挖掘方法和模型的出现,数据挖掘的方法和技术可以分为六大类。
(一)关联分析(Association Analysis)。在数据处理中,随着大量数据不停的收集、存储和处理,关联规则在数据挖掘中发现大量数据项集之间有趣的关联和相互联系,因此许多业界人士对于通过关联规则从相关数据库中挖掘有用的信息,并从中组织和处理这些有用的数据是越来越感兴趣。
(二)聚类方法(Clustering Approach)。在数据处理中,按一定的规则(参照距离或相似尺寸等)将数据分成一系列相互区别的数据组或数据集,这种操作不需要用户的事先提示相关操作和背景知识而去直接挖掘、发现有意义的数据结构或数据模式的方法。
(三)决策树方法(Decision Tree Approach)。该方法是一种常用于预测模型的算法,具有信息描述简单、查找速度快的特点,适合于大规模的数据挖掘。建立决策树的过程:首先根据信息论中的信息增益寻找数据库中具有最大信息量的字段,从中找到潜在的、有价值的信息,然后建立决策树的节点,再根据字段的不同取值建立树的各个分枝,然后在每个分枝子集上分别递归上述过程,即可。
(四)神经网络方法(Neural Network Approach)。神经网络由于本身的特性适合解决数据挖掘问题,因此,近年来越来越被关注。以HEBB学习规则和MP模型为基础的模拟人脑神经元方法,建立了三大类多种神经网络模型:反馈式网络模型、前馈式网络模型和自组织网络模型。
(五)遗传算法(Genetic Algorithms)。遗传算法是模拟生物自然选择与遗传机理的(进化过程)随机的算法,由繁殖(选择)、交叉(重组)、变异(突变)三个基本算子组成的仿生全局优化方法。遗传算法所具有的特有性质已在数据挖掘中发挥了显着作用。
(六)可视化方法(Visualization Approach)。可视化方法增强人们认识能力,拓宽了传统的图表展示功能,增强了用户对数据反馈的感知度,使用户对数据的剖析更加清楚。例如,在数据库表中,将多维数据变成多种线性图形(如线图、柱图),增加直观性,使用户更好、更快速的理解和掌握,并充分揭示数据的内涵、内在本质及规律起了很大的作用。
四、数据挖掘的应用领域
数据挖掘所应用的领域非常广泛,目前,数据挖掘应用最集中的领域包括医疗保健、金融、司法、市场、零售业、制造业、工程与科学等。但每个领域又有其特定的应用问题和应用背景。
(一)医疗保健。在我过国,医疗保健行业有大量的数据需要处理。这个行业中数据挖掘最关键的任务是进行数据处理理,系统可以从大型多变的数据库中发现并整理,预测医疗保健费用。由实验室开发的解释保健数据,在定量范围内解释偏差,生成报表。
(二)金融。数据挖掘技术在金融行业中的应用不但指的是对金融事务数据的开采,能够发现某个客户、消费群体或组织的金融和商业兴趣,并且还可以融市场的变化趋势。
(三)司法。在司法方面,数据挖掘技术可应用在案件调查、诈骗监测、洗钱认证、犯罪组织分析等工作中,这将给司法工作带来巨大的收益,例如:美国财政部开发的系统,对各类金融事务进行监测,识别洗钱、诈骗等。
(四)数字城市。数据挖掘技术应用于数字城市建设中的数据整合系统是指通过对不同的数据库资源进行连接,根据需要获取不同的数据库资源的数据内容,组合形成所需要的数据资源,支持分析决策。在这种机制下,即实现了数据集市的建立,又解决了与城市信息化建设中业已建成的各种信息系统运行上独立,数据上统一的问题。
(五)制造业。制造业应用数据挖掘技术进行零部件故障诊断、资源优化、生产过程分析等。例如进行彩色扫描仪的生产过程分析。他们基于大约公司个参数建立了一个自动数据收集系统,产生了难以手工处理的大量数据,通过使用,工程师们能够对数据进行分析并对最重要的参数进行认定。
五、利用WEKA编写算法
作为数据挖掘爱好者自然要对WEKA的源代码进行分析并以及改进,努力写出自己的数据挖掘算法。我一直觉得对于机器学习算法来说,weka是很有特色的工具,算法非常多。而且还有诸如clementine之类的数据流处理工具。相比之下,clementine的算法就会失色很多。但是weka的可视化做的不好。这是它的缺点。如果在weka的基础上再做些二次开发,加强可视化的应用应该很不错。最近看到一本书叫《可视化数据》,作者竟然包装了java的图形库,自己创作出了个processing语言来做数据可视化,似乎效果不错,而且也是开源的。如果能在这个基础上做些研发应该会不错的。
六、结语
在现今社会,数据挖掘技术已经可以被应用与所有的领域和行业中。在人们生活里的各个方面几乎都可以用到数据挖掘技术数据挖掘技术不但给我们的日常生活带来了巨大的改变和影响,并且这种影响还深深的改变着我们的生活方式。
参考文献:
[1]韩少锋,陈立潮.数据挖掘技术及应用综述[J].机械管理开发,2006,2
[2]颜惠,吴小穗.MetaCrawler集成搜索引擎[J].图书馆工作与究,2002,3:46-47
[3]周黎明,邱均平.基于网络的内容分析法[J].情报学报,2005,5:594-599
[4]Lisa Sokol Data Mining in the Real World Part of the Conference on Data Mining and Knowledge Discovery:Theory.Tool,and Technology.Orlando.Florida-April,1999
数据挖掘技术应用范文4
关键词:数据挖掘;过程;应用
中图分类号:TP3 文献标识码:A 文章编号:1672-3198(2009)14-0283-02
1 数据挖掘概念
数据挖掘(Data Mining,DM),是随着数据库和人工智能发展起来的新兴的信息处理技术。数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程,其主要特点是对数据库中的大量数据进行抽取、转换、分析和其他模型化处理,并从中提取辅助决策的关键性数据。它可帮助决策者分析历史数据及当前数据,并从中发现隐藏的关系和模式,进而预测未来可能发生的行为。数据挖掘是一门涉及面很广的交叉性新兴学科,涉及到数据库、人工智能、数理统计、可视化、并行计算等领域。
2 数据挖掘技术
2.1 关联规则方法
关联规则是一种简单,实用的分析规则,描述了一个事物中某些属性同时出现的规律和模式,是数据挖掘中最成熟的主要技术之一。大多数关联规则挖掘算法能够无遗漏发现隐藏在所挖掘数据中的所有关联关系,所挖掘出的关联规则量往往非常巨大,但是。并不是所有通过关联得到的属性之间的关系都有实际应用价值,对这些关联规则进行有效的评价。筛选出用户真正感兴趣的。有意义的关联规则尤为重要。
2.2 分类和聚类方法
分类就是假定数据库中的每个对象属于一个预先给定的类。从而将数据库中的数据分配到给定的类中。而聚类分析是根据所选样本间关联的标准将其划分成几个组,同组内的样本具有较高的相似度,不同组的则相异。分类和聚类的区别在于分类事先知道类别数和各类的典型特征,而聚类则事先不知道。聚类方法适合于探讨样本间的内部关系,从而对样本结构做出合理的评价。
2.3 数据统计方法
使用这些方法一般首先建立一个数据模型或统计模型,然后根据这种模型提取有关的知识。传统的统计学为数据挖掘提供了许多判别和回归分析方法。贝叶斯推理、回归分析、方差分析等技术是许多挖掘应用中有力的工具之一。
2.4 神经网络方法
神经元网络,具有非线形映射特性、信息的分布存储、并行处理和全局集体的作用、高度的自学习、自组织和自适应能力的种种优点。这些优点使得神经元网络非常适合解决数据挖掘的问题。因此近年来越来越受到人们的关注。典型的神经网络模型主要分3大类;用于分类、预测和模式识别的前馈式神经网络模型;用于联想记忆和优化计算的反馈式神经网络模型;用于聚类的自组织映射方法。
2.5 决策树方法
决策树学习是一种通过逼近离散值日标函数的方法,把实例从根结点排列到某个叶子结点来分类实例。叶子结点即为实例所属的分类,利用信息论中的互信息(信息增益)寻找数据库中具有最大信息量的字段。建立决策树的一个结点,再根据字段的不同取值建立树的分支;在每个分枝子集中,重复建立树的下层结点和分支的过程,即可建立决策树。
2.6 粗糙集
粗糙集(Rough Set)能够在缺少关于数据先验知识的情况下,只以考察数据的分类能力为基础,解决模糊或不确定数据的分析和处理问题。粗糙集用于从数据库中发现分类规则的基本思想是将数据库中的属性分为条件属性和结论属性,对数据库中的元组根据备个属性不同的属性值分成相应的子集,然后对条件属性划分的子集与结论属性划分的子集之间上下近似关系生成判定规则。粗糙集理论可以应用于数据挖掘中的分类、发现不准确数据或噪声数据内在的结构联系。
3 数据挖掘过程
按工作流程包括以下几个步骤:
(1)数据准备:一般存储在数据库系统中的是长期积累的大量的数据,往往不适合利用这些进行处理,需要做数据准备工作,一般包括数据的选择、净化、推测、转换、数据缩减,通过这些工作生成数据仓库。数据准备是否做好将影响到数据挖掘的效率和准确度以及最终模式的有效性。
(2)数据挖掘:在前面步骤所获得的数据集上进行数据挖掘,可以单独利用也可以综合利用各种数据挖掘方法对数据进行分析,根据数据挖掘的目的。选定数据挖掘算法,选择某个特定数据挖掘算法(如汇总、分类、回归、聚类等)用于搜索数据中的模式。
(3)结果的分析和同化;上面得到的模式模型,有可能是没有实际意义或没有使用价值的。因此需要评估,确定哪些是有效的、有用的模式。评估可以根据用户多年的经验,有些模式也可以直接用数据来检验其准确性。对数据挖掘出的结果进行解释和评价,转换成为能够最终被用户理解的知识。其具体的挖掘过程如图1:
4 数据挖掘的应用
4.1 在金融领域中的应用
多数银行和金融机构都提供丰富多样的储蓄、信用、投资、保险等服务。他们产生的金融数据通常比较完整、可靠,但是数据量是非常巨大的,数据挖掘技术可以将这些庞杂的信息充分利用:如采用多维数据分析来分析这些数据的一般特性,观察金融市场的变化趋势;使用数据可视化、分类、聚类分析、序列模式分析等工具侦破洗黑钱和其他金融犯罪行为;对于预防信用卡欺诈行为。可以利用数据挖掘对客户信誉进行分析。
4.2 在零售业中的应用
在零售业中,数据挖掘的运用是比较成功的。由于MIS系统在商业的普遍使用,特别是条码技术的使用。零售业积累了大量的销售数据,如顾客购买史记录、货物进出、消费与服务记录等等。零售数据挖掘有助于划分顾客群体,使用分类技术和聚类技术。可以更精确地挑选出潜在的顾客;识别顾客购买行为,发现顾客购买模式和趋势,进行关联分析,以便更好地进行货架摆设;同时可以为经营管理人员提供正确的决策手段,这样对促进销售及提高竞争力是大有帮助
数据挖掘技术应用范文5
关键词:数据挖掘技术;web挖掘;web的应用;个性化服务
中图分类号:TP399-C1 文献标识码:A 文章编号:1007-9599 (2012) 15-0000-02
1 数据挖掘技术
1.1 数据挖掘技术的概念
数据挖掘技术主要是指寻找隐藏在数据库中有价值的信息,从而为决策支持 提供有力的依据的过程。数据挖掘的目标主要包括特征、趋势以及相关性等多个方面的信息。随着计算机的普及,信息时代的到来,网络中信息量迅速增加,传统的知识发现(KDD:Knowledge Discovery in Databases)技术和方法已经不能满足人们从Web中获取信息的需要,并且现实也要求对互联网上的信息进行深层次实时的分析[1]。所以Web的数据挖掘技术油然而生,这种技术将传统的数据挖掘和web相互结合起来,能够从大量的信息数据选取有价值的隐含信息。下图1为Web数据挖掘原理流程:
1.2 Web数据挖掘的分类
根据数据挖掘的对象不同,Web数据挖掘技术可以分为Web结构挖掘、Web内容挖掘、Web 使用挖掘三类,Web数据挖掘分类如下图2所示:
1.3 Web数据挖掘的特点
传统的数据挖掘主要是以数据库为基础,对结构化的数据进行信息分析、加工以及模式挖掘,传统的数据挖掘技术能够直接或者间接的应用到Web数据挖掘中,但是因为Web技术自身的特点,从而使Web中的数据挖掘技术和传统的数据挖掘具有很大的不同。
(1)数据量巨大。网络能够将分布在世界不同位置的电脑连接在一起,并且每一个电脑都存在丰富的数据,又因为连接在网络上电脑的数量非常巨大,所以Web数据挖掘技术能够处理的数据也非常大。
(2)半结构化的数据结构。传统的数据库中的数据结构具有一定的模型,可以根据数据模型进行对网络中的数据进行描述,与传统的数据结构相比,在Web站点中的数据没有统一的模型,并且各个站点之间都是独自设计的,所以Web站点中对数据的处理是不断变化的[2]。
(3)异构数据库环境。在数据库环境中每一个Web站点都可以看作是一个数据源, 由于Web站点是相互独立的,因此站点之间除了能够相互访问之外没有其他的关系,所以Web站点之间的信息都是不同的,从而构成一个巨大的异构数据库环境。
2 数据挖掘技术在Web中应用
随着信息时代的到来,网络技术的发展,目前数据挖掘技术已经广泛应用到远程通信业、制造业、金融业、零售业、政府管理机构以及体育等各个行业中,而数据挖掘技术在Web中应用目前已经成为全球学术界研究的热点,并应用到各个行业中。
2.1 Web中数据挖掘技术在搜索引擎中的应用
在Web数据挖掘技术中,搜索引擎是最为典型的应用,采用Web数据挖掘技术不仅能够提高搜索引擎的查询速度、网页的权重、关键词匹配的相关度以及改善搜索结果等,并且Web数据挖掘技术也应用在文本的自动分类、自动摘要的形成、个性化的搜索引擎以及检搜结果的聚类等具有重要的作用。
2.2 在电子商务中的应用
Web数据挖掘技术在电子商务中应用也是比较典型的应用,Web数据挖掘技术能够通过对客户访问日志数据采用模型化算法、神经元网络以及其他的信息处理技术进行分析,从而商家能够对个体或者特定消费群体进行定向营销的决策。并且采用Web数据挖掘技术还可以对日志进行定量分析,从而能够揭示出频繁访问的页面、访问途径以及客户的类属关系、网页的类属关系等,从而能够为Web站点的优化提供有力的参考是数据。Web数据挖掘技术在电子商务中应用主要体现在客户的驻留、客户获取以及客户的聚类和分类三个重要的方面。下图3为Web数据挖掘的简单商务网站模型:
2.3 Web数据挖掘技术应用于股票系统
Web数据技术采用Web-Dms系统可以构建一个基于Web 的挖掘的股票教育和交易环境,并且还能够充分利用站点上积累的信息,从而更好地服务于企业和客户。在股票系统中采用Web 数据挖掘技术不仅能够通过了解查找者的动态行为 选择最佳的电子商务精英方式,而且还能够得知查找者的爱好[3]。应用Web数据技术Web设计人员不在依靠专家的定性的指导进行设计网站,而是可以根据查找者的信息进行设计网站的机构和外观,从而能够为客户提供个性化的服务。
3 总结
Web中的数据挖掘技术是一种新型的技术,由于Web自身的特点,从而使Web数据挖掘技术具有很多特点,并且其应用也是非常广泛,不仅能够提取页面的信息,进行分析设计站点,而且在电子商务方面也具有非常广阔的应用前景。
参考文献:
[1]DiPasquo D,Using HTML forlnation to aid in natural languageprocessing on the World Wide Web[M].Canegie-Mellon University.Sehool of Computer Science,1998.
数据挖掘技术应用范文6
[关键词] 数据挖掘 数据仓库 知识发现
随着计算机网络与数据库技术的迅速发展和广泛应用,各单位拥有的数据量与日俱增,而传统的数据库管理系统(DBMS)仅能提供数据的存取和查询,如何从信息海洋中提取有价值的知识,从而为企业的业务决策和战略发展服务,进一步提高信息的利用率,这就引发了一门新兴的自动信息提取技术――数据挖掘和知识发现(Data Mining and Knowledge Discovery in Databases),并逐渐形成了一个热门研究方向。
基于数据库的知识发现(KDD)一词最早是在1989年8月于美国底特律市召开的第一届KDD国际学术会议上正式形成的。1995年,在加拿大召开了第一届知识发现和数据挖掘国际会议。2002年,麻省理工学院的《科技评论》杂志提出未来5年对人类产生重大影响的10大新兴技术,“数据挖掘”位居第三。
一、数据挖掘与知识发现
数据挖掘(Data Mining),又称为数据采掘、数据开采等。数据挖掘是从大量的数据中抽取出潜在的、不为人知的有用信息、模式和趋势。数据挖掘是一种决策支持过程,它主要基于人工智能、机器学习、统计学等技术,高度自动化地分析企业原有的数据,作出归纳性的推理,从中挖掘出潜在的模式,预测客户的行为,帮助企业的决策者调整市场策略,减少风险,做出正确的决策。其中需要强调的几点是:得到的必须是有用的信息;得到的必须是清晰、明确的信息;要有一个很快的、可行的算法。
数据挖掘不同的术语和定义:data mining, knowledge discovery, pattern discovery, data dredging, knowledge, data archeology。
一般认为数据采掘是数据库中知识发现(Knowledge Discovery in Database,简称KDD)的一个环节,是采用具体的数据采掘算法从数据中自动高效地提取有用模式的过程,而KDD是包含数据采掘、数据准备等环节的循环往复过程。在KDD研究领域一致认可的描述性定义是Fayyad等人给出的,定义如下:KDD是从数据集中识别出有效的、新颖的、潜在有用的、以及最终可理解的模式的非平凡过程。知识发现由以下步骤组成:⑴数据清理:消除噪声或不一致数据。⑵数据集成:把多种数据源组合在一起。⑶数据选择:从数据库中检索与分析任务相关的数据。⑷数据变换:数据变换或统一成适合挖掘的形式,如通过汇总或聚集操作。⑸数据挖掘:使用智能方法提取数据模式。⑹模式评估:根据某种兴趣度度量,识别表示知识的真正有趣的模式。⑺知识表示:使用可视化和知识表示技术,向用户提供挖掘知识。
对这两个术语更严格的区分是在KDD96国际会议上:Fayyad,Piatetsky-Shapiro和Smyth指出:知识发现是从数据库中发现知识的全部过程,而数据挖掘则是此全部过程的一个特定、关键步骤。事实上,在现今文献的大多数场合,这两个术语仍然不加区分地使用着。
同时需要指出的是,这里所说的知识发现,不是要求发现放之四海而皆准的真理,也不是要去发现崭新的自然科学定理和纯数学公式,更不是什么机器定理证明。所有发现的知识都是相对的,是有特定前提和约束条件、面向特定领域的,同时还要能够易于被用户理解,最好能用自然语言表达发现结果。因此DMKD的研究成果很讲求实际。
二、数据挖掘的对象及任务
1.数据源
根据信息存储格式,用于挖掘的对象有关系数据库、面向对象数据库、数据仓库、文本数据源、多媒体数据库、以及环球网Web.目前,用于数据挖掘的数据源主要是关系数据库、数据仓库、和环球网Web.
2.主要任务
(1)数据总结
数据总结的目的是对数据进行浓缩,给出它的紧凑描述。数据挖掘主要关心从数据泛化的角度来讨论数据总结。数据泛化是一种把数据库中的有关数据从低层次抽象到高层次上的过程。
(2)分类
分类的目的是建立一个分类函数或分类模型(也称作分类器),该模型能把数据库的数据项映射到给定类别中的某一个。例:信用卡申请者,分类为低、中、高风险。
(3)聚类
聚类是把一组个体按照相似性归类,即“物以类聚”。它的目的是使属于同一类别的个体之间的距离尽可能地小,而不同类别的个体间的距离尽可能地大。例:①一些特定症状的聚集可能预示了一个特定的疾病。②租VCD类型不相似的客户聚集,可能暗示成员属于不同的亚文化群。
聚集通常作为数据挖掘的第一步。例如,“哪一种类的促销对客户响应最好?”,对于这一类问题,首先对整个客户做聚集,将客户分组在各自的聚集里,然后对每个不同的聚集,回答问题,可能效果更好。
(4)关联规则
决定哪些事情将一起发生。是形式如下的一种规则,“在购买面包和黄油的顾客中,有90%的人同时也买了牛奶”(面包+黄油+牛奶)。关联规则发现的思路还可以用于序列模式发现。用户在购买物品时,除了具有上述关联规律,还有时间或序列上的规律。例:①超市中客户在购买A的同时,经常会购买B,即A=>B(关联规则)。②客户在购买A后,隔一段时间,会购买B(序列分析)。采用关联模型比较典型的例子是“啤酒和尿布”的故事。
三、数据挖掘的应用及效益
应用是数据挖掘的目标。数据挖掘技术不仅是面向特定数据库的简单检索查询调用,而且要对这些数据进行微观、中观乃至宏观的统计、分析、综合和推理,以指导实际问题的求解,企图发现事件间的相互关联,甚至利用已有的数据对未来的活动进行预测。其应用范围涉及社会的所有领域,在商业上的应用尤其受到重视。各个领域在KDD应用上既有相同之处,又有各自不同的独特地方。
1.典型应用领域
(1)科学应用
在生物界,开发了HMMS两个智能发现系统,已经用于基因发现和构造核糖核酸模型。天文学上非常有名的系统是加州理工学院喷气推进实验室与天文科学家合作开发的用于帮助天文学家发现遥远的类星体的一个工具SKICAT。利用SKICAT,天文学家已发现了16个新的极其遥远的类星体。SKICAT使用了决策树方法构造分类器,结果使得能分辨的星体较以前的方法在亮度上要低一个数量级之多,而且新的方法比以往方法的效率要高40倍以上。
(2)市场销售
数据采掘在销售业上的应用可分为两类:数据库销售(database marketing)和篮子数据分析(basket analysis)。前者的任务是通过交互式查询、数据分割和模型预测等方法来选择潜在的顾客以便向它们推销产品,而不是象以前那样盲目地选择顾客推销;后者的任务是分析市场销售数据(如POS数据库)以识别顾客的购买行为模式,从而帮助确定商店货架的布局排放以促销某些商品。
(3)金融投资
典型的金融分析领域有投资评估和股票交易市场预测,分析方法一般采用模型预测法(如神经网络或统计回归技术)。这方面的系统有Fidelity Stock Selector,LBS Capital Management。前者的任务是使用神经网络模型选择投资,后者则使用了专家系统、神经网络和基因算法技术辅助管理多达6亿美元的有价证券。
贷款偿还预测和客户信用政策分析。将数据挖掘技术中的特征选择和属性相关性计算应用到贷款偿付预测和客户信用政策,有助于识别重要因素,剔除非相关因素,使银行优化调整贷款发放政策。
(4)欺诈甄别
银行或商业上经常发生诈骗行为,如恶性透支等。这方面应用非常成功的系统有:FALCON系统和FAIS系统。FALCON是HNC公司的开发的信用卡欺诈估测系统,它已被相当数量的零售银行用于探测可疑的信用卡交易;猎鹰的数据格式只有几种,因为流行的信用卡公司只有几家(如VISA,MASTER等),因此它的应用面很大。FAIS是一个用于识别与洗钱有关的金融交易的系统,它使用的是一般的政府数据表单。
(5)产品制造
在产品的生产制造过程中常常伴随有大量的数据,如产品的各种加工条件或控制参数,这些数据反映了每个生产环节的状态,通过数据挖掘对这些数据的分析,得到产品质量与这些参数之间的关系,可以对改进产品质量提出针对性很强的建议,而且有可能提出新的更高效节约的控制模式,从而为制造厂家带来极大的回报。
(6)Internet的应用
Internet的迅猛发展,尤其是Web的全球普及,使得Web上信息量无比丰富,Web上的数据信息不同于数据库,数据库有规范的结构,Web上的信息则不然,主要是文档。因此Web上的开采发现需要用到不同于常规数据库开采的很多技术。Web信息发现也称信息搜索或查询,资源发现本质上是网上搜索,关键在于自动生成Web文档的索引。目前,这方面的研究主要有两个方面:研制新的更好的索引系统、利用已有索引系统或搜索引擎开发高层次的搜索或发现系统。相比之下,后者的研究更为活跃。从技术上看,自动文档分类或归类方法将对这方面的研究有很大作用。
(7)学校教育
学院分析学生历史信息,决定哪些人愿意报考何专业,发送手册给他们。分析教师的学历、年龄、职称等与授课效果的关联规则,制定教学方案,促进教学质量的提高。
总之,DM可广泛应用于银行金融、零售与批发、制造、保险、公共设施、政府、教育、科研、远程通讯、软件开发、运输、生物信息或基因等各个企事业单位及国防科研上。
2.数据挖掘带来的效益
截止到目前,数据挖掘工程在很多领域取得了成果。这些成果使得各类机构和组织能更好地理解它们的组织结构、业务处理过程和顾客,从而得到很高的投资收益。在某些情况下,仅仅一小部分数据挖掘所得到的知识就能回报最初的投资。世界著名的GartnerGroup咨询顾问公司预计:不久将来先进的大企业将会设置“统一数据分析专家”的职位。
例如:①美国著名国家篮球队NBA的教练,利用某公司提供的数据挖掘技术,临场决定替换队员,从而赢得比赛,在数据库界被传为佳话。
②全球数据仓库与CRM解决方案领导厂商NCR公司(纽约股票代号NCR)Teradata的数据挖掘实验室基于20多年丰富的行业经验,协助包括银行、电信、航空、证券和保险在内的各行业企业善用商业数据挖掘,构筑竞争优势。据了解,全球前50大银行中,有一半以上采用NCR的Teradata企业级数据仓库解决方案,尤其是全球获利的前15大银行中就有8家是NCR的用户。
四、结束语
综上所述,数据挖掘虽然是一门新兴的技术,但有着鲜明的服务性、大众性、利益驱动性,显示了它强大的生命力。根据最近Gartner的HPC研究表明,“随着数据捕获、传输和存储技术的快速发展,大型系统用户将更多地需要采用新技术来挖掘市场以外的价值,采用更为广阔的并行处理系统来创建新的商业增长点。” 数据挖掘将助你在海量数据面前迅速找到闪亮的知识,找到隐藏的商机,从而立于不败之地。相信在不远的将来数据挖掘会迅速普及。
参考文献:
[1][加]Jiawei Han. Micheline Kamber 著:数据挖掘:概念与技术[M].范明,孟小峰等译.北京:机械工业出版社,2007.3
[2]陈安陈宁:等著.数据挖掘技术及应用[M].科学出版社,2006.3