前言:中文期刊网精心挑选了数据挖掘技术研究范文供你参考和学习,希望我们的参考范文能激发你的文章创作灵感,欢迎阅读。
数据挖掘技术研究范文1
关键词:空间数据挖掘;地理信息系统;研究分析
随着数据采集技术的成熟和普及,大量的空间数据通过遥感、地理信息系统、多媒体系统、医学和卫星图像等多种形式汇集成庞大而丰富的信息源。面对庞杂、繁多的数据类型,空间数据挖掘技术应运而生,并在地理信息系统、遥感勘测、图像处理、交通管理、环境研究等领域得到广泛应用。
1 空间数据挖掘研究概述
空间数据挖掘(spatial Data Mining,简称SDM),是指从空间数据库中提取用户感兴趣的空间模式、普遍关系、数据特征的过程。空间数据挖掘技术综合数据挖掘技术与空间数据库技术,可用于对空间数据的理解、空间关系和空间与非空间关系的发现、空间知识库的构造以及空间数据库的重组和查询的优化等,其根本目标是把大量的原始数据转换成有价值的知识,发现大量的地学信息中所隐含的规则。
空间数据挖掘是计算机技术、数据库应用技术和管理决策支持技术等多学科交叉发展的新兴边缘学科,一般来说,空间数据挖掘可分成空间分类、空间聚类、空间趋势分析和空间关联规则四类。空间分类的目的是在空间数据库对象的空间属性和非空间属性之间发现分类规则,是近年来空间数据挖掘领域中比较活跃的一个方向,常用的方法是决策树。空间聚类是在一个比较大的多维数据集中根据距离的度量找出簇或稠密区域,目前提出的空间聚类方法有基于分割的方法、基于层次的方法、基于密度的方法和基于棚格的方法。空间趋势分析指离开一个给定的起始对象时非空间属性的变化情况,例如,当离城市中心越来越远时经济形势的变化趋势,空间趋势分析需要使用回归和相关的分析方法。空间关联规则是指空间邻接图中对象之间的关联,空间关联挖掘多采用逐步求精的优化思想,即首先用一种快速的算法粗略地对初始空间数据库进行一次挖掘,然后再在裁剪过的数据库上用代价高的算法进行进一步精化挖掘。
空间数据挖掘过程一般可分为数据筛选(消除原始数据的噪声或不一致数据)、数据集成(将多种数据源组合在一起)、数据选择(根据用户的要求从空间数据库中提取与空间数据挖掘相关的数据)、数据变换(将数据统一成适合挖掘的形式)、空间数据挖掘(运用选定的知识发现算法,从数据中提取用户所需的知识)、模式评估(根据某种兴趣度度量并识别表示知识的真正有趣的模式),知识表示(使用可视化技术和知识表示技术,向用户提供挖掘的知识)等阶段(见图1)。空间数据挖掘实际上是一个“人引导机器,机器帮助人”的交互理解数据的过程。
2 空间数据挖掘在GIS中的应用
空间数据挖掘技术与地理信息系统(GIS)的结合具有非常广泛的应用空间。数据挖掘与GIs集成具有三种模式:其一为松散耦合式,也称外部空间数据挖掘模式,这种模式基本上将GIS当作一个空间数据库看待,在G IS环境外部借助其它软件或计算机语言进行空间数据挖掘,与GIS之间采用数据通讯的方式联系。其二为嵌入式,又称内部空间数据挖掘模式,即在GIs中将空间数据挖掘技术融合到空间分析功能中去。第三为混合型空间模型法,是前两种方法的结合,即尽可能利用GIS提供的功能,最大限度的减少用户自行开发的工作量和难度,又可以保持外部空间数据挖掘模式的灵活性。
利用空间数据挖掘技术可以从空间数据库中发现如下几种主要类型的知识:普遍的几何知识、空间分布规律、空间关联规律、空间聚类规则、空间特征规则、空间区分规则,空间演变规则、面向对象的知识。目前,这些知识已比较成熟地应用于军事、土地、电力、电信、石油和天然气、城市规划、交通运输、环境监测和保护、110和1 20快速反应系统等资源管理和城市管理领域。在市场分析、企业客户关系管理、银行保险、人口统计、房地产开发、个人位置服务等领域也正得到广泛关注与应用,实际上,它正在深入到人们工作和生活的各个方面。
3 空间数据挖掘面临的问题
(1) 多数空间数据挖掘算法是由一般的数据挖掘算法移植而来,并没有考虑空间数据存储、 处理及空间数据本身的特点。空间数据不同于关系数据库中的数据,它有其特有的空间数据访问方法,因而传统的数据挖掘技术往往不能很好地分析复杂的空间现象和空间对象。
(2) 空间数据挖掘算法的效率不高,发现模式不精练。面对海量的数据库系统,在空间数据挖掘过程中出现不确定性、错误模式的可能性和待解决问题的维数都很大,不仅增大了算法的搜索空间,也增加了盲目搜索的可能性。因而必须利用领域知识发现、去除与任务无关的数据,有效地降低问题的维数,设计出更有效的知识发现算法。
(3) 没有公认的标准化空间数据挖掘查询语言。数据库技术飞速发展的原因之一就是数据库查询语言的不断完善和发展,因此,要不断完善和发展空间数据挖掘就必须发展空间数据挖掘查询语言。为高效的空间数据挖掘奠定基础。
(4) 空间数据挖掘知识发现系统交互性不强,在知识发现过程中很难充分有效地利用领域专家知识,用户不能很好掌控空间数据挖掘过程。
(5) 空间数据挖掘方法和任务单一,基本上都是针对某个特定的问题,因而能够发现的知识有限。
(6) 空间数据挖掘与其他系统的集成不够,忽视了GIS在空间知识发现过程中的作用。一个方法和功能单一的空间数据挖掘系统的适用范围必然受到很多限制,目前开发的知识系统仅局限于数据库领域,如果要在更广阔的领域发现知识,知识发现系统就应该是数据库、知识库、专家系统、决策支持系统、可视化工具、网络等多项技术集成的系统。
上述问题使得从空间数据库中提取知识比从传统的关系数据库中提取知识更为困难,这给空间数据挖掘研究带来了挑战。因此,空间数据挖掘在未来的发展中,还有很多理论和方法有待深入研究。
4 空间数据挖掘的发展趋势
(1)空间数据挖掘算法和技术的研究。空间关联规则挖掘算法、时间序列挖掘技术、空间同位算法、空间分类技术、空间离群算法等是空间数据挖掘研究的热点,同时提高空间数据挖掘算法的效率也很重要。
(2) 多源空间数据的预处理。空间数据内容包括数字线划数据、影像数据、数字高程模型和地物的属性数据,由于其本身的复杂性与数据采集的困难,空间数据中不可避免地存在着空缺值、噪声数据及不一致数据,多源空间数据的预处理就显得格外重要。
(3)其他各种空间数据挖掘及其相关技术研究。如网络环境下的空间数据挖掘、可视化数据挖掘、栅格矢量-体化空间数据挖掘、背景知识概念树的自动生成、基于空间不确定性(位置、属性、时问等) 的数据挖掘、递增式数据挖掘、多分辨率及多层次数据挖掘、并行数据挖掘、遥感图像数据库的数据挖掘、多媒体空间数据库的知识发现等。
数据挖掘技术研究范文2
【关键词】数据挖掘;电子商务系统
1.前言
数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据集中识别有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程。它是一门涉及面很广的交叉学科,融合了人工智能、数据库技术、模式识别、机器学习、统计学和数据可视化等多个领域的理论和技术,数据挖掘是一个包含多个处理步骤的知识发现过程,其主要内容包括数据清洗、数据集成、数据选择、数据转换、数据挖掘、模式评估和知识表达输出等。
把数据挖掘技术应用到电子商务系统中,开发出基于数据挖掘技术的电子商务系统能够加深和加强对电子商务系统数据的分析功能,为电子商务企业管理人员提供电子商务的预期信息,从而能很好的保证电子商务网站的运行效果。
现在电子商务系统主要形式B2C,涉及的数据不仅包括客户在电子商务网站上的交易数据,还包括客户的注册信息数据和商品信息等数据。电子商务系统的数据有如下特点:
(1)数据量大;
(2)数据质量差;
(3)数据种类多。
2.电子商务系统功能模块结构设计
根据B2C电子商务系统设计的目标,管理业务流程,将这个B2C电子商务系统分为:会员注册管理、会员帐户管理、商品购买管理、会员管理、商品类别管理、商品管理、优惠券管理、订单管理、留言板管理、商品评论管理、库存管理、网站管理和数据挖掘管理等功能模块(如图1所示)。
3.数据挖掘管理模块的设计
B2C电子商务数据挖掘管理模块主要通过对电子商务企业当前的和历史的交易数据进行分析。挖掘出其中隐含的知识和从中发现隐含的趋势和规律。它主要包括数据预处理模块、数据挖掘模块和数据挖掘结果显示模块。B2C电子商务数据挖掘系统从电子商务运行商品数据库、客户信息数据库和交易数据库中获取数据,根据数据挖掘算法的需要进行数据预处理,并建立数据挖掘模型,供电子商务企业的用户挖掘时使用。用户只需要输入简单的一些参数,系统就会自动的根据已建立的模型输出预测结果。电子商务挖掘系统体系结构如图2所示。
3.1 数据预处理模块
数据挖掘的处理对象是大量的数据,这些数据一般存储在数据库系统中,是长期积累的结果。但往往不适合直接在这些数据上面进行挖掘,需要做数据预处理工作,其一般包括数据的选择、数据清理、数据集成和转换。数据预处理是否做好将影响数据挖掘的效率和准确度以及最终模式的有效性。这些处理技术在数据挖掘之前使用可以大大提高数据挖掘模式的质量,降低实际挖掘所需要的时间。原始数据通过数据选择、清理、集成和转换后生成数据挖掘库,为下一步的数据挖掘做好准备。
3.2 数据挖掘模块
数据挖掘的目的是生成可以据其所示的含义采取行动的知识,也就是建立一个现实世界的模型。数据挖掘的本质就是数学建模。在数据挖掘中,可以使用许多不同的模型,如分类模型、回归模型、时间序列模型、聚类模型和关联规则模型。针对同一模型,可以使用不同的算法进行数据挖掘。算法的目的就是找到适合于数据的模型。数据挖掘涉及到多步骤、各系统间的交互、特殊解决方案及各步骤间的反复过程。
B2C电子商务网站中商品介绍页面的摆放就好比商店里的货架,商品介绍的摆放位置也会影响客户对商品的购买率。而商品之间的关联性一般不是很容易看出来的,一般人很难联想到商品之间的关联性,只有实际上通过对大量的交易历史数据的分析,才可以挖掘出它们之间的关联性。在数据挖掘过程中对关联产品和服务进行深入挖掘,可以发现其中的关联规则,利用关联规则模型进行数据挖掘可以了解客户的购买行为,这对于改进B2C电子商务商业活动的决策很有帮助。例如,可以通过改进商品介绍位置的摆放(把顾客经常同时买的商品摆放在一起),帮助如何规划市场(互相搭配进货)等。而作为B2C电子商务网站。可以针对不同客户特点动态调整网站结构,使客户访问的有关联的网页文件的链接更加直接,让客户更容易访问到自己想要的东西。这样的网站更能吸引客户,提高客户的忠诚度,提高网站的效益。
B2C电子商务网站网页主要为顾客展示商品名称或图片,为顾客推荐与当前感兴趣商品更详细或相关的网页是个性化推荐的关键。根据客户的注册信息和订单信息,通过回归模型挖掘可以为不同的用户提供个性化服务,例如系统可以向客户显示那些可能引起客户感兴趣的新商品。
随着“以客户为中心”的经营理念不断深入人心,分析客户、了解客户并引导客户的需求已成为企业经营的重要课题。通过对B2C电子商务系统收集的客户的交易数据进行聚类模型挖掘,可以确定不同类万方数据型客户的行为模式,电子商务企业便可以采取相应的营销措施,促使企业利润的最大化。
3.3 数据挖掘结果显示模块
数据挖掘结果的显示模块是将数据挖掘后得到的知识和结果用可视化形式表示出来,例如采用图形化界面把挖掘结果显示给电子商务企业的管理人员。在建立好相关数学模型后,把实际数据作为输入信息,通过挖掘模型的计算获得预测结果。B2C电子商务企业要根据不同的挖掘结果做出不同的反应。采取不同的措施,给顾客提供不同的服务,在为顾客服务的同时也为自己的B2C电子商务企业获取更多的利润。
4.结论
本文讨论了把数据挖掘技术应用于B2C电子商务系统中,并采用J2EE的B/S架构将其实现,系统采用客户端、中间服务器和后台数据库三层架构。利用数据挖掘技术可以提高B2C电子商务企业现代化管理水平方面发挥着积极的作用,它能够提高B2C电子商务企业对客户管理和商品管理方面信息的准确性和及时性,可以帮助B2C电子商务企业网站的开发人员及时、全面了解B2C电子商务企业网站运营情况和合理安排网页的页面布局,为不同浏览习惯的顾客提供个性化服务,为各项具体工作提供技术、信息支持;有效地减少各种失误并保证B2C电子商务企业网站的各项任务保质保量、按计划完成,从而提高电子商务企业网站的运作效率。
参考文献
[1]朱明.数据挖掘[M].合肥:中国科学技术大学出版杜(第2版),2008.
[2]寰方,王煜,等.PaoloGiudici.实用数据挖掘[M].北京:电子工业出版,2004.
[3]廖芹,郝志峰.数据挖掘与数学建模[M].北京:国防工业出版社,2010.
数据挖掘技术研究范文3
关键词:网络安全;入侵检测;数据挖掘
中图分类号:TP311 文献标识码:A文章编号:1007-9599 (2011) 08-0000-01
Research of Intrusion Detection Technology Based on Data Mining
Zhao Nan,Feng Jianlin
(College of Computer and Information Engineering,Lishui University,Lishui323000,China)
Abstract:Based on the characteristics of intrusion detection system(IDS)and the IDS data mining technology,the design of data mining-based IDS model,is to overcome high rate of a general intrusion detection system false alarm.First of all,the model training data extract from the rules,and then use these rules to detect new incursions.The experimental results show that the use of data mining to intrusion detection system is effective,rules updating and system updating faster and cheaper,detection rate higher.
Keywords:Network security;Intrusion detection;Data mining
目前大部分入侵检测采用特征检测的方法,它们由安全专家预先定义出一系列特征模式(此处的特征模
式含义比较窄,如表达式、字节匹配或“特征字符串”,与后面提到的规则不同),用来识别入侵,同时,入侵检测系统需要不断更新自己的模式库以跟上入侵技术发展的步伐,仅仅采用这种入侵检测方法将会带来很多缺陷。
基于数据挖掘的入侵检测技术可以自动地从训练数据中提取出可用于入侵检测的知识和模式经过综合地分析比较,基于数据挖掘的入侵检测系统有以下几点优势:智能性好、检测效率高、自适应能力强和误警率低。
一、入侵检测技术简介
入侵检测是对网络系统的运行状态进行监视,发现各种攻击企图、攻击行为或者攻击结果,以保证系统资源的机密性、完整性与可用性。入侵检测系统是从多种计算机系统及网络中搜集信息,再从这些信息中分析入侵及误用特征。入侵是由系统外部发起的攻击。误用是由系统内部发起的攻击。所有的IDS的本质都是基于分析一系列离散的、按先后顺序发生的事件,这些事件用于误用模式进行匹配,入侵检测源都是连续的纪录,他们反映了特定的操作,间接反映了运转状态。IDS一般包括三部分:信息的搜集和预处理、入侵检测分析引擎以及响应和恢复系统[1]。
绝大多数入侵检测系统的处理效率低下,不能满足大规模和高带宽网络的安全防护要求。目前使用的主要检测方法是将审计事件同特征库中的特征匹配,但现在的特征库组织简单。导致的漏报率和误报率较高,很难实现对分布式、协同式攻击等复杂攻击手段的准确检测;此外,预测能力严重受限于攻击特征库,缺乏对未知入侵的预测能力。
二、数据挖掘技术简介
数据挖掘是从海量的数据中提取或“挖掘”知识,这些数据可以存放在数据库、数据仓库或其他信息存储中[2]。于数据挖掘是一门受到来自各种不同领域的研究者关注的交叉性学科,因此导致了很多不同的术语名称。数据挖掘是针对特定应用的数据分析处理过程,如何选择输入数据、变换数据集对应的挖掘算法,取决于具体的数据挖掘目标,即期望从数据中发掘出什么知识。数据挖掘可粗略地理解为三步:数据准备、数据挖掘,以及结果的解释评估。
三、基于数据挖掘的入侵检测系统
数据挖掘是从海量数据中提取隐含的、以前不知道的、有潜在作用的信息。它利用统计与可视化技术以易于理解的形式发现并表现信息。在入侵检测中,数据挖掘被定义为处理大量在中央位置收集得到的数据,从而察看其规则模式。基于数据挖掘的入侵检测系统(DMIDS)是从训练数据中得到规则模式,用于实时的入侵检测系统中的入侵检测。
基于数据挖掘的入侵检测技术可以自动地从训练数据中提取出可用于入侵检测的知识和模式经过综合地分析比较,基于数据挖掘的入侵检测系统有以下几点优势:智能性好、检测效率高、自适应能力强、误警率低[3]。
基于数据挖掘的入侵检测系统原理,DMIDS总体分为两部分:
第一部分是数据挖掘部分,主要采用数据挖掘技术来得出规则库,为后续的检测提供依据;其中包括:训练数据,数据挖掘模块和规则库,
第二部分为入侵检测部分,实时采集数据,处理数据,然后和规则库进行比较,判断当前用户的操作是否合法,并相应的作为响应或恢复机制。该部分主要拥有以下模块:
数据挖掘模块。数据挖掘技术是一种决策支持过程,它主要基于AI,机器学习统计等技术,它能高度自动化地分析原有的数据,做出归纳性的推理,从中挖掘出潜在的模式,预测出客户的行为。
数据挖掘模块的主要作用就是从训练数据中挖掘正常和异常行为规则,构建规则库,对于不同性质的数据源,这里要求采用不同的数据挖掘算法来发现其中的隐含规律。
DM的技术基础是人工智能,它利用了人工智能的一些已经成熟的算法和技术,例如:人工神经网络、遗传算法。决策树、邻近搜索算法、规则推理、模糊逻辑等DM系统问题利用的技术越多,得出的结果精确性就越高。这主要取决于问题的类型以及数据的类型和规模。
四、结论
由于入侵检测系统本身应用的特殊性,要求它具有准确性、全局性、可扩展性、可伸缩性以及环境适应性和本身的健壮性。本文对基于数据挖掘的入侵检测系统的信息提取技术作了较全面的研究和介绍,重点研究了启发式的聚类数据挖掘算法,并对其中涉及到的概化分层和聚类算法和关联算法,分类算法等进行了介绍。
参考文献:
[1]孙鑫鸽,赵跃龙.基于数据挖掘的分布式入侵检测系统[J].电子技术应用,2008,3:126-130
数据挖掘技术研究范文4
关键词:就业信息;数据分析;挖掘技术;研究
中图分类号:TP311.13
随着数据挖掘技术的不断发展和数据管理的广泛运用,数据信息中存在着大量的决策意义,但是数据利用很低,局限于就业率的统计等。学生大学期间,顺利就业是一个非常重要的环节。对学生就业的指导是当今学校所面临的主要课题。在信息数据中找出规律,直接反映一定时期内的整个社会的就业状况、职业动态及其发展趋势。供职业指导人员指导就业工作和择业者选择职业的重要依据。
1 数据挖掘的定义和传统数据的区别
大量数据中挖掘或者提取的知识,也就是说把人们数据中潜在隐含的数据中有用的信息转化为知识的过程来运用。数据挖掘与传统的数据分析都是查询、报表、联机运用分析,但是,他们不同的区别在于没有明确假设的前提下去挖掘信息、发现信息、发现其中隐含的知识,所得到的信息应该是具体实用有效的信息。数据挖掘通过预测未来趁势以及行为,做出前瞻的,基于知识的决策[1]。
2 了解数据挖掘的基本步骤
数据挖掘的基本步骤主要有以下几个方面,分别是收集数据:收集可以从多个数据源中去收集,并获取资料,然后对数据进行整合;数据选择:分析所有收集到的数据,并决定选择数据和排除数据中无效,无利用价值的数据;数据清洗:检查收集的数据是否满足挖掘的条件,目的是将数据质量提升到符合所选择的分析的需求上去,从而保证数据信息的正确性和一致性;数据的转换:将已有的数据根据挖掘信息分析的要求进行分析和逻辑性的转换;建立模型:选择合适的算法进行合理而准确的验证;结果分析:对挖掘结果进行解释与实际现状相结合进行可视化的分析;知识同化:将分析所得到的知识集成到就业信息的运用当中去,进行决策供毕业生参考。
3 数据挖掘中的应用
3.1 数据挖掘在WEB中的应用
数据挖掘使用就业网站功能开发是通过就业网页内容的挖掘,主要是针对文本的内容进行挖掘,实现对网页内容的聚类整合,达到对就业信息的分类浏览和检索[2]。对用户所提的问题和历史的记录进行有效的分析扩展,从而提高检索的效率性。运用数据的挖掘技巧进行关键词改进和加权算法,这样就可提高就业信息的传播效果。利用数据挖掘的技术效果建立更深的访客量并加以进行精准的预测模式,从而达到真正智能型的个性化网络服务。
数据的收集是一个比较复杂的过程所涉及的东西也比较广泛,这对于就业信息的挖掘是一件比较困难的事情,从而我们就要学会应用数据应用流程,掌握挖掘的流程并学会运用。数据挖掘流程应用流程如图1所示。
图1 数据挖掘流程图
这一流程图有利于针对就业问题的提出问题进行分析,从而发现学生整体就业情况和学生的成绩、专业、区域等相关信息数据的关联。为数据准备打下基础,根据不同的数据可以显示不同的问题,采用数据仓库进行选择,通过选择、抽样和汇总等方式来选择符合就业条件的子集,最终建构特定的数据库挖掘。
3.2 就业市场预测
数据挖掘的主要价值在于通过数据信息从中提取有效的信息内容,从中找其规律,为就业者提供参考数据和借鉴的效果,通过历史就业信息数据的显示作为参考,针对不同专业的就业率、升学率、行业分布比例、地域分布比例等与其他院校进行数据上的比较并进行就业形势的综合分析,从中发现值得总结的信息。另外对历史数据的总结和对用人单位信息的记录,对每年就业率数据的横向比较,结合历史数据的纵向比较,通过对历年的就业地域进行分析情况及其就业层次分布情况,从而做到全面的观察就业的发展状况,形成对市场发展状况进行全面的监控,并为今后的工作提供参考数据。
3.3 毕业生分类信息挖掘
由于传统的数据无法满足大家的需求,所以我们就要对数据进行分析提取,学生数据中存在着大量情况,利用这些数据结合当今社会就业的就业形势,以通过数据挖掘的技术对毕业生资料进行构建。统一进行数据化毕业信息资料、并针对性别、专业、特长、技能、就业意向等因素进行分门别类,形成一套可视化信息图系统,从而方便用人单位进行面向主体的信息抽选,最终提高就业效率[3]。
3.4 数据挖掘中的反馈进行教学改革
学生的就业不仅仅就意味着教学工作的结束,也是对教学工作的最后一次检验。是通过就业总结来发现教学中出现的问题,从而分析对教学的反馈作用集中体现了数据的挖掘的教学价值和技术性价值。
为实现教学与人才市场相结合,从而保证并充分就业,有必要进行人才培养模式教学内容、教学方法和教学手段进行全方位的调整和改革,进行统一和机制改革[4]。专业设置和社会需求的有机结合、社会适应性与岗位针对性的统一结合,主动学习与社会实践的有机结合,整体的稳定性与适当的灵活性相结合,建立完善的专业预警制度。
4 数据挖掘中应注意的问题
数据挖掘的目的是把隐含的一大批看来无用杂乱无章的数据集中起来,取其精华,去其糟粕的进行合理的运用与判断。在实际运用中,进行数据挖掘并做出准确的判断。如果信息收集的不全就会导致部分数据错误,影响到分析的情况,这样就会违背数据挖掘的原则[5]。因此就要实现数据的科学化、专业化,但是在这个的前提条件下还需要注意几个小问题。(1)确保决策的目标性和科学性。决策目标是指在一定的环境下和内部条件下,在市场调查和研究中的基础上要预测出所要达到的效果、目的。(2)合理的进行数据的维护,数据挖掘得到的结果全部靠数据的提供,由于数据结构的复杂性,因此对数据挖掘要进行探索、分析变量、这样就可解决问题。分析数据中隐含的趁势,在具体的就业数据分析中要对这个趁势进行应有的考虑看其是否有探讨价值并进行评价。(3)进行科学的抽样,面对如此庞大而复杂的数据,只能对数据进行抽样选取,并进行探讨分析,不同的人对同样的数据进行分析会产生不一样的结果,将大家的数据进行综合才可进行保障就业的可靠性。(4)注重数据的私有,安全性、以及专业性,数据在挖掘的过程中要涉及到数据的私有安全和安全度,数据挖掘的结果是不确定性的,要和专业知识相结合才可确保数据提供的准确内容。
5 结论
数据挖掘技术的应用在不断的扩展中,也受到了学术界的广泛运用,当前的就业形势越来越严峻,尤其是针对应届毕业生,将数据挖掘运用到就业信息分析上,可以给就业者提供准确的就业内容,减少就业者从业的盲目性,促进教育、就业、社会三者关系的有机融合,从而达到可持续发展。数据挖掘技术要想得到有效的运用,就必须掌握其内涵,分析数据的技巧,从而能够更好的为学生服务。
参考文献:
[1]王晓燕,何月顺,杨文强.基于数据挖掘技术的高校教学方法研究[J].科技经济市场,2009(02).
[2]董芸.数据挖掘与统计分析[J].统计与决策,2010(09).
[3]陈树冬.论开拓高校毕业生就业市场[J].经济研究导刊,2011(19).
数据挖掘技术研究范文5
关键词:数据库;数据挖掘;研究分析
1 前沿
近年来,随着数据挖掘技术的蓬勃发展,面向以结构化数据为主的数据挖掘技术的得到了长足的发展,并日益走向成熟。它已被越来越多的领域所采用,并取得了较好的效果,在数据挖掘领域积累了大量经验。但是面向结构化数据的挖掘技术很少有处理Web上的异质、非结构化信息的工作。所以,面对XML这类半结构化的文本数据,并不能将传统的数据挖掘技术完全照搬过来。要实现面向XML数据库的数据挖掘研究就必须将传统的面向结构化数据的数据挖掘经验技术和XML特有的技术规范相结合。由于XML规范至今不过短短几年的时间,尽管其应用前景非常广阔,但就总体而言,XML相关技术及其应用仍然处于研究、探索阶段,对其进行挖掘的研究更是如此。
2 总体结构
传统的数据挖掘将分为三个主要部分:数据准备、数据挖掘和知识的确认与提炼。本文在构建结构时也基本继承了这几个主要部分,不过因为XML数据库是针对XML文档的特殊数据库,与其它关系型数据库的存储方式有些不同,所以在其中加了XML数据库存储这个部分。新的结构包括四个部分:数据预处理、XML数据库存储、XML数据挖掘和知识表示。基于XML数据库的数据挖掘过程如图1所示。
数据挖掘过程是数据挖掘的核心步骤,不同的挖掘目标采用的挖掘方法和技术都不相同。在XML数据库环境下进行关联规则挖掘就可用到XML数据库提供的特有的技术。XQuery是XML的查询标准,提供了丰富强大的查询功能,用它可以实现传统的关联规则挖掘算法来直接对XML文档进行挖掘分析。使用这种方法不需要对XML文档进行预处理及挖掘后处理,实现起来简单快捷。
3 XML数据挖掘
3.1挖掘方案选取
对XML的挖掘包括对XML结构上的挖掘和对XML内容上的挖掘两种[2-5]。XML的内容指的是文档中每个开始标记和结束标记之间的文本部分,对其内容的挖掘其实也就是对标记的值的挖掘。目前,XML结构挖掘研究相对较多,内容挖掘研究较少,这里主要研究的是XML内容挖掘:包括单个XML文档挖掘和群组XML文档挖掘。
XML的内容挖掘主要有三类方案:
第一种是通过一些专门为XML数据或半结构化数据开发的查询语言,如XML-QL,XML-GL,XQuery等,利用其查询功能,嵌入到其他应用程序中,从而获得数据集进行挖掘。这种方法的优点是能够将XML技术与数据挖掘技术紧密结合,且实现起来简便。
第二种是将XML文档的数据结构化,映射到现有的关系模型或对象模型中,从而可以使用较成熟的数据挖掘方法对其进行挖掘。但是XML本身的一些半结构化特点可能会导致在映射过程中产生一些问题。
最后一种解决方法是将XML文档看作是一个文本,进而使用传统文本挖掘技术进行挖掘。如使用矢量空间模型(VSM)将文档空间看作是由一组正交词条矢量所组成的矢量空间,通过统计词频、缩减维数等步骤,达到机器学习、获得知识的目的。但这种方法并没有考虑到XML文档仍存在一些结构化的特征。此外,数据量大、数据过于详细也会导致文档的特征向量巨大,造成挖掘困难。
在XML数据库环境下进行关联规则挖掘就可用到XML数据库提供的对XQuery技术的支持。将XML的查询语言与传统数据挖掘方法相结合来提取XML文档中的关联规则,也就是通过用XQuery来汇总数据集,进而实现挖掘算法。
3.2 XML挖掘实现
选用XQuery实现关联挖掘算法来进行挖掘,不需要对XML文档进行预处理及挖掘后处理,实现起来简单快捷。只需要调用XML数据库提供的XQuery引擎,执行相应的XQuery就可以直接得到挖掘出的关联规则。
在X-Hive数据库中提供两种方式来执行XQuery。
方式一:用XhiveNodeIf对象的executeXQuery(String query)方法来执行XQuery语句,它将返回iterator。结果集的每个元素都是XhiveXQueryValueIf对象,还可以将它转换成DOM的节点来进行进一步操作。
方式二:用XhiveXQueryQueryIf对象调用execute()来执行XQuery语句。这种方式可以引入外部参数,通过setVariable方法来绑定参数。
用XQuery实现挖掘算法来挖掘关联规则需要传递参数,这里选用了第二种方式来执行XQuery。调用接口执行XQuery完成数据挖掘的代码如下所示:
Procedure XQueryXMLMining(String fileXQueryName,float minSup,float minConf)
{
db=GetConnect(userName,userPassword,databaseName)
transaction=db.get(libraryName)
strXQuery=ReadFile(fileXQueryName)
XhiveXQueryQueryIf Query=Transaction.createXQuery(strXQuery)
mineFilenames=GetFilenames(Transaction)
Query.setVariable("filenames",filenamesInLibrary)
Query.setVariable("minSup",minSup)
Query.setVariable("minConf",minConf)
Return Query.execute();
};
输入参数是保存XQuery挖掘算法的文本文件名、最小支持度和最小可信度。为了增强程序的灵活性,方便XQuery的修改,以及不同XQuery实现算法的替换,将XQuery代码存放在文本文件中。要从文件中提取出XQuery代码,需要传递XQuery所在的文件名。通过GetConnect函数与XML数据库建立连接。由于待挖掘的XML存放在transaction文档集合中,创建文档集合对象transaction与transaction文档集合进行关联。ReadFile函数读取保存在文件中的XQuery代码,并赋值给变量strXQuery。X-Hive数据库通过调用XhiveXQueryQueryIf对象来执行XQuery代码,这里建立一个XhiveXQueryQueryIf对象Query。GetFilenames函数从transaction文档集合中提取待挖掘的XML文档名,用XQuery可直接从XML数据库中读取文档只需要将待挖掘的XML文档名传递给它。通过setVariable方法将待挖掘的XML文档文件名、最小支持度和最小可信度与XQuery代码中的参数绑定。最后,通过调用Query的execute方法执行XQuery代码,并将执行结果返回。
XML挖掘 的最核心的部分是用XQuery实现有效的关联规则挖掘算法。Jacky等人已经使用XQuery实现了经典的Apriori算法,并成功的从单个XML文档中提取出了关联规则,证实了用XQuery来直接进行数据挖掘的可行性。使用这种方法不需要对XML文档进行预处理及挖掘后处理相对其他方法要简单实用。但是仅用XQuery实现Apriori算法还存在一些不足。首先,只能对单个XML文档适用,不能处理多XML文档的挖掘;其次,需要多次扫描数据库,要挖掘频繁k项集就需要扫描k次,效率相对低下。针对这些问题,将用XQuery实现传统的Partition算法来进行挖掘。Partition算法将数据库从逻辑上划分为多个块,然后挖掘多个划分块中的关联规则,将划分等同于XML文档就可以进行群组XML文档的挖掘。又由于这种算法只需要扫描数据库两次,减少了数据库扫描次数提高了时间效率。选用这种算法将从挖掘范围和挖掘效率上都得到提高。
结束语
详细描述了基于XML数据库的数据挖掘过程。在预处理过程中运用DOM和Schema技术对数据进行XML规范性处理;在存储过程中分析了各种XML数据存储方案,并通过XML数据库提供的存储接口将符合规范的数据存储到XML数据库中;在挖掘过程中用XQuery实现挖掘算法直接对XML数据挖掘。
参考文献:
[1] 卫金茂,王石,伊卫国.基于XML的数据挖掘.计算机工程与设计,2003,24(10):106~108,125
[2] 李由,黄凯歌.XML的数据库存储技术研究.计算机应用研究,2002,19(4):60~62
[3] 曹亮,王茜.XML数据在关系数据库中存储和检索的研究与实现.东南大学学报,2002,32(1):124~127
数据挖掘技术研究范文6
1基于数据挖掘的成绩分析系统的设计要求及目标
成绩分析系统的最终作用就是实现有效决策,从而有效指导学生的学习和就业。这就要求数据挖掘系统可以实现多种数据类型的挖掘任务,比如课程总成绩之间的关系,课程各模块之间的关系等,可以采用序列模式的发现、分类模式的发现、聚类模式的发现、关联规则的发现等等。这就要求系统在设计上应该注重系统功能的完备。
成绩分析系统的好坏,关键看此系统是否能够从已有的数据中实现准确的预测,这就不可避免的要对以往存在大量数据进行存取交互操作,这就要求此成绩分析系统与底层数据库系统紧密藕合,尽可能的使用数据管理系统的各种功能。由于此系统是可以通过网络进行分析处理数据的,所以要很好的支持Internet/Intranet环境,在网络中存取数据对数据的安全性要求很高,所以数据库的设计也是此系统的重要一个环节。软件的使用和开发讲究可移植性和可拓展性,并且数据挖掘技术并不是一成不变的,这要求我们在系统设计和开发的时候充分考虑到系统结构上的可扩展性。
2系统框架及功能设计
成绩分析系统的框架设计要充分考虑系统的特点、系统要求及用户体验,保证系统能够高效、协调的运行处理数据。整个系统将数据预处理模块、用户界面、数据挖掘模块、数据库和外部文件紧密地结合在一起,构成了一个层次结构。在这个分析系统中,主要有用户界面,数据挖掘和处理部件、数据预处理模块和数据库管理模块组成。
2.1用户界面用户界面是一个系统软件的门户部件,主要包括图形界面,web界面和用户任务界面等,其主要提供的功能包括:用户操作任务提交:将用户的操作提交到后台,为用户要处理的数据集进行数据挖掘的预处理,选择要操作的数据库及使用的算法等功能,也包括各类参数的选择。将处理结果反馈给用户,从关联规则的文本形式及树表现形式或是层次结构的表现形式反馈给客户。给用户提供数据挖掘算法的各类参数,属性等供用户选择和修改。
2.2数据预处理模块数据预处理模块主要是对分析的数据进行整理及数据格式转换,将数据库的不同格式的数据转换成数据挖掘技术能够处理的格式,或是批量将数据进行关系型数据的转换,此功能对本系统的扩展性和可移植性至关重要。
2.3数据挖掘模块此模块是学生成绩分析系统的核心部件,主要是根据数据挖掘算法进行分析数据主要利用不同的算法进行数据处理,有关联规则算法,聚类分析算法,预测算法等。
2.4DBMS模块此模块主要是用来数据库管理,可以管理数据库中底层数据,而且还可以管理已经挖掘出来的数据结果,可以为以后增量挖掘做准备。
3实现方案设计
传统的软件开发模式,一般会有专门的客户端,即“C/S”软件应用模式,采取两层结构的此种类型的软件,在使用上会有不少突出问题。系统的安装维护及升级困难,可伸缩性能较差,根据目前流行的软件开发模式,本系统的开发采用基于B/S的三层体系结构。由浏览器、数据库、应用服务器组成,客户端由专用软件改为浏览器,为软件的升级及系统的可伸缩性提供了可能;数据库服务器为独立运行的服务器,为软件的安全性及性能上提供了保证;应用服务器为应用逻辑处理服务器,主要是用来过程处理,从数据库服务器中获取数据,并将处理结果反馈给客户端浏览器。基于B/S的三层结构的主要特点包括:(1)保持数据库独立,使系统更加安全和便于维护。(2)应用服务器的放在应用层,和数据库服务器,客户端浏览器独立存在,便于功能共享和拓展。(3)利用应用服务器的并行性和服务器本身的性能,可以对数据挖掘数据并行处理,提高数据处理效率。根据以上的结论,本成绩分析系统采用基于B/S的三层结构,数据库服务器,应用服务器负责数据预处理和数据挖掘功能,提供各种下数据挖掘工具和算法,底层数据库服务器存放各类基础数据。这样,客户端将任务请求发送给应用服务器,应用服务器启动数据挖掘工具对象,将各种查询参数封装,并在访问数据库服务器后完成指定任务,并将分析结果返回给客户端。
4总结及展望