数据挖掘技术分析论文范例6篇

前言:中文期刊网精心挑选了数据挖掘技术分析论文范文供你参考和学习,希望我们的参考范文能激发你的文章创作灵感,欢迎阅读。

数据挖掘技术分析论文

数据挖掘技术分析论文范文1

关键词:医学院校;目标驱动;课程设计;毕业论文

中图分类号:G642.0 文献标志码:A 文章编号:1674-9324(2012)12-0218-02

一、背景

“数据仓库与数据挖掘”是国内外高等院校一门重要的课程,是国家基础教育较为重视的一门学科,受到不同专业学生的喜爱。其教学目标是提高学生的数据分析水平和能力,除了教授学生数据分析的常见方法之外,还将引导学生如何对实际的问题进行建模,如何对模型进行简化和求解。利用实例教学等方法,可以很好地将数据挖掘中的抽象概念、模型、公式等阐述清楚,让学生易于理解和接受。近年来,数据挖掘技术在医学领域中的应用越来越广泛。在疾病诊断、治疗、器官移植、基因研究、图像分析、康复、药物开发、科学研究等方面都获得了可喜的成果。运用各种数据挖掘技术了解各种疾病之间的相互关系、各种疾病的发展规律,总结各种治疗方案的治疗效果,以及对疾病的诊断、治疗和医学研究都是非常有价值的。因此,我们学院也把这门课程作为计算机专业及信息管理与信息系统专业的必修课。把计算机与医学结合,使得学生的培养方案全面包括了计算机与医学的知识点。由于该课程原本属于研究生阶段开设的专业课程,教材也大多侧重于介绍体系结构、算法原理、效率分析与改进等理论知识,其中所涉及的内容大多比较深,许多知识都超出了本科生的接受范围,此外,教材对相关理论在实际应用方面的说明也比较少,不利于安排实验教学。因此要实现“数据仓库与数据挖掘”课程的教学目标,必须在理论教学和实验教学环节综合考虑学时多少、教学条件以及学生的接受情况等因素,灵活地加以选择安排。

二、存在的问题

主要包括以下几方面:①课堂上以教师讲、学生听的教学形式为主,学生学习处于被动状态,他们的创造性因此被严重扼杀;②教师对专业课程体系和学生的知识体系不够重视,对课程体系的讲解不到位,造成学生在学习时课程之间联系不上,知识衔接不好,对知识的运用和融会贯通比较差;③实验与理论脱节。“数据仓库与数据挖掘”课程理论讲授的算法与实验软件中的算法有很大差距,使得学生难以理解。比如对于理论上讲授的关联规则算法,实验中使用SQL SERVER 2005中的商务智能工具做实验,学生发现有很多参数与理论上讲授的有很大不同;④医学院校的学生对纯粹计算机理论知识接受困难。由于该门课程是交叉学科,涉及计算机、数学、统计学等知识,如果学生的其他学科学得不好,就会对该课程的学习产生障碍;⑤教师讲授没有把理论课程结合到实际应用中。有很多学生不知道学习这门课的意义,老师没有很好引导学生,激活他们的学习热情。

三、目标驱动的教学框架

对于以上问题,本文提出了一个新的教学体系,设计了一套基于目标驱动的教学框架,把教师与学生紧密联系起来,从教学大纲的设置,教材的选择,理论教学,实验教学,课程设计及毕业论文,全面引导学生从初步了解到深入学习的过程。对于我们学校的实际情况,有两个专业的学生要学习这门课程。一个是计算机科学与技术专业,一个是信息管理与信息系统专业。对于两个不同的专业,我们设置不同的教学大纲。比如对于计算机专业的学生,数据仓库和数据挖掘教学总时数为72学时,其中理论为54学时,实验为36学时。

1.理论教学。对于信息管理与信息系统专业的学生,我们可以设置如下的教学计划,可分为三个主要部分。我们教材选择韩家炜的《数据挖掘概念与技术》,第一部分:第一至四章为数据挖掘的基础知识,包括数据仓库和数据挖掘的基本概念和相关知识介绍;第二部分:第五、六章介绍了数据挖掘的算法和工具;第三部分:第七章是数据挖掘的聚类分析的实际应用。本课程是信息管理与信息系统专业本科生专业必修课。通过该课程的学习,要求学生掌握数据仓库和数据挖掘的基本概念,了解基本方法和应用背景。掌握数据仓库的设计和建立,掌握数据挖掘的主要步骤和实现方法,数据挖掘的常用算法,实现数据挖掘的具体操作。理论学时的安排,第一章绪论(6学时);第二章数据仓库(4学时);第三章数据预处理(8学时);第四章数据挖掘发现知识的类型(8学时);第五章数据挖掘中常用算法(12学时);第六章数据挖掘的工具及其应用(8学时);第七章数据挖掘应用实例(8学时)。

2.实验教学。本课程配合理论教学,通过系统的实践教学锻炼,着重培养学生的独立分析问题和解决问题的能力,熟练掌握数据仓库的设计和建立以及各类数据挖掘方法,使学生具有一定的数据分析和挖掘能力,能在认识基础上,提出有效的数据挖掘方法,依据实际例子,写出解决方案。学生应在实验课前明确实验的目的和要求,然后针对相关问题写出解决方案。实验时对实际方案的运行结果应能进行分析并提出改进方法,最终写出实验报告。通过实验教学应达到以下基本要求:①理解数据仓库的工作机理及其构建过程;②掌握典型的数据仓库系统及其开发工具的使用;③理解数据挖掘技术的工作原理与流程;④掌握典型数据挖掘工具的使用;⑤掌握几种典型的数据挖掘算法;⑥掌握使用SQL SERVER 2000和SPSS工具解决实际问题。实验成绩包括:实验教学过程成绩、实验报告成绩,各占50%。实验过程表现成绩包括:学习态度是否认真、实验操作是否正确规范、基本技能掌握程度是否具有创新意识等方面。实验报告成绩包括:实验报告格式是否正确、原理是否论述清楚、实验结果分析讨论是否符合逻辑,报告字迹是否清楚等方面。

3.课程设计。理论课和实验课接近结束时,我们把最后三周作为本门课程的课程设计。课程设计的目的是让学生进一步深刻理解所学知识。由于本门课程很多算法不容易理解,如何让学生把所学知识结合到医学应用中是课程设计的关键。比如我们对信息管理与信息系统专业的学生课程设计,要求学生每人选择一个老师给定的题目,课程设计有详细的要求,比如题目“数据挖掘在医学诊断中的应用”要求学生能把本门课程相关的算法结合使用,最后给出详细的分析。通过课程设计,我们发现,学生对本门课程更有兴趣。

4.毕业论文。我们把课程一般开设在大三的下学期,也就是说学生学完这门课程后,就做了该门课的课程设计,使得学生对数据挖掘相关知识有了比较深刻的认识。这样,我们可以引导学生毕业论文的选择。毕业论文毕竟是反映学生大学四年所学知识,也对他们将来就业起到提前培训的作用。把理论结合实践,老师对学生的引导也十分重要。

我们根据医学院校的特征,提出了一套目标驱动的教学理念,从学生认识这门课程到学生理论课的学习,实验课的学习,课程设计及毕业论文的完成,在老师的指导下,使用我们的考核体系,可提高学生对所学课程的兴趣。

参考文献:

数据挖掘技术分析论文范文2

>> 基于本体的网络舆情观点挖掘方法研究 基于热点文件下载的网络舆情信息挖掘方法研究 基于网页文本获取的高校网络舆情监控 基于OAG循环的网络舆情管理模型研究 基于大规模文本数据情感挖掘的企业舆情研究 基于文本挖掘的网络媒体报道研究 基于模糊神经网络的Web文本挖掘系统 基于PDCA循环的预算管理 基于PDCA循环的绩效考评 基于 PDCA 循环方法的沥青路面质量动态管理的研究 基于数据挖掘的网络舆情预警决策支持系统 基于数据挖掘技术的网络舆情智能监测与引导平台设计研究 基于Web挖掘的突发事件网络舆情预警研究 基于Web数据挖掘的网络舆情分析技术研究 基于Web挖掘的突发事件网络舆情预警策略探讨 基于数据挖掘技术在网络舆情预测中的应用 基于数据挖掘的高校网络舆情分析系统设计与实现 基于数据挖掘的舆情观点挖掘研究 基于蛙鸣博弈的网络舆情与政府监管的模型浅析 基于PDCA循环的绩效管理体系的构建 常见问题解答 当前所在位置:.

[2]张玉亮.突发事件网络舆情的生成原因与导控策略――基于网络舆情主体心理的分析视阈[J].情报杂志,2012,31(4):54-57.

[3]许鑫,章成志,李雯静.国内网络舆情研究的回顾与展望[J].情报理论与实践,2009,32(3):115-120.

[4]Hua Zhao,Qingtian Zeng.Micro-blog Hot Event Detection Based on Dynamic Event Model.Lecture Notes in Artificial Intelligence 8041,2013:161-172.

[5]郑军.网络舆情监控的热点发现算法研究[D].哈尔滨哈尔滨工程大学,2007.

[6]陈耘可,李博,郑天翔.PDCA循环在煤炭企业质量标准化建设中的研究与应用[J].煤炭经济研究,2013,33(2):77-79.

[7]辛敏.PDCA理论在护理质量管理中的应用研究[D].硕士学位论文:山西医科大学,2010.

数据挖掘技术分析论文范文3

【关键词】大数据 生物信息 知识提取 数据挖掘

1 数据挖掘的功能

数据挖掘是从大量的数据中四栋搜索隐藏于其中的具有特殊关系性的信息过程。它是数据库知识发现KDD中的一个步骤。知识发现KDD过程由以下3个阶段组成:数据准备、数据挖掘、结果表示和解释。数据挖掘跟许多学科都交叉关联,包括数据库技术、统计学、机器学习、人工智能、云计算和可视化等。

数据挖掘的实际应用功能可分为三大类和六分项:分类和聚类属于分类去隔类;回归和时间序列属于推算预测类;关联和序列则属于序列规则类。分类常被用来根据历史经验已经分好的数据来研究它们的特征,然后再根据这些特征对其他未经分类或是新的数据做预测。聚类是将数据分群,其目的是找出群间的差异来,同时找出群内成员间相似性。回归是利用一系列的现有数值来预测一个数值的可能值。基于时间序列的预测与回归功能类似,只是它是用现有的数值来预测未来的数值。关联是要找出在某一事件与数据中会同时出现的东西。

2 降维

从降维的角度讲,整个数据挖掘的过程就是一个降维的过程。在这个过程中,需要对数据删除线性关系比较强的特征数据,再用一些算法,如信号分析算法、傅里叶转换、离散小波转换等算法,从数据中提取特征,再对数据做主成分析处理,得到最后的特征,再用数据挖掘算法来将这些特征转化为人类可读取的数据或信息。

3 分布式数据挖掘解决方案

随着分布式计算技术、云计算技术、hadoop生态圈和非结构化数据库等技术的发展,以及对大数据挖掘的需求,出现了一批分布式数据挖掘,比较典型的有Apache推出的基于Hadoop的Mahout和加利福尼亚大学伯克利分校AMP实验室推出的基于Spark的MLBase。在Mahout中主要实现3种类型的数据挖掘算法:分类、聚类(集群)和协同过滤。相比Mahout而言,MLbase更好的支持迭代计算,它把数据拆分成若干份,对每一份使用不同的算法和参数运算出结果,看哪一种搭配方式得到的结果最优。

4 大数据下的具体应用实例――生物信息学的应用

生物信息学(Bioinformatics)是生命科学、计算机科学、信息科学和数学等学科交汇融合形成的一门交叉学科。近年来随着先进仪器装备与信息技术等越来越广泛和深入的整合到生物技术中来,生物医学研究中越来越频繁的涉及到大数据存储和分析等信息技术。在使用计算机协助生物信息时,处理仅有计算机辅助的方式存储数据很显然是不够的,生物信息学研究的目的是运用计算机强大的计算能力来加速生物数据的分析,理解数据中所包含的生物学意义。当前生物信息学研究的热点有:

(1)由以序列分析为代表的组成分析转向功能分析。

(2)由对单个生物分子的研究转向基因调控忘了等动态信息的研究。

(3)完整基因组数据分析。

(4)综合分析。

生物信息数据具有如下特点:高通量与大数据量;种类繁多,形式多样;异构性;网络性与动态性;高维;序列数据等特点[5]。针对这样的生物数据信息,要结合当前的大数据分析方法进行分析和理解。当前数据挖掘实现对生物信息分析的支持主要有:生物数据的语义综合,数据集成;开发生物信息数据挖掘工具;序列的相似性查找和比较;聚类分析;关联分析,生物文献挖掘等方面。

参考文献

[1]许凡.大数据时代的数据挖掘技术探讨[J].电子技术与软件工程,2015(08).

[2]洪松林.数据挖掘技术与工程实践[M].北京:机械工业出版社,2014(11).

[3]李荣.生物信息数据挖掘若干关键问题研究与应用[D].复旦大学(博士论文),2004(11).

[4]宋杰.生物信息数据挖掘中的若干方法及其应用研究[D].大连理工大学(博士论文),2005(04).

[5]孙勤红.基于梯度采样局部收敛的生物信息大数据挖掘[J].科技通报,2015(10).

作者简介

孙勤红(1979-),女,山东省人。现为三江学院计算机科学与工程学院讲师。研究方向为人工智能、数据挖掘。

沈凤仙(1984-),女,江苏省人。现供职于三江学院计算机科学与工程学院。研究方向为数据挖掘。

数据挖掘技术分析论文范文4

有些具有专业技术性的毕业论文写作,的确具有困难性,对于一些工程学科的学生而言,该毕业论文应当是结合设计进行的。

例如,计算机应用或者软件工程学科,就需要进行相关的系统设计,并且完成、能够成功运行才能够符合他们的毕业论文的标准。这样的毕业论文由于要基于真正的系统实现,意味着从一开始的系统框架的搭建以及数据的链接都要非常明了如何实现,才能够不断推动整体设计的进行。所以有很多工科学生因为无法独立完成这样的论文以及毕业设计内容,而尝试用多种方式进行转移。便会去寻找一些愿意有偿代做系统设计,且愿意提供毕业(设计)论文的人,这样做既可以帮助自己完成学业拿到相应的学分得以毕业,还能够学习更多的其他知识丰富人生。

但是在进行该类设计很多知识的工科毕业设计工作中,例如涉及数学小论文的知识内容、通信类相关技术论文等等,就需写作人员在开始构思整个系统的实现之前,进行必要的技术掌握,才能避免在实际研发过程中出现问题及错误。例如,在进行数据挖掘技术相关的系统设计或者模型分析的论文中,在材料准备阶段,就应当结合数据挖掘原理及技术应用的相关理论内容,探讨该类已经在期刊中所提到的相应的预警规则,针对网络安全方面的安全预警模型进行多维度的介绍。【提供】

数据挖掘技术分析论文范文5

关键词: 科研成果管理; 决策支持; 数据仓库; 联机分析处理; 数据挖掘

中图分类号: TN911?34; TM417 文献标识码: A 文章编号: 1004?373X(2016)07?0120?04

Abstract: The traditional scientific research achievement management uses the database to store the result data. The multiple data types of the scientific research achievement and unified storage way become the obstacle to obtain the valid result data in decision?making analysis, simultaneously the traditional scientific research achievement system can only extract the result information. In view of the above problems, the scientific research achievement management and decision support system based on data warehouse is proposed, in which the data warehouse, on?line analysis processing (OLAP) and association rule mining algorithm are integrated. The system supports that the management personnel can discover the potential achievement, evaluate the scientific research projects, and reasonably allocate the human resources. The association rules of the data were mined in college paper database. It is found that paper quantity and time dimension have some relationship, which conforms with the practical training situation. The effectiveness of using Apriori in this system was verified.

Keywords: scientific research achievement management; decision support; data warehouse; OLAP; data mining

0 引 言

传统的科研项目管理过程费时费力,且浪费了大量的人力资源。科研过程中产生的有价值的信息,也被这样死板的管理方法给淹没了,人们不能也不愿意从纸质的资料文献中去发现价值。科研管理方式效率低会严重影响到科研项目开发的进度。随着科学技术的快速发展,科研单位虽然对传统方法进行了改进,开始建立管理系统,但是还远远不能满足要求[1]。

近年来,国内研究机构也开始重视科研项目管理方面的研究,目的多是为了提高项目管理的水平,对优秀的科研成果进行公示,共同分享研究信息[2]。科研成果管理决策支持系统的目的是为了解决传统科研管理系统对成果资源的浪费情况,加强对科研成果信息中潜在知识的利用,提高科研项目管理中对成果管理的有效性,利用数据挖掘充分发挥成果数据的潜力,为管理层提供决策支持依据[3]。

1 SRAM?DSS的需求分析

1.1 功能需求

科研成果管理决策支持系统主要面向科研项目的成果进行管理,这些成果包括学术论文、著作、期刊、专利等。数据仓库的应用可以对成果数据采取智能的分析,将成果数据进行归类和按照成果数据的分析要求进行整理,从中发现成果与项目、人员之间的联系和潜在的规律,帮助决策者调整科研定位,做出科学的决策。

基本管理功能要求用户可以利用本系统完成对成果的基本管理,包括成果提交、 审核、审批等流程的规范管理,还有对保密项目成果的加密处理,不仅要系统能够保存使用过程中存入的成果,还可以导入外部数据库的成果数据,为数据挖掘功能提供数据基础,对数据的集成程度要求很高,因此需要利用数据仓库存放成果数据[4]。

1.2 用户需求

系统的主要角色包括科研员,科研管理员,决策员,数据管理员,系统管理员。

2 总体设计

2.1 科研成果数据仓库的设计

对于科研成果数据仓库从概念模型、逻辑模型、物理模型三方面进行建模。需要根据不同的主题把数据仓库中的数据划分好具体的维度[5]。以成果主题为例,成果数据包括成果名称,成果类型,成果来源,成果性质,成果作者,成果审核结果,所属项目,成果完成时间,成果数量等,以此作为分析的依据。因为数据仓库是多维的,OLAP要在多维数据集之上才能进行,成果数据要满足分析的要求可以根据维层次继续划分,成果类型包括论文,专利,专著,软件成果等;成果性质包括科技,医药,航天等[6]。

(1) 逻辑模型

系统主要用户利用成果信息进行分析,以此来评估科研项目,并为决策者提供决策支持。分析成果事实表中的数据信息有用户维、成果维、时间维。在OLAP分析时可以按照不同的层次进行分析,如图2所示。

(2) 物理模型

在设计数据仓库的物理模型时,定义成果数据的数据标准是需要注意的重点,目的是使成果数据在数据仓库中都有一个统一的格式,定义表示成果的相关属性来描述成果逻辑关系,得到对成果数据仓库的特征进行完整描述。系统采用SQLServer2008建立数据库[7]。利用AnalysisServices获得后台数据库里面的信息,这样建立的数据仓库可以满足需求。

2.2 SRAM?DSS功能的设计

为实现科研成果管理科学,全方位管理,设计成果管理,决策支持,用户管理,系统管理四个模块的内容,并且用户在登陆系统之前要进行身份验证。

(1) 成果管理模块

成果管理主要包括成果查询,添加成果,申报成果,成果审核,成果加密以及成果导出等功能,系统采用分组加密方式进行加密。

(2) 决策支持模块

数据仓库是决策支持功能的数据基础,有了数据就需要更多的操作来完成决策支持。对于系统中不同的数据来源,包括外部导入数据利用ETL过程,实现规范化。然后将符合标准的数据装入数据仓库中。然后针对用户的要求进行联机分析处理和关联规则挖掘。

(3) 用户管理模块

用户在Web地址栏输入URL进入登录,用户名文本框内输入用户姓名,在密码框内输入密码。系统认证平台会判断用户身份,若是新用户要完成注册才能登陆,注册时要填写用户真实的信息,才能获得登陆权利,若用户输入的用户信息正确,登录成功。用户可以在用户管理中进行创建,添加到用户数据表中,也能获得系统的使用权限[8]。

(4) 系统管理模块

系统管理模块主要是针对系统的权限分配,系统维护以及一些常用工具的设计。不同的用户进行的操作不同,能够看到的信息不同,就要求系统控制权限,建立权限分配制度,有利于对用户权限进行合理的分配也保证了系统的安全运行。系统维护是管理系统中必不可少的关键功能,包括对系统用户数据,成果信息数据等的备份工作,实现数据库的安全管理,管理相应功能结构规范性,为系统的更新与升级提供支持。

3 系统实现

3.1 基于数据仓库的OLAP模型

联机分析处理技术能够高效的分析数据,发现事物发展规律,捕获异常和细节。OLAP支持数据分析,而数据仓库里的数据是经过ETL处理后集成到一起,保证了分析在一个快速的时间内给予响应。所以本阶段就是基于数据仓库建立OLAP模型,从而得到更为可靠的数据立方体,既降低了刷新代价又提高了响应速度。

OLAP包括了维和度量,在前面建立数据仓库时已经完成。利用SQL Server中的Analysis Services项目模板建立多维数据集,定义数据源以及建立事实表与维表之间的关系。

OLAP模型对数据仓库中的数据利用MDX进行多维查找,可以有效分析多维数据集。MDX是OLAP的查询语句,语法与结构化查询语言SQL很类似。在成果管理系统中,通过MDX语言把科研员和决策者需要的成果数据查询出来,展现在前台界面里。

利用OLAP模型进行分析,决策者可以依据分析要求,选择更多角度去分析数据,能得到的分析也更多,如下:

(1) 由科研成果的类型分布来看整体项目的侧重重点,以及在成果突出领域的发展机会和潜力;

(2) 由科研成果参与者和第一申请单位作者与项目之间的关系,可以看到参与者职称水平,技术支持水平对成果完成数量与质量的关系,并不是参与者越多的成果越完善,可以以此作为合理分配人才资源参与项目开发的依据,也可以以此评估参与人员的水平,作为考核参考;

(3) 以科研成果在一定时间内的增长,作为项目进度和发展的一个参考标准。也可以看到成果的趋势和项目完成单位的能力和业务的提升;

(4) 可以利用数据库,对以往成果信息进行分析,由于在传统的数据库中不具备OLAP的功能。

3.2 基于数据仓库的关联规则挖掘

基于数据仓库的关联规则挖掘,Apriori算法的核心是提高关联规则产生的效率。利用Apriori算法对科研成果数据进行分析的时候要明确成果的特征,根据成果特征描述来看,适合利用Apriori算法进行关联规则的挖掘。科研成果数据的特征如下:成果数据是按照项目进程时间节点进行录入的,存储在成果库中;成果评估方式不统一,对成果的评估应采取统一的标准;科研成果的数据存储在数据库中,每一个成果都对应一条记录,每一个记录的属性都一样。

以本校论文库的数据为实验数据,在论文管理系统中可导出相关TXT文档数据,利用系统成果导入功能,添加到系统中,对数据进行统一的处理。选取2012―2015年间,数学、物理、计算机、兵器学科的论文成果数据。论文所属学科层次划分到一级子学科,时间层次按照年学年,继续划分下去。

(1) 数据预处理

数据经过清洗,转换,去掉无效的数据,采用统一的数据编码规则,用离散字母代替时间层次,同时将学科按照统一的编码规则,重新编码。进一步按照论文数量划分等级,五份为一级,等级越高代表论文数量越多。

(2) 算法实现

设置最小支持度 min_sup=4,支持度=40%,置信度=80%,通过Apriori算法计算出的关联规则信任度见表2。

(3) 结果分析

采用的实验数据来自于论文数据库,由于学校毕业论文按照培养计划有周期性,学术性硕士的培养周期为2.5学年,所以硕士毕业多集中于第一学年3月份左右,工程硕士的培养周期为第二学年9月份,所以对数据的分析结果多集中于上半年。

规则1表示,在2012年第一学年在5篇以内且2013年第一学年毕业论文在5篇以内的学科专业,则在2013年第二学年在5篇左右的支持度为40%,信任度为80%。

规则2表示,在2013年第一学年在5篇以内且2013年第二学年毕业论文在5篇以内的学科专业,则在2012年第一学年在5篇左右的支持度为40%,信任度为80%。

规则3表示,在2012年第一学年在5篇以内且2013年第一学年毕业论文在5篇以内的学科专业,则在2014年第二学年在5篇左右的支持度为40%,信任度为80%。

3.3 关联规则说明

由于系统中的测试数据多来自网络和本校的数据库,对关联规则的挖掘也许存在偏差,但是整体提供的关联规则数据信息还是符合实际的。简要介绍以下几点:

(1) 选取成果完成人的职称级别和所提交的成果类型与数量作为关联规则挖掘的维度,发现成果完成人职称较低的数量较多,存在关联规则;

(2) 选取固定时间内论文数量和专利数量进行关联规则挖掘,发现时间维度与论文数量多,关联较高;

(3) 对不同高校的成果数量进行关联分析,985与211高校的科研论文,期刊发表数量多具有关联规则。

4 界面展示

用户登陆界面:输入正确的用户名和密码登陆系统,用户可以选择“记住我”,在下次进入系统时可以免登陆,若是新用户第一次登陆系统,需要注册,完成注册后即获得登陆权限。

登陆后看到的首页,左侧导航栏显示了主要的功能,成果展示系统中的成果数量以及系统中的成果列表。

5 结 论

本文在调研了解科研成果管理的决策分析需求的基础上,认真研究了数据仓库的有关技术知识,联机分析处理技术的应用以及数据挖掘关联规则算法的原理。提出了基于数据仓库的科研成果管理决策支持系统。

开发系统应用的主要技术包括OLAP和Apriori算法,将OLAP和Apriori算法结合运用于实际的系统开发中,关联规则计算在OLAP物化了的多维数据集基础上进行,减少了重新计算的时间,使决策分析更加智能化,使数据挖掘的步骤更具目标化,全面提升辅助决策在科研成果管理中的实用价值。

参考文献

[1] 贺建英.大数据下MongoDB数据库档案文档存储去重研究[J].现代电子技术,2015,38(16):51?55.

[2] SUN Hongmei, JIA Ruisheng. Research on the analysis and design of general test database management system [J]. Procedia engineering, 2012, 29: 489?493.

[3] ESLAMIPOOR R, SEPEHRIAR A. Firm relocation as a potential solution for environment improvement using a SWOT?AHP hybrid method [J]. Process safety and environmental protection, 2014, 92(3): 269?276.

[4] KLAUS S R, NEUBAUER J, GOETZ?NEUNHOEFFER F. Hydration kinetics of CA2 and CA?investigations performed on a synthetic calcium aluminate cement [J]. Cement and concrete research, 2013, 43(1): 62?69.

[5] PENG G Y. Marketing decision and decision support system design based on Web [J]. Advanced materials research, 2013, 850: 1048?1051.

[6] 赵维宁.运用数据仓库技术构建电信企业经营分析系统[J].中文信息,2014(8):22?26.

数据挖掘技术分析论文范文6

南京大学的周志华教授曾专门撰文论述了数据挖掘和机器学习以及数据库之间的关系,他提出:数据挖掘可以视为机器学习和数据库的交叉,主要利用机器学习界提供的技术来分析海量数据,利用数据库界提供的技术来管理海量数据。

组成数据挖掘的三大支柱包括统计学、机器学习和数据库领域内的研究成果,其他还包含了可视化、信息科学等内容。不同的教材从不同的方面结合其基础学科知识讲述数据挖掘技术,不同专业和技术背景的学生或数据挖掘研究人员和应用人员可以根据自身的专业方向选择不同的数据挖掘切入点。下面简单归纳目前比较主流的数据挖掘和机器学习方面的教材。

数据挖掘:概念与技术

原书名:Data Mining:Concepts and techniques

作者:Jiawei Han

本书主要从数据库的角度(数据管理和数据计算的角度)讲解数据挖掘,作者Jiawei Han现任UIUC CS Dept.教授。本书第2版在丰富和全面的第1版基础上进行了更新和改进,并增添了新的重要课题,例如挖掘流数据、挖掘社会网络和挖掘空间、多媒体和其他复杂数据。本书对数据挖掘基本概念、算法及其相关技术有比较全面的阐述,是国内大多数高校指定教材,它不要求太高的数学基础,非常适合数学功底一般的学生使用。

数据挖掘:实用机器学习技术(原书第2版)

原书名:Data Mining: Practical Machine Learning Tools and Techniques

作者:Ian H. Witten, Eibe Frank

本书主要从机器学习的角度,也有称从数据挖掘的应用实现角度来讲解数据挖掘,描述了各种算法、模型及其Java实现,重点是以应用的观点利用案例来说明数据挖掘的算法模型,对于具体算法的原理介绍不是非常详细。它对数据挖掘的Java软件包Weka有比较深的介绍。该书作者都是Weka项目组主要成员。图灵奖获得者Jim Gray如此评价:假如你需要对数据进行分析和应用,本书以及相关的Weka工具包是一个绝佳的起步。

数据挖掘原理

原书名:Principles of Data Mining

作者:David J. Hand

很多学科都面临着一个普遍问题,即如何存储、访问异常庞大的数据集,并用模型来描述和理解它们。这些问题使得人们对数据挖掘技术的兴趣不断增强。长期以来,很多相互独立的不同学科分别致力于数据挖掘的各个方面。本书把信息科学、计算科学和统计学在数据挖掘方面的应用融合在一起,是第一本真正跨学科的教材。主要从统计学的角度来解析数据挖掘以及其与统计的关系。其中如建模、测量、评分函数、模型等术语都是从统计者的角度出发。书中并没有具体说明KDD与DM之间的关系,比较适于统计系和数学系的学生采用。

机器学习

原书名:Machine Learning

作者:Tom Mitchell

本书是CMU等许多国际知名大学机器学习课程的教材。目前发表的各种机器学习专著或论文基本都会引用这本书的内容。作者Tom Mitchell是CMU的教授,美国人工智能协会的主席,《机器学习》杂志和“国际机器学习”年度会议的创始人,他在ML领域久负盛名。本书也是最经典和采用率最高的机器学习教材。本书需要的数学基础也很少,但对必要的背景介绍相当丰富,非常适合初学者。

模式分类(原书第2版)

原书名:Pattern classification