前言:中文期刊网精心挑选了数据挖掘技术探讨论文范文供你参考和学习,希望我们的参考范文能激发你的文章创作灵感,欢迎阅读。
数据挖掘技术探讨论文范文1
讨论如何在图书馆个性化推荐中应用网络数据挖掘,并具体对社会网络分析的应用进行了深
入分析,提出了具体算法。
网络数据挖掘又称Web数据挖掘,是数据挖掘技术在网络信息处理中的应用,从与网络相关的资源和行为中抽取感兴趣的、有用的模式和隐含信息,是从Web网站的数据中发掘关系和规则。其挖掘对象是大量、异质、分布的Web文档,可以对数据库、Web服务器上的日志、读者信息等数据展开挖掘工作。同时,由于Web在逻辑上是一个由文档节点和超链接构成的图,因此Web挖掘所得到的模式可能是关于Web内容的,也可能是关于Web结构的,或者是关于用户行为模式的1。通过网络数据挖掘对每个用户的访问行为、频度、和内容等进行分析,能提取出每个用户的特征,给每个用户个性化的界面,提供个性化的Web信息服务。
本文以中国知网(CNKI)总库为统计源,以主题“We数据挖掘”、“网络数据挖掘”搜索到国内近六年的论文数量,从中可以看出相关领域的研究从2007年开始呈逐年上升趋势,2009年达到峰值后,逐年有所下降。具体数据如表2所示:
根据对这些文章内容的分析,研究网络数据挖掘算法及其实现的占大多数,国内关于网络数据挖掘在图书馆的应用研究不多,大多是作为电子商务中数据挖掘研究的一部分。网络数据挖掘在图书馆中的应用主要表现在以下几个方面:
(1)图书推荐系统。这类系统主要通过日志挖掘读者的借阅习惯,推测读者的阅读需求,从而为不同兴趣的读者提供相应的推荐内容。这种个性化推荐系统能够较好地把握读者需求,通过聚类和关联规则为读者推荐借阅过的相似图书或可能需要的其他文献。但它的缺点在于,推荐的相似图书,读者已经借阅过,再借阅的几率不大。因此,这个研究的重点和难点在使用的挖掘算法上2。
(2)网络学习平台。现代图书馆越来越重视读者的学习需求,从而推出各种学习服务3。这类应用主要是针对网络学习中的学习资源的挖掘。因为在图书馆提供的虚拟学习平台中,资源是庞大的,而读者的精力有限,同时每个人的兴趣不同,需要对不同的读者组织不同的教育资源。而网络数据挖掘在其中所起的重要作用就是对读者的借阅和浏览行为进行挖掘分析,根据分析结果为读者匹配学习资源。
(3)文献检索系统。网络数据挖掘技术也常见于文献检索系统的应用中,图书馆资源包含大量的文本、期刊、视频等。读者常常需要通过检索才能获取自己想要的信息,使用网络数据挖掘也是为读者提供高效获取信息的方式。
由以上分析看出,网络数据挖掘在图书馆中应用的主要目的就是为读者找到所需资源,满足读者的个性化需求。下面我们就针对网络数据挖掘在图书馆个性化推荐中的应用进行探讨。
1、 图书馆个性化推荐常用分析方法
1.1聚类算法
通常说来,许多图书馆的读者建模方法是基于统计的,即对所有读者的统计数据(比如基于平均值)进行分析。这样的后果是对读者的个性化行为视而不见,影响了读者专业性和个性化需求,忽略了隐含的读者信息的价值。而读者聚类建模,则是把一类读者聚集起来,分析他们的特性并对这类读者建模,在建模质量相同或接近的条件下,聚类建模所需的数据量将远远低于对单个读者建模的数据量,因为分类中的每个读者(知识背景和生活阅历贡献具有很大的相似度)都贡献了其数据。常用聚类算法如表3。
1.2 社会网络分析
社会网络分析已经有相当长的一段历史了,近60年来,相关研究人员做了大量的研究,由Brin和Page等人提出的PageRank算法,以及由Kleinberg说提出来的HITS算法开创了将社会网络研究应用在Web范畴的先河。这两种算法都来源于社会网络分析,都利用了网页的超链接结构并依据网页的“威望”或者“权威”级别来对网页进行分级排序。这在搜索引擎中得到了广泛的运用。图书馆也同样存在着这样的社会网络关系,这种关系主要通过读者浏览和获取文献行为体现。这种关系和活动可以用网络或图来表示,其中,每一个顶点(结点)用来表示一个读者,而一条边的连接用来表示两个读者之间的关系。利用网络图我们可以研究该网络的结构特征,以及每个读者威望性、中心性等属性。同时从中我们也可以找到各种类型的子图,即社区。
2、 基于网络数据挖掘的图书馆个性化推荐分析
2.1基于K-means聚类推荐分析
图书馆读者聚类可以通过两种方式进行聚类,建立二维推荐模型,即:查询聚类和借阅聚类。在此,只要实现查询信息和借阅信息的高效率、高准确率的自动分类,然后根据读者兴趣模型匹配,就可以完成其推荐过程。自动分类信息可以采用K-均值聚类算法实现,并根据图书馆相关信息结构的特点,对算法本身加以改进。具体流程如图1。
2.2 基于PageRank社会网络分析
在图书馆借阅场景下,读者浏览和借阅行为反应了读者的需求。PageRank算法关键在于测度每个对象的随机访问概率。我们假定读者借阅史就是读者推荐书目单,反应了读者对于图书的认可程度。在此,我们可以把访问概率转化为读者推荐书目单的紧密程度,因此,问题转化为求读者推荐书目单的紧密程度,然后通过PageRank算法,求出读者推荐书目单的权威度排名,进而推荐给兴趣模型相似的读者。
我们用dist(j, t)表示两个读者推荐书目单关系程度,使用其文本相似度 来度量,进而产生新的PageRank2算法。对于每个读者推荐书目单,其重要度PR2(i)可定义为:
其中DIS(j,i)定义为:
在实际应用中,由于某些读者推荐书目单可能与其他读者推荐书目单 值为0,故将公式2调整为:
其中a为衰减系数,设定为0和1之间,其本质是为了消除孤立读者,给每个读者增加一条指向所有其它读者的链接,并且给予每个链接一个由参数a控制的转移概率,在这里我们沿用PageRank中的取值a=0.8570。
3、 结语
本文主要探讨了网络数据挖掘在图书馆中的应用问题,并对于社会网络分析的应用进行了较为深入的分析,提出了具体算法。网络数据挖掘广泛应用于互联网。随着数字图书馆的不断兴起,其在图书馆领域的应用将更加广泛4。但是,图书馆相对封闭的信息环境制约着网络数据挖掘的应用。相信随着Web2.0和读者个性化需求不断得到重视5,数字图书馆技术的不断发展,网络数据挖掘将会发挥更加重要的作用。
参考文献
[1] 马费成,王晓光.信息资源管理研究及国际前沿[J].情报学研究进展.武汉大学出版社,2007.
[2] 刘晓忠.数据挖掘技术在图书馆建设中的应用[J].硅谷,2012(6).
[3]夏南强,张红梅.基于数据挖掘的数字图书馆个性化服务[J].图书馆学研究, 2006, (1):32-34.
数据挖掘技术探讨论文范文2
关键词:实验平台;教学管理;数据仓库;数据挖掘
中图分类号:G642 文献标志码:B 文章编号:1674-9324(2013)09-0253-03
一、引言
21世纪是国家全面推进学生素质培养的时期,计算机专业课既具有较强的理论性,又具有较深的实践性。目前,计算机专业的教学过程中往往理论教育与实际脱节,很多学生通过了专业理论课的考试,却不能将理论付诸于实践,学生对课程知识并没有深刻的理解和消化,对课程理论的实际应用没有感观上的体验。经调查显示,60%以上的学生认为在校期间的计算机理论课的学习对就业和实际工作帮助不大,这给学生学习计算机理论的积极性带来了消极的影响,更有很多学生热衷于参加社会上的计算机培训机构,放弃在高校的课程学习。因此,在培养学生的理论创新能力的同时,提高学生的动手操作能力,加强学生理论联系实际的能力是计算机教学十分紧迫和必要的任务。
随着信息技术和网络技术的快速发展,在短短几年内数据仓库和数据挖掘就已经成为IT信息领域广泛应用和热点研究的领域。该领域主要是研究如何从浩如烟海的海量数据中有效地提取并挖掘知识,对其进行自动分析和汇总,是计算机行业中最热门、最有前景的领域之一[1]。数据仓库与数据挖掘课程也顺应计算机发展的需要,进入到高校计算机教育的专业课课程列表中。
本论文在深入研究了数据仓库和数据挖掘课程的内容和特点的基础上,采用B/S(Browser/Server)架构,即浏览器/服务器架构,开发了web课程教学实验平台。
二、数据仓库与数据挖掘学科教学现状
随着数据仓库与数据挖掘课程在各大高校成功试教后,近年来各大高校都为计算机专业都设立了数据仓库和数据挖掘课程,时至今日,其课堂理论教学已经比较成熟。然而,绝大多数学生在经过该课程的学习后,普遍反映虽然基本了解了数据仓库和数据挖掘相关理论知识,却缺乏感性认识和实践应用能力。这主要是因为该课程的实验教学较难开展,缺乏一个符合以下特点的教学实验平台。
市场中通用数据仓库和数据挖掘软件昂贵且难以使用,大量的专业术语、专业业务理论、数学知识和挖掘模型让人无从下手。因此我们需要的仅仅是一个实验平台,并非大型企业应用软件,只要学生能通过它更简易地完成该课程的实验环节即可。
1.可视化、易操作。可视化和易操作可以提高学生的学习兴趣,让学生更直观的参与到教学活动中来,而不是苦恼于如何使用该平成实验。
2.交互性。一个好的教学平台不仅是一个可以提供给学生传授知识的平台,还应该是一个可以和学生及老师有交互性的平台,并且使学生和学生有交互性,老师和学生有交互性[2]。
3.教学与实验相结合。我们需要不仅仅是一个数据仓库与数据挖掘实验软件,而是综合课程教学和课程实验的平台。教学与实验相结合、理论与实践并重,这才是计算机专业教育的核心。
4.拥有合理和充足的实验数据。对于一个实验平台来说,数据的缺乏将使得实验无法进行。尤其是对于数据仓库与数据挖掘这个特殊的领域,数据不仅要足够的多而且要合理,否则会严重影响实验结果和教学效果。
三、数据仓库与数据挖掘学科教学实验平台的构建
为适应教育发展需要,秉承深化教学改革的方针,改革数据仓库和数据挖掘课程原有的普通教学模式,启动了“数据挖掘课程设计平台建设”教学改革项目。该平台依托我校电信学院985平台的优良硬件环境,由远程开放实验平台服务器和终端PC机组成,其成本低廉、维护方便、部署容易。该实验平台服务器直接部署于本校的学院985实验基地,具有操作稳定性、鲁棒性和容错性。通过该实验教学平台,学生对该课程的学习过程将不受场地限制,只要通过网络就可以登录该平台。该平台主要框架如图1所示。
1.用户管理模块实现了对不同用户的权限设置、登录和注册等功能,超级管理员可以为普通学生用户分配权限。
2.实验平台模块给学生提供了算法模拟和试验的平台,主要分为以下两个部分。
(1)数据仓库的维度建模设计模块。雪花模型设计案例;星型模型设计案例;ETL抽取操作平台。
(2)数据挖掘算法实验模块。数据预处理程序实现算法平台;Apriori算法实验平台;ID3算法实验平台;BP算法实验平台;K-Mean和K-Medoid算法实验平台;C4.5算法和决策树算法实验平台;KNN算法实验平台;贝叶斯算法实验平台。
维度建模设计平台和数据挖掘算法实验平台模块是该平台的核心模块。
3.实验课程模块主要向学生介绍该实验课程的相关内容、教学大纲和教学任务,也包含数据仓库环境的具体安装和配置视频演示。
4.作业提交模块更是改变了传统的提交纸质作业的模式,让学生将动手完成的实验和相关作业通过该平台提交,一个学生一个账户,避免了作业抄袭和拷贝。学生提交的作业只要运行正确,按题目要求编程,不论采用何种语言或者何种算法都是可以的,并没有唯一性的标准答案。当实验课程考核的时候,学生能够通过作业提交系统向服务器提交指定课程内容的作业,供教师在线评阅和打分。
5.教学资源下载提供给学生自学的资料,给感兴趣的学生提供了进一步学习的捷径。
6.当有学生对实验环节和该课程有任何疑问,都可以登录在线答疑系统,给授课老师留言,这些信息都会以邮件的形式发送到授课老师的收件箱,从而实现即时的答复,让学生在第一时间接受老师的指导。当有问题重复出现三次以上,系统就会自动识别,将问题和答复展示在FAQ中,提供给更多的学生共享该问题和该问题的解答,避免重复提问,也给还未遇到该问题的学生共享和学习。在线答疑给学生和教师提供了交互、交流和学习的平台。
7.数据挖掘实验平台的在线代码编译环境主要采用gcc编译器,能够对学生提交的各种代码进行实时编译,给用户的感觉就像是在本地执行一样。它能够支持的在线运行编程语言包括java、C和C++等,给学生提供多样化的语言实现方式,体现了非机械化的计算机应试理念。
四、数据仓库与数据挖掘学科教学实验平台的教学效果
在数据仓库和数据挖掘课程中使用该教学实验平台,具有教育的先进性和优越性。
(一)建设了数据仓库和数据挖掘课程的实验教学体系
1.数据仓库和数据挖掘模型。本平台可以培养学生自己动手创建多维星型模型、多维雪花模型、缓慢变化维、ETL模型、数据立方体模型及其实例等,还可以增加学生对各类重要挖掘算法的特点和应用场景的理解,让学生在实验平台上体验基于数据仓库的主要数据挖掘算法。
2.模型评估。当学生创建完毕自己的数据仓库和数据挖掘模型后,可以通过调整不同的参数值和更改数据集来检验算法的输出结果,并通过记录在不同的应用场景下的参数值和结果值得到最优值。
3.优化创建模型和算法的性能。学生通过使用计算机领域中的一些经典优化技术,如创建位图索引、哈希索引、S-tree索引等来优化模型和算法的性能,并记录和比较不同优化技术对模型和算法的效率和响应时间的影响。
4.定期对学生所学实验内容进行测试,根据学生的实验测试结果对平台的远程实验操作功能进行改进和完善。
(二)部署和实施了基于网络的数据仓库和数据挖掘课程远程实验教学环境
本项目通过构建基于网络技术的远程实验教学平台,不仅给学生和教师提供这样一个教学实验平台,而且还实现了实验教学的网上开放式管理,改革原有相对封闭的实验教学模式为开放的实验教学模式,构建了一个符合实践教学环节需求、虚拟和真实环境相结合、基于Web的多应用场景的远程开放实验平台。
(三)基于采样评估证明了远程网络实验教学的可行性和优越性
根据采样评估结果,该系统体现了远程网络实验的可行性和优越性。在该平台真正投入使用之前,我们将一批学生分为两个组进行数据仓库和数据挖掘课程的学习,A组学生使用现有的课程教学方法,而B组学生使用该平台的远程实验教学环境。具体教学内容为多维数据模型和数据立方体的概念以及k-means聚类和Apriori关联分析算法。两组学生通过不同的教学方式学习后,对他们进行了问卷调查和统计,结果如图2所示。
从图2的数据结果可以看到,无论是从学生兴趣程度、作业完成度还是考试成绩的角度对两组学生的学习效果进行评估,使用该数据仓库与数据挖掘课程教学实验平台的教学方式都具有明显的优势。在实验过程中学生是主体,用所学知识发挥创造性思维进行实践。当实验取得结果时,不论结果成功与否,都能带给学生一定的鼓励,从而在某种程度上激发学生的创造力和积极性,真正加速问题解决和理论创新。因此,我们有理由相信该平台的使用可以极大地提高学生的学习兴趣,促进教学目标的实现。
五、结论
在计算机专业的教学中,如何提高学生的实践能力和独立解决问题的能力是当前高等教育发展的新形势下所面临的主要问题。本文首先介绍了基于数据仓库和数据挖掘课程的实验平台的整体架构,展示了该平台的优点,证明了该平台可以将课堂学习和课后练习、理论教育与工程实践有机结合,为实施更加行之有效的教学组织和教学管理模式提供了可能。只有教育者和学生充分认识到计算机课程中实验环节的重要性,更有效地利用现有的社会资源和计算机技术为我们的教育服务,专业学科教学模式和方法才能不断推陈出新,不断进步和发展。
参考文献:
[1]Jiawei Han,Micheline Kamber.Data Mining Concept and Technology[M].Beijing:China Machine Press,2007:10-12
[2]李旭晴.学科教学网站设计的应用探讨[J].计算机教育,2009,(02):1-2.
数据挖掘技术探讨论文范文3
在江苏省政府2003年度公派留学计划“访问学者”项目资助下,我于2006年3月~2007年2月对美国德雷克塞尔大学(Drexel University)进行了访问研究。在美期间,我观摩了信息科学与技术学院信息处理专业、软件工程以及工程学院计算机科学与技术系计算机科学专业的软件工程、数据结构、数据库及数据库管理系统、高级人工智能、数据挖掘、数字图书等的教学,接触了导师所申请到的美国国家自然科学基金课题和宾夕法尼亚(PA)州的研究基金课题(NSF Career Grant IIS 0448023;NSF CCF 0514679;Dept of Health Tobacco Settlement Formula Grant, PA, No.240205 and No.240196; Dept of Health Grant, PA, No.239667),参与了博士生的研究指导活动和每周的专题学术研讨会,并撰写了7篇研究论文(后来陆续在国际学报Kybernetes、国际学术会议上公开发表),取得了圆满的访问成果。
采用计算机科学技术、现代信息技术和新的数学理论和工具处理复杂的信息,从各类文本、数据、表格、图像、视频等浩瀚的数据海洋中挖掘规律,发现有用的潜在知识,指导人们进行科学分类、预测、决策,是多年来美国及国际计算机、信息科学和数学家一直在探索的研究领域。知识获取、知识表示和智能化的人机交互,甚至实现计算机可视化信息处理,建立新颖的知识库,从而获得领域信息和知识分析结果,将有助于商业活动、生物信息处理、蛋白质结构分析、科技研究动态分析,有助于科学家在复杂的科研信息中开辟新的未知领域,提供快速独立科学判断的客观依据,探讨和预测学科知识的发展前沿,准确把握学科研究方向,从事科学创新和研究。
多年来,我一直在智能信息处理这一研究领域进行探索。这次联系到美国德雷克塞尔大学信息科学技术学院Tony• H教授,在他的指导下进行数据挖掘、生物信息挖掘以及Rough Set Theory等方向的研究。
Tony•H教授现担任国际学报《Data Mining and Bioinformatics》和《Granular Computing》等的主编和国际粒计算会议的程序委员会主席,他所研究的Rough Set Theory、Data mining、Bioinformatics和Data Management Systems等内容,是近年来在世界智能信息分析中最具特色和影响力的研究领域。从2000年至今,他在这一研究领域中发表的研究论文达60多篇,出版的研究专著为3部。在为期一年的时间里,我与Tony•H进行了很好的合作研究,采用新的研究方法,对前沿领域进行了有益的探索研究,并接受了Tony•H等教授们的研究思想、研究方法、教学思想和教学方法的熏陶,对相关课程的教学方法、教学手段、教学组织方式进行了深入的交流和探讨。此外,我还以志愿者的身份参加了在美国举办的两个大型的全球性国际会议:美国工业数学联合会举办的2006年国际知识发现与数据挖掘会议(Knowledge Discovery and Data Mining- KDD, by SIAM, Maryland April,2006);国际知识发现和数据挖掘会议(International Knowledge Discovery and Data Mining (KDD), Philadelphia August, 2006)。
这次访问研究使我开阔了眼界,接触到很多当今信息科学研究领域中最先进的思想和方法。对Rough Set Theory、Data mining、Bioinformatics等前沿性探索和预测的科学研究也有了更深入的认识。同时,能够有机会和这一研究领域的世界知名专家和教授进行面对面的学术交流与探讨,参加各种类型的学术研讨会,我觉得受益匪浅。我所感受的学术氛围、学到的教学思想和教学方法是一笔宝贵的精神财富,我会将他们直接应用到自己的教学和科研中。下面就我在访美期间印象深刻的几件事谈谈体会,以期对我们的工作有所启示。
2优秀的学习环境
2.1优美的校园环境
我所访问的德雷克塞尔大学地处美国费城的市中心西部,紧邻世界著名的宾法尼亚大学(世界上第一台电子计算机ENIAC在这里诞生,现在这里还保留有部分元件的展览)。虽然离市中心较近,校园也没有围墙与外界明显隔开,由跨南北东西几条街和大道的建筑组成,但校区及周边环境寂静优雅。校园中央有一座代表性的龙雕塑,路边插的许多旗杆上挂着印有龙的图案和Dragon字样的杏黄校旗,几只松鼠在校园内的树上自由地跳跃活动,小道边或树下都设有长凳,供教职工或学生休息、讨论。
教学楼、实验楼、办公楼、图书馆、体育馆内中央空调处于恒温状态,非常适合工作学习。每栋楼的大厅或较宽的走道边的墙壁上都贴有各种名言及名画,营造着好的学习环境,渲染着极其重要的文化氛围。大厅内布置有椅子和圆桌,在上课、实验或面谈之前,教师或学生可在此休息等待,这一点的确做到了以人为本,给我留下了十分深刻的印象。
体育馆内各种体育设施齐全,如健身、跑步、球类等,全年对学生免费开放。游泳也只需支付少量的费用(3个月只需25美元),全天多时段使用。
9月迎接新生、校际间的篮球比赛等活动举办得井井有条,充满生机。
2.2完备的信息化建设
首先,信息化建设表现在数字资源的建设上。图书馆大厅内设有很多计算机,学生可在此上网浏览,查阅资料。书架周边靠墙处设有自习的桌椅,供有网络插口,学生可链接自己的笔记本电脑。图书馆资料丰富,如果在本馆找不到相关资料,也可请图书管理员在馆际间查找,将返回的电子文档通过邮件发送到学生校园网内的电子邮箱中,十分方便。
校园无线网覆盖了整个校园,教室周围也预设了网线插口,在教室内上课或自习的学生均可免费无线或有线上网。在校的本、硕、博学生都有自己的校内学号,凭该学号可直接在自己的实验室登陆校园网的电子图书馆,查到仅在校园网上提供的论文资料。学生还可从校园网中心服务器上下载以学校或机构名义购买的正版软件,这一点国内很多高校还没能做到。
其次,信息化建设也体现在师生信息素养的建设上。无论在信息意识、信息知识、信息能力,还是在信息道德上,师生们都显现出十分成熟的高水平。良好的信息化数字资源建设为师生的教学科研提供了良好的保障,师生们利用简单的搜索机制或便捷的馆际服务就可查到需要的资源。虽然本校师生可从校园网上下载正版软件,但每个人都遵守不宜外拷的基本原则,这也体现了良好的信息素养。
3教师教学与学生学习
3.1教师教学情况
美国高校一般一年分为4个学期,每个学期大约3个月。按照校方的要求,每个教师至少3个学期要有教学任务,而且必须在每个学期完成平均3门课程的教学,个别教师甚至在一个学期要承担4门课程的教学任务。一门课的教学约32学时,这样,每个教师每学期(一学期不到3个月)约完成72~96学时的教学工作量。除非有科研课题,可以用科研任务充抵教学工作量,否则,教学任务就是相当饱满的。除了承担教学工作外,每个教师还要承担科研、指导硕士及博士生进行研究的工作。年轻教师除了要完成教学任务,还要进一步深造,提高自己的学位和水平。教师的教学情况由学生来评价,学生填写调查表格,收齐后交由学院教学秘书统计,最后由学院将统计结果通报给教师本人,类似国内高校的学生评教。所以教师同样很有压力,他们对教学一丝不苟、敬业,并非普通人所想象的美国教师工资高、工作轻松。
在课下,教师必须将所授课程的内容介绍、大纲、演示文档资料、习题等组织好,全部挂在校园网的个人主页上,以便学生随时浏览。备课、批改作业、设计实验题目等各个环节,教师都要十分认真地对待,每周有一次约定学生到办公室进行问题讨论或答疑,保证教学任务圆满完成。教师对实验项目的设计循循善诱,既不是全盘托出,也不是仅给一个题目,让学生冥思苦想地琢磨。除了将学生建立成团队,教师还布置与课程相关的大量文献和资料阅读,并要求学生写出读书报告。对于课程结束或评定成绩用的大作业,甚至要求每个学生制作成演示文稿,并加以汇报、讨论。我看到一位叫爱德华(中译名)的老师,他承担了数据库、软件工程等多门课程的教学任务,每天都在办公室工作到很晚,有时甚至在教学楼大厅的休闲式自习间伏案研究。
在课上,每门课程开始的第一节课,教师就将学生分组,形成一个一个团队。在布置学习和研讨课题后,教师要求学生先独立思考,不明白的东西可在团队内讨论,有问题还可及时问老师。也就是说,每门课都在培养学生的团队协作精神。教师在课堂上的演示文稿经过精心准备,图文并茂,层次分明,令人赏心悦目,但他们也不完全拘泥于演示稿,也在黑(或白)板上演绎关键的内容,突出重点,使学生感到他们备课充分,对教学内容十分精通。
3.2学生学习情况
在美国读书的学生,普遍感到课外阅读任务较重。学生不光要学好课内的基本教学内容,还要阅读文献,查找与主题相关的资料,并加以整理、归纳、汇总。这培养了学生自主学习的意识,清除他们完全靠老师课堂讲授的依赖心理。
课堂上,学生们会踊跃发言,认真记笔记,回答老师的提问,在老师的引导下完成课堂练习。下课后,学生到图书馆查阅资料或自习,也会在网上下载老师在主页上布置的作业,按时完成后及时提交给老师批改。如在课程结束时,教师会给学生布置大作业,学生要在一定时间内当面交给老师,并接受面试提问,作为考查依据的一部分。在接到作业任务后,学生要认真对待,完成后连带其他作业一起交给老师。老师根据学生的总体完成情况给出五级分制的成绩。
我曾遇到一位硕士生,她就接到这样一个大作业。老师给的任务是一个较大的程序,要求她调试运行通过。经过一周的调试,程序始终没能运行成功。在快要到期时,她正好碰到我,听说我是从事这方面教学工作的,就向我请教。我很想了解美国教师采用什么样的教学方法,出什么样的题目让学生做,于是答应帮他。我仔细阅读分析和反复测试网上下载的源代码,终于找出了问题所在。原来老师在程序中故意预设了两个问题,这是学生在学习此类程序设计语言时容易忽略或犯错的问题,程序在编译中并不报错,但就是运行结果不正确,得不到期望的结果,学生找不到出错的地方,感到很困惑。经过修改,程序很快调试运行通过,进一步优化和调整后,她交给了老师。老师看了她的程序运行结果,并问了她的体会,得到非常满意的回答后,表示十分高兴。
其实,这就是教师在主导学生去主动学习,自己找资料,自己研究问题,形象地讲,就是“逼”学生好好学习。这样可以解决学生遇到较难问题时无从下手的迷惑,循循善诱他们找到解决问题的方法,避免了“越俎代庖”。
4 硕士生和博士生的培养过程
在硕、博研究生的指导过程中,如何对学生加以良好的指导,始终是困扰国内外导师们的问题,至今仍无绝对规范。
从导师与学生一见面,指导工作就已开始。导师一般提供很多必要的帮助,如帮助开设相互联系的校园邮箱,确定联系方式和时间,根据学生的知识结构制定研究方向等。作为一项基本约定,指导教师每周要有一个下午与学生见面,由学生汇报学习和研究情况,导师当面给出指导意见。导师有时还会帮助学生查找并提供最相关的研究论文或资料,必要时将研究论文的电子稿发送给学生,甚至将论文复印件放在学生的信箱中――这绝对有别于国内有的指导老师因兼职过多或担任其他职务,指导缺乏或持久不到位现象。这种指导方式加强了导师与学生的交流,也便于将学生引导到相关研究领域的最前沿,而导师也始终站在研究的最高点。而通过不断的交流和指导,学生能很快系统地了解相关领域的研究进展,较早找到问题的抓手,有兴趣地开展有意义的研究,往往容易产生创新型成果,包括理论和应用性实验成果等,并能。
当学生或导师认识到某个研究点的价值所在时,就会着力加以深入研究。如导师要求学生认真阅读研究后再来参加讨论,甚至有时要求学生将讨论内容制成演示文档讲解,这样他们对重要的概念和研究结果的掌握就会更加透彻,文献跟踪程度和研究思路水平就会得到提升。这种有意识的训练大大强于“散放式”的指导方式。
5良好的学术氛围
学科建设和课程教学离不开学术研究。在德雷克塞尔大学,给人留下深刻印象的就是每个教授(正教授、副教授和助理教授)都将自己的研究方向和最新论文或成果以一幅画的形式贴在工作室的外墙上,上面有个人简介、主要方法和结果说明。这样就打出了自己的招牌,便于他人了解自己。此外,每个教授甚至普通教师都在校园网上建有自己的主页,对自己的教学科研工作进行介绍,并将研究论文、著作等目录列在其中,便于与他人交流或沟通。教师也经常根据教学内容联系国际国内的专家做学术报告,始终用新知识武装学生的头脑。
重视营造活跃的学术氛围,并使学术交流制度化、经常化,是我在美做访问学者期间感受最深的一点。每个系或学院基本上每周都举办1~2次学术研讨会,主讲者有来自世界各地的专家教授,也有某个研究领域资深的校内教师。每次学术研讨会的时间大都定在中午12:30,12:00就开始提供免费的午餐。这样既充分利用了时间,又解决了听报告者的午饭问题,也通过免费午餐吸引了不少听众,特别是一些来自第三世界国家的“穷”留学生们。通过网上邀请,大多数感兴趣的学生甚至老师都会来参加研讨会,在这里了解一些最新的研究进展和报告人的研究思路,并能与主讲人交流自己的研究体会,视野随之开阔,思想也随之富有。有时,一些大的跨国公司或政府部门(如安全部门)的技术专家也被邀请来做专题报告,这样学术交流的氛围就比较活跃,研究工作也不会是一潭死水。
6结语
在美国德雷克塞尔大学访问进修一年,我目睹了该大学在环境建设、教学科研等方面的好的做法,开阔了视野。回国后,我给我的学生们讲解我的所见所闻,也给他们留下了深刻印象。这次进修不仅使我在业务上得到进一步修炼,也获得了不少“精神财富”,如下所示:
(1) 抓实抓好教学工作的每个环节,是高校教师的永恒主题。任何一个环节,如教学方法、教学手段、实验项目设计、主导学生学习、提出学习要求、组织讨论答疑、批改作业等方面的提高,都会大大提高教学质量和教学效率,取得事半功倍的效果。
(2) 指导学生方向和过程并重,确保处于研究前沿。指导学生,特别是硕、博士生的导师,不仅在一开始就要帮助学生确定研究方向,而且要定期开展学习检查和交流活动,必要时还要为学生提供前沿性的研究论文或资料,以便将他们早日引导到国际国内的前沿阵地,保持在高新水平上从事研究工作,取得创新性的研究成果。
(3) 创造活跃的学术氛围和良好的学习环境,是高校各级领导及教师的基本责任。只有将教师和学生置于始终向前的滚滚波涛中,教学和研究才会具有不可估量的创造力,才会在科学的道路上获得可持续发展。
参考文献:
数据挖掘技术探讨论文范文4
关键词:人工智能;理论传授;实验训练;科研训练
人工智能(Artificial Intelligence,AI)是计算机科学与技术专业的一门重要专业课程,是一门研究运用计算机模拟和延伸人脑功能的综合性学科。它研究如何用计算机模仿人脑所从事的推理、证明、识别、理解、设计、学习、思考、规划以及问题求解等思维活动,并以此解决需要人类专家才能处理的复杂问题,例如咨询、诊断、预测、规划等决策性问题[1]。人工智能是一门涉及数学、计算机、控制论、信息学、心理学、哲学等学科的交叉和综合学科。目前,人工智能很多研究领域,如自然语言处理、模式识别、机器学习、数据挖掘、智能检索、机器人技术、智能计算等都走在了信息技术的前沿,有许多研究成果已经进入并影响了人们的生活。
2003年12月5日,国内第一个“智能科学与技术”本科专业在北京大学诞生[2],它标志着我国智能科学与技术本科教育的开始,对我国智能科学技术人才培养和智能科学与技术学科建设起到极大的带动作用。目前,人工智能课程的教学存在几个问题:首先,注重讲授理论知识,实验环节滞后,这不利于培养学生的实践能力,更谈不上实践创新。其次,人工智能是交叉学科,内容比较繁杂,各种教材的内容不一样,授课没有统一的体系,学生学习时抓不住重点,不能理解人工智能的根本方法和思想。一般说来,计算机专业的其他课程,如网络技术、数据库技术、算法分析与设计等,都是求解结构化问题的基本技术,而人工智能技术则是解决非结构化、半结构化问题的有效技术。最后,人工智能科学与技术飞速发展,但目前人工智能只被视为一门专业课,课程讲授和人工智能没有作为一个研究方向结合起来,也没有把传授课本知识和引导启发创新结合起来。
适应知识经济发展的高等教育,要把培养创造精神和创新能力摆在突出的位置。创新是基础研究的生命,而高等学校的教学只有与科研紧密结合,才能在培养学生的创新精神方面有所作为。为此,针对人工智能的课程特点,我们积极开展研究型教学、研究型学习,提高大学生的学习能力、实践能力和创新能力的研究与实践。在教材上,我们选用了清华大学出版社出版、马少平等编写的《人工智能》。我们的教学研究与实践的主要内容包括三个方面:启发式传授人工智能解决问题的非结构化的思想;成体系的实验训练;以及与毕业论文,学校大学生科研项目资助计划,国家大学生创新性实验计划相对接的科研训练。这三个主要方面,层层递进、环环相扣,是体系完整的创新型人工智能教学实践。下面,我们就这三个方面内容展开探讨。
1启发式传授人工智能解决问题的非结构化思想
现实世界的问题可以按照结构化程度划分成三个层次[1]:1)结构化问题,能用形式化(或称公式化)方法描述和求解的一类问题;2)非结构化问题,难以用确定的形式来描述,主要根据经验来求解;3)半结构化问题,介于上述两者之间。一般说来,计算机专业的其他课程如网络技术、数据库技术、算法分析与设计等,都是求解结构化问题的基本技术。而人工智能技术则是解决非结构化、半结构化问题的有效技术。人工智能的教学可以让学生在体验、认识人工智能知识与技术的过程中获得对非结构化、半结构化问题的解决过程的了解,从而达到培养学生多角度思维的目的。
我们使用的教材主要内容包括搜索和高级搜素、谓词逻辑和归结原理、知识表示、不确定性推理方法、机器学习等。这些主要内容也可以相应地归结为若干个典型算法,如启发式A*搜索算法、 剪枝算法、元启发式算法(模拟退火,遗传算法)、谓词逻辑归结算法、贝叶斯网络、决策树、神经网络(BP算法、自组织网络和Hopfield神经网络算法)。元启发式算法是一种启发式的随机算法,是用来解决非结构化问题的典型算法,其思想和传统的决定性算法如动态规划、分支限界完全不一样。学生在刚一接触到这些元启发式算法一时难以接受和理解其机理,对算法的有效性往往半信半疑。根据非结构化、半结构化问题的特点,讲解和演示算法在解决此类问题的具体步骤和详细过程,从而让学生掌握人工智能算法的基本思想。在讲解不同的元启发式算法的时候,学生会问,是模拟退火算法强,还是遗传算法强;在讲到机器学习算法的时候,学生会问到底哪个分类算法最好,这时候我们可以把搜索(优化)领域和机器学习领域的“没有免费午餐”定理进行适当的讲解和解释,从而把具体算法实现层面之上的一些人工智能的哲学思想进行传授。
在人工智能的具体教学中,采用问题教学法和参与式教学法。在问题教学法中,围绕人工智能的知识模块,在引导学生发现各种各样问题的前提下,传授知识。教学活动中,尝试使人工智能知识围绕实际问题而展现,使问题不仅成为激发学生求知欲的前提,也成为学生期盼、理解和吸收知识的前提,以此激发学生的创造动机和创造性思维。在参与式教学中,打破人工智能算法的枯燥、沉闷的传统教学法,尝试开放式教学内容;提问式讲课;无标准答案的课程设计;查找文献,分组动手实现人工智能算法等参与式教学方法,培养和发扬学生的参与意识,通过参与式教学提高学生学习的主动性、积极性和效率,培养学生的动手能力和创新能力。
2成体系的实验训练
独立开展人工智能实验课程,开发一批新型、富有创意的实验案例库,搭建一个创新实验和虚拟学习社区平台。人工智能实验课程的特点是应用各种人工智能方法,根据问题的约束、结构、信息进行表示建模和计算机上实现,是与人工智能原理同步的实验课程。学生必须掌握的人工智能的基本原理和计算机操作技能,它对于学生的知识、能力和综合素质的培养与提高起着至关重要的作用,在整个教学过程中占有非常重要的地位,是计算机软件、计算机应用、计算机网络、软件工程等专业的一门重要的必修专业课程。通过实验,学生得到严格的训练,能规范地掌握人工智能的基本理论和主要方法、基本问题求解技术,熟悉各种计算环境的基本使用。
在培养学生掌握实验的基本操作、基本技能和基本知识的同时,努力培养学生的创新意识与创新能力。为实现这一目标,在课程内容安排上采用适量基本原理与方法的实验内容为基本内容,增加一系列综合性实验和开放性创新实验问题,在实验内容方面更注重研究性实验中的创新问题。实验内容方面分为三个层次:基本原理的基础性实验、综合实验和研究性实验。在后两个层次的实验中,部分引入人工智能课程小组团队的最新科研成果,目的在于通过完成这些研究性实验,培养学生独立解决实际问题的能力,以提升学生的科研素质与创新意识。我们将这些设计实验称为新型实验案例库,它被放在人工智能课程小组网站上,以此搭建一个创新实验和虚拟学习社区平台。通过实验课程的学习和训练,学生应达到下列要求。
1) 掌握人工智能方法的优点及其在实际中的应用。
2) 学会对人工智能问题进行分析建模和应用各种计算工具实现问题求解,熟悉对实验现象的观察和记录,实验数据的获取与设计,最佳实验条件的判断和选择,实验结果的分析和讨论等一套严谨的实验方法。
3) 巩固并加深对人工智能原理课程的基本原理和概念的理解,培养学生勤奋学习,求真求实的科学品德,培养学生的动手能力、观察能力、查阅文献能力、思维能力、想象能力、表达能力。
4) 通过完成综合研究性实验,培养学生独立解决实际问题的能力,提高学生的科研素质与创新意识。
在培养学生掌握实验的基本操作、基本技能和基本知识的同时,进一步培养学生分析问题和解决问题的能力,培养学生的创新意识、创新精神和创新能力,为学生今后从事科研、教学或企事业单位的分析检验以及新技术的研发工作打下扎实的基础。
在实验组织方面,根据各实验的目的和要求,学生分为5人1组,指定一个组长,每组选择1套实验题目。基础实验题目要求达到27学时、综合性实验题目选择1题和研究性实验题目选择1题,基础实验题目要求在规定时间内,小组独立完成实验测定、数据处理,并撰写实验报告。实验过程中, 要求学生勤于动手, 敏锐观察, 细心操作, 开动脑筋, 分析钻研问题, 准确记录原始数据, 经教师检查,实验及其原始数据记录才有效。同时,团队作业,需要多人分工合作、相互帮助,这样可以提高人际交往和沟通能力,学会与他人合作,培养团队创新能力。
3课程学习与毕业论文,科研训练相结合
人工智能技术在一定程度上代表着信息技术的前沿和未来,通过学习和体验人工智能的知识和技术,学生能够在一定程度上了解信息技术发展的前沿知识,这有助学生开阔视野、培养兴趣,为今后继续深造或走向社会奠定坚实的基础[3-4]。
人工智能的理论和方法广泛应用于数据挖掘、机器学习、模式识别、图像处理中,这些内容既是高年级的后续课程,又是现在热门的研究方向。学习和深刻理解人工智能的理论、方法和应用,对后续课程学习以及今后的研究具有重要的意义。
我院规定大学三年级的学生开始联系毕业论文指导导师,同时确定毕业论文的研究方向,提前进行科研实践,以培养实践能力和研究素质。人工智能课程正好是大三高年级开设的专业课,因此,我们把课程实验及设计与同学的兴趣相结合,引导学生,并提炼和形成学生的毕业选题和课外的科研方向,它是提高本科生研究创新能力的有效手段。
基于新的教学实践,很多学生的选题都与上述归纳的人工智能若干算法相关,如算法本身的研究和改进,或是算法在各领域,如数据挖掘、图像处理等的应用。在我们的科研能力训练计划中,一批项目和课题,如混合神经网络的研究与应用、差分演化算法研究与应用、基于协同训练的推荐系统等,分别受到国家和学校本科生科研项目立项资助。一批三四年级的本科生以第一作者身份在国内核心期刊、国际会议和期刊上发表学术论文,这激发了学生的科研兴趣,使学生体会到了创新的乐趣。
总之,课程学习与毕业论文、学校大学生科研项目资助计划、国家大学生创新性实验计划相对接的科研训练,极大地提升了学生的创新能力和科研基本素质。
4结语
针对人工智能的课程特点,我们积极开展研究型教学、研究型学习,提高大学生的学习能力、实践能力和创新能力的研究与实践。我们的教学研究与实践主要内容包括三个方面:启发式传授人工智能解决问题的非结构化的思想;成体系的实验训练;以及与毕业论文、学校大学生科研项目资助计划、国家大学生创新性实验计划相对接的科研训练。这三个主要方面,层层递进、环环相扣,是体系完整的创新型人工智能教学实践,新的改革和实践在教学中取得了令人满意效果。
参考文献:
[1] 张剑平. 关于人工智能教育的思考[J]. 电化教育研究,2003(1):24-28.
[2] 谢昆青. 第一个智能科学技术专业[J]. 计算机教育,2009(11):16-20.
[3] 罗辉,梁艳春. 大学生毕业论文与科研能力培养及就业[J]. 吉林教育,2003(10):18.
[4] 金聪,刘金安. 人工智能教育在能力培养中的作用及改革设想[J]. 计算机时代,2006(9):66-69.
Reform and Practice of Innovative Teaching in Artificial Intelligence
WANG Jia-hai, YIN Jian, LING Ying-biao
(Department of Computer Science, Sun Yat-sen University, Guangzhou 510006, China)
数据挖掘技术探讨论文范文5
【论文关键词】事项会计;数据仓库;事实表;维度表
一、IT环境下事项会计理论的新发展
对于如何能支持个性化会计信息需求,上个世纪60年代末美国会计学家乔治·H·索特(George.H.Sorter,1969)明确提出会计理论研究的事项法(EventApproachAccounting)。与传统价值法相比,事项法认为会计的目标在于提供与各种可能的决策模型相关的经济事项信息,不应汇总反映经济业务,与决策相关的事件的信息应尽量以其原始的形式保存,而将事件与其决策模型如何匹配的任务留给用户。由用户而非会计人员将事件转化为适合用户个人决策模型的会计信息。
事项会计提出后一直停留在理论研究阶段。事项会计的目的在于提供全面而原始的事项信息,那么信息如何提供才算全面、以怎样的形式存储才称得上原始,以及如此庞大的数据量应如何利用,是事项会计需要解决的首要问题。随着计算机技术及网络环境的发展,数据仓库及相关技术有效地解决了上述问题,为事项会计思想的实现提供了非常有力的支持。
首先是信息技术的发展。如已有的企业信息系统的实现,为事项会计数据仓库的建立奠定了实践基础,同时也提供了丰富的数据源,大幅度降低了信息的采集和传输成本。其次,事项法会计要求提供原始的未经加工过的经济业务信息,最大程度地恢复经济活动过程的原貌,以事项为单位的数据仓库存储结构可以很好地实现这一目标。数据仓库的数据存储结构与事项会计的思想相吻合,能够通过不同维度存储经济活动的立体信息。再次,数据仓库为集成不同企业数据库数据、各种其他数据源数据提供了技术支持。良好的数据接口工具,方便对不同数据来源的数据进行抽取、转化和加载。最后,先进的IT技术,如在线分析、数据挖掘等工具,为提供实时的、多角度的事项报告提供了实现的条件。
总之,信息技术的发展使得事项会计不再是空中楼阁,其思想逐渐变为现实。事项会计建立在数据仓库和IT技术基础之上,不再局限于之前的研究范围,将是以事项为中心采集数据,实现查询、报表、智能分析一体化,多角度再现经济活动的一种新型会计模式。
二、事项的分类
事项会计遇到的第二个问题,便是作为一种基础理论,事项应如何定义、如何分类,目前来看仍是悬而未决的问题。无论是对理论研究的深入发展,还是对其技术实现都起着一定的阻碍作用。接下来本文将对事项会计如何对会计信息进行分类作简单讨论。
由于现有会计报告中的现金流量表的分类最能反映事项会计思想的本质,即记录各个独立的经济事项,因此我们在现金流量表的基础上对会计事项进行精确的分类。拟将企业所有价值活动过程中发生的全部会计事项分为三大类:筹资事项、投资事项和经营活动事项,进而按照同类业务性质特征差异逐层细分,最终形成支持个性化决策的事项会计信息元素。
筹资事项可以进一步分解为权益筹资事项、负债筹资事项,而负债筹资事项按时间分解为短期负债筹资事项与长期负债筹资事项。经营活动事项按资金流与物流的流向细分类为获取运营资源事项、支付资金事项、存货存储事项、加工变换事项、销售与服务客户事项、收取资金事项等。投资事项科目按对外与对内的不同分为股权投资事项、债权投资事项与项目投资事项。
以经营活动事项为例继续分类。获取运营资源事项,可以细分为订立采购合同事项、原材料采购事项、存货入库事项等。可以通过原材料采购来简单比较价值法与事项的区别。价值法下的科目“材料采购”是企业各种购入材料的买价和其他相关采购费用的合计,包括支付运输、装卸等各种材料采购费用,加合后用以核算材料采购成本的账户,那么单从“材料采购”就很难看出具体某种材料的单价和数量。而事项会计从“材料采购活动”这个角度在每项采购活动发生时,记录与此活动相关的所有信息,如地点、时间、数量、单价、货种、供应方、合同、支付价款、支付方式、相关凭证等。支付资金事项,又包括支付职工工资事项、支付税金事项等。支付职工工资事项,包含职工工号、姓名、人员类别、基本工资、津贴、补贴、支付方式。其中,基本工资通过一定方式与另外的表相连,用以存放基本工资的计算方法。销售事项包含的内容有销售日期、客户代号、商品代号、部门代号、销售量、销售额、其他相关费用,而客户代号可以与另外的表相连,详细描述客户的有关情况,如客户名称、所属地区代号等信息,同样商品代号也可以与另外的表相连,描述有关商品的详细信息,如商品货号、规格、颜色、等级、编码等等。
将会计信息按事项会计理论进行以上的分类,只是对事项会计分类的一个初浅的认识,如何更有效、更科学地对发生的经济活动按照事项进行分类,仍然是事项会计持续发展所要解决的一个首要问题。
三、事项会计的数据仓库建模
明确了事项的分类后,我们就可以利用数据仓库来构造企业的事项会计系统。事项会计数据仓库包括三部分内容:数据源、数据仓库和分析工具。数据仓库的信息来源于不同的操作型数据库和其他形式的数据源,比如ERP系统。这些数据库相互异构,数据形式各不相同。因此在数据进入事项会计系统前,需要对其进行数据预处理,这些处理包括抽取、清洗、转化、加载。数据按照不同的决策主题以一定的逻辑结构存储在事项数据仓库中,以供后期查询、分析、数据挖掘使用,从而实现为用户提供个性化信息决策支持的功能。如图1所示。
那么数据是以何种形式存储在事项数据仓库中的?以怎样的方式存储才能够与事项会计思想保持一致性,实现以最原始的形式再现经济活动呢?下面本文以销售活动事项为例探讨事项会计系统建立模型的方式。
在设计数据仓库的数据模型时,首先按照决策主题建立一张独立的事实表结构,围绕在表周围的是解释该事实表的不同维度。针对销售事项的决策主题,采用一定的信息模型来描述现实销售价值活动,它的中心是销售事实属性描述,围绕它四周的是与销售事实关联的客户维、产品维、时间维、销售合同维等这些实体属性描述,如图2。要注意选取模型的时候,考虑主要采用星型信息模型来描述现实销售价值活动,即以维度表围绕在事实表周围,而不采用雪花模型或者更为复杂的星座模型。星型连接应用于设计数据仓库中很大的实体,能够满足实时性和查询速度要求很高的应用,同时符合事项会计数据仓库各不同事实表的维表属性之间相差不大的特性。事项会计系统将构建的信息模型为背景,建立包含各类决策主题的事项数据仓库,用户就可以按决策主题,从不同维度进行事项会计信息处理。
下面建立实际的数据仓库。根据商品销售事实,分别添加代表不同属性的各条记录,销售事项明细科目(ProSelledID)、客户(ClientID)、产品(ProductID)、时间(SelledDate)、销售量(SelledNo)、销售额(SelledPrice),如图3。这些记录构成了表的不同列。以客户为例,查看各列的属性值,可以根据事实情况,设置列的名称、数据类型、是否主键等不同属性,这些属性一经设定,基本上不再更改。
围绕商品销售表四周的是与销售事实关联的客户维、产品维、时间维等维表,这些维表来对事实表的各个属性展开详细描述。维表的建立方式与事实表的建立方式相同。用相同的方式设置客户维表、商品维表的不同粒度,即分别添加与客户、商品的不同属性相对应的列。客户维可以根据属性分为客户代码、客户姓名、所属地区三个粒度,商品维则可以分为商品代码、商品名称、商品种类、商品单位等不同粒度。
用相同的方法建立事项会计数据仓库中的其他事实表以及与事实表相连的维表,从而建立起事项会计系统。事项会计系统将构建的信息模型为背景,建立包含各类决策主题的事项数据仓库。用户就可以按决策主题,从不同维度进行事项会计信息的查询、分析、数据挖掘,从而真正实现事项会计的决策支持功能。
根据商品销售事实表与客户维表、商品维表的相互关系,分别在两个维表里设置主键,即与事实表相关联的关键字。在本例中,将客户维表的主键设置为客户代码(ClientID),商品维表的主键设置为商品代码(ProductID)。两个主键正是两维表内各列中唯一与事实表的各记录相关的列。因此通过建立关系,将商品销售事实表中的客户代码和商品代码这两条记录自动设置为外键,作为查询的依据。
【主要参考文献】
[1]葛家澍,林志军.现代西方会计理论[M].厦门:厦门大学出版社,2001.46.
数据挖掘技术探讨论文范文6
关键词:对象;相似度计算;数据挖掘;数据类型
中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2016)13-0014-04
Abstract: The Similarity is a measure of similarity between two objects, according to different objects, similarity calculation method is also different. Similarity calculation is widely used in data classification, is the basis for object classification. In this paper, the data objects were divided into three kinds: numeric type, non-numeric type and mixed type. And the similarity calculation methods of different types are discussed. Finally, we illustrated the application of similarity in the data mining.
Key words: object; similarity calculation; data mining; data type
伴随数据挖掘技术的应用领域发展,对象之间的相似性计算已成为一个非常重要的研究课题。相似度度量是衡量对象间相互关系强弱、联系紧密程度的重要手段。
在数据挖掘的方法中,诸如数据分类和预测[1-2]、数据聚类[1-2]、关联分析[1-2]、序列模式[1-2]、依赖关系与依赖模型[1-2]、异常检测和趋势分析[1-2]等都离不开对象之间的相似度分析。尤其是在考察对象间同异度关系时,相似度度量和计算方法将直接影响最终的数据挖掘结果,相似度计算又是衡量对象间差异的基础,在分类应用中,相似度计算是分类的依据。因而,依据不同的实际应用和数据对象,研究相似度计算方法,对数据分类有重要意义。
首先描述了相似度概念,进而将数据对象分为三种类型:数值型、非数值型和混合型,然后按不同数据对象分别给出了相应的相似度计算公式,最后通过实例对相似度计算进行了说明。
1 相似度概念
在数据挖掘、模式识别和机器学习等计算机应用领域中,两个对象的相似度是描述这两个对象之间相似程度的一种度量,两者越相似,它们的相似度就越高,相似度是一个非负数值,其值介于0和1之间[2]。数据挖掘的很多算法都涉及计算对象间的相似度,相似度计算方法依赖于数据对象的类型,数据对象的类型不同其相似度计算方法不同。例如,数值型数据的相似度可用欧氏空间的距离来描述其邻近程度;两个标称型数据对象的相似度与用来计算相似度的属性的值域有关。
依据参与相似度计算的数据类型,本文将数据对象分为数值型、非数值型和混合型[1-2]三种。
1.1 数值型
数值型数据被用来描述连续型或定量型数据,即两个不同数值之间有无穷多个数值。使用实数或度量衡单位计量相似度值,如温度、身高等。数值型量可分为区间标度量和比例标度量,其中区间标度量是一个线性的标度量,而比例标度量一般是非线性的。
1.2 非数值型
其取值是定性的、而非定量的数据。如人的性别,成绩优良等级等。通常这类对象属性的取值可通过有限个状态(字母/序数)来描述。非数值型数据又可分为标称型、二元和序数型数据等。标称型数据之间是无序的,序数型是有序的。
1.3 混合型
由数值型数据和非数值型数据混合组成。
2 相似度计算
2.1 数值型数据
数值型数据可分为区间标度型和比例数值型数据。
2.1.1 区间标度型数据
区间标度型:是一个粗略线性标度的连续量,这种量的值是有序的,可以为正数、负数或0。典型的例子有重量、高度、大气温度等。具体计算时,区间型数据的相似度通常转换成相异度计算。常用的计算方法是先将这种量标准化,消除度量单位对分析结果的影响,然后,采用距离来计算对象间的相异度。距离是一个非负数,距离的大小代表着2个对象之间的差异程度,距离越大,2个对象相异度就越大,距离越小,2个对象之间的相似度越高。这里给出常见的相异度计算方法[3]。
设 p=(p1, p2, …, pn)T, q=(q1, q2, …, qn)T 为N维空间中的两个对象,pi是对象p对应的第i个属性所取的值,是对象P的所有属性值的平均值。qi是对象q对应的第i个属性所取的值,是对象q的所有属性值的平均值。
曼哈顿、欧氏和闵可夫斯基距离等计算公式分别如下:
1)曼哈顿距离
曼哈顿距离又称为城市街区距离,是使用在几何度量空间的几何学用语,用以表明2个点在标准坐标系上的绝对轴距总和[4],对n维空间的曼哈顿距离表示如下:
2个n维向量p(p1, p2, …, pn)与q(q1, q2, …, qn)间的曼哈顿距离:
2)欧氏距离
欧式距离也称为欧几里得距离,是通常采用的距离,它是在n维空间中2个点之间的真实距离,用来表示各个数据对象之间的距离。欧式距离与对象的量纲有关,从统计的角度看,使用欧氏距离要求各个坐标对欧式距离的贡献是同等的且变差大小也是相同的[5]。
2个n维向量p(p1, p2, …, pn)与q(q1, q2, …, qn)间的欧氏距离:
(2)
3)切比雪夫距离
切比雪夫距离是一种最大距离。在向量空间中,2个向量间的切比雪夫距离,就是将其沿着任意坐标尺寸的最大值[6]。二维和n维空间的切比雪夫距离如下:
2个n维向量空间向量p(p1, p2, …, pn)与q(q1, q2, …, qn)间的切比雪夫距离:
4)闵可夫斯基距离
闵科夫斯基距离是欧氏距离和曼哈顿距离的推广[7],定义如下:
当x=1时,为曼哈顿距离,当x=2时为欧氏距离。
5)马氏距离
马氏距离 [3]是一种常用的距离度量方式,能够充分考虑模式特征参数的大小以及特征间的相关性,在模式识别中其性能通常比欧式距离好。马氏距离是欧式距离的改进,是欧式空间中非均匀分布的归一化距离,它对于一切线性变换是不变的[8]。
6)Canberra距离
Canberra距离是一种相对马氏距离,不受量纲的影响,同样没有考虑多重相关性,Canberra距离对微小变化很敏感[9]。
7)相关系数
相关系数是对向量做标准差、标准化后的夹角余弦,表示两个向量的线性相关程度[10]。当两个向量方向相近时,夹角余弦值越大,反之越小。特别地,当两个向量平行时,夹角余弦值为1,而正交时余弦值为0。
2.1.2 比例型数据
比例型数据一般是通过非线性尺度取得的测量值。计算这类对象的相似度有三种方法:转换为区间标度型数据、转换为连续的序数数据、取对数。
2.2 非数值型数据
许多数据挖掘方法只能处理数值型数据,因此需要将非数值型数据转为数值型数据。可建立非数值型量的不同状态值或利用离散数据建立其与对象之间的对照表。非数值型数据又可细分为标称数据、二元数据和序数型数据等。
2.2.1 标称数据
标称数据又称为类别数据,标称型属性的值可以是一些符号或事物的名称。每个值代表某种类别、编码或状态等。标称型属性的值之间没有顺序关系。例如:设hair_color(头发颜色)是一个描述实体人的属性。它取值可以为黑色、棕色、淡黄色、红色、赤褐色、灰色和白色等。因此,hair_color是标称属性。
通常,可以用数字表示这些符号或名称,例如对于hair_color,可以指定数字0表示黑色,1表示棕色,2表示淡黄色等。
两个标称型对象i和j之间的相异度可以用简单匹配方法来计算:
其中p为对象的属性的个数,m为对象i和j取值相同的属性个数,我们可以通过赋权重来增加m的影响,或者赋给有较多状态的变量匹配以更大的权重。
对于标称数据,欧氏距离等不能直接应用于其数据的特点,Ralambondramy提出了一种该类型转换成二进制属性的方法,用0和1表示一个属性是否存在,并把这些二进制属性当做数值来处理[11]。
通过这种方法也很容易描述分类属性的海明距离公式:
2.2.2 二元型数据
二元数据是一种特殊的标称数据,只有二个类别或状态(0和1)构成,0表示该属性不出现,1表示出现。
设x = (x1, x2, …, xn), y = (y1, y2, …, yn) 为二元数据,常用0-0、0-1、1-0、1-1匹配表示xi及yi相应的取值。其中fij表示集合{(xk, yk)| xk = i且yk = j, k = 1, 2, …, n}的基数,[12]。计算二元型数据相似度的方法比较多,由于篇幅原因,只列如下几种:
1.简单匹配系数(对象的变量是对称时)
2.Jaccard系数
(11)
3.Rogers-Tanimoto
4.Srensen
2.3 序数型数据
序数型属性变量分为分类和连续两种。分类序数属性与标称属性类似,不同的是,分类序数值表示不同的状态,将其状态可按一定的次序排列。例如,职称就是一个分类序数,按照助教、讲师、副教授、教授的顺序排列的;人的年龄段可按儿童、少年、青年、中年、老年顺序排列。一个连续序数型数据看上去就像一组未知范围的连续数据,值之间的相对顺序是重要的,而其实际的大小则不重要。在计算对象的相异度时,对序数型数据的处理方式与区间标度数据非常类似。
假设f是用于描述n个对象的一组序数型属性之一,若序数属性f有mf个状态,关于f的相异度计算包括如下步骤:
1)属性f有mf个有序状态,第i个对象的属性f的取值为xf,将属性值xf替换为相应的等级rf,rf{1,2,3,....,mf}。
2)将序数属性等级做变换,映射到区间[0,1]上。
3)利用数值属性的任一种距离计算公式来计算相异性。
2.4 字符串型数据
海明距离是专门针对字符串数据而设计,用来衡量两个字符串之间的相似度,其计算公式如下所示:
其中,表示两个字符串。而,,分别表示字符串中各个位置上的字符。count( )函数用于获取两个字符串中对应字符值不同的个数,海明距离是分析文本等字符型数据之间相似度的常用方法,在文本分类等领域得到了广泛应用。
2.5 文档向量型
通常,文档用向量表示,向量的每个属性代表一个特定的词(关键词)或短语的频度。每个文档都被一个所谓的词频向量来表示。词频向量通常很长,并且稀疏。使用这种结构的应用包括信息检索、文本文档聚类、生物学分类和基因特征映射。对于这类稀疏的数值数据,常采用余弦相似性来计算两个文档间的相似性。
2.6 其他非数值型数据
在实际的应用中,对象的某些属性数据值与我们研究的结果毫无关系,则可忽略,不需考虑在内。
3 混合型数据
当对象的属性是由多种数据类型组成时,此时对象之间的相异度计算变得比较复杂了,目前有四种方法来处理:按单个属性独立计算、按类型分组独立计算、通过相异度矩阵计算、采用摘要信息方式计算等,由于篇幅有限,摘要信息方式计算在文中就不具体列举了。
3.1 按单个属性计算
将对象的每个属性单独进行考虑,按照一般正规相似度的定义方式进行计算,也就是先度量单个属性之间的相似度,然后利用综合函数得出整体相似性。但是一般在计算数据相似度时会归约到同一形式上[12]。
3.2 按类型分组计算
将属性按数据类型分组,将每种数据类型的属性分成一组,利用相应的相似度计算公式来计算不同类型属性的相似度,之后利用综合函数得到整体相似度,这种方法将同种类型的属性看成整体进行考虑。如果这些分析得到兼容结果,则这种方法可行,但在实际的数据应用中,每种属性类型分别分析得到兼容结果的可能性不大,所以这种方法的可行性不大。
3.3 通过相异度矩阵计算
将所有的数据一起处理,只进行一次分析。将不同类型的数据组合在单个相异度矩阵中,所有有意义的数据转换到共同的值域区间[0, l]上[13]。
假设数据集中包含p个不同的类型的属性,对象i和j之间的相异度定义为:
其中,如果或缺失(即对象i或对象j没有属性f的度量值),或者,且属性f是不对称的二元型数据,则指示项;否则,指示项。
对象i和j之间相异度的计算方式与属性f的具体数据类型有关:
如果f是二元型数据或标称型数据:如果,则;否则。
如果f是标度型数据:这里的取值是属性的所有非空缺对象。
如果是序数型或者比例标度型数据,计算排序位和,并将作为区间标度型数据对待。
4 相似度计算的应用
4.1应用
对象间的相似度计算在数据挖掘中涉及面很广,如K最近邻分类(KNN)、聚类和异常检测等技术。
K最近邻(KNN)分类算法通过计算给定的检验对象与训练对象之间的相似度,找出检验对象的K个“最近邻”[27]。“邻近性”用相似度来度量。因此,如何选择相似度计算方法在KNN最邻近算法中对分类效果有着直接影响。若对象的属性是数值型数据,则直接用对象间的距离来度量,对每个属性的值进行规范化,变换到[0,1]区间,防止较大初始域的属性权重过大而影响结果。若属性是标称型数据,常比较对象x1和x2中对应属性的值,若两者相同者取0,反之则取1。
聚类,也称作无监督分类。聚类分析的目的是把数据对象划分成多个组或簇(即不同的类),来发现隐藏的、潜在于数据中的有用信息。其目标是使得同一簇内的对象具有较高的相似性,而簇间的对象尽可能相异。众多聚类算法都是建立在事先假定某种相似度度量方式基础上,因此聚类算法的基本出发点都是根据对象间相似度将对象划分为不同的簇。
在实际的数据挖掘应用中,如果涉及相似性度量,首先应分析对象的数据类型是否是单一,是数值型的数据还是是非数值型的或者是混合型的数据类型。然后根据相应类型的相似度的计算公式进行处理。
4.2 计算实例
下面用KNN算法和k-summary算法应用的两个实例来介绍相似度的计算。
实例1.数据集weather如下表所示,测试样本X=(rain,hot,normal,weak,?), k取3,下面根据KNN最邻近方法预测该样本的类符号。
由于outlook的值有三个,属于标称型数据类型,为了便于区别它们之间的差异性,在此将其值对应转化为序数型数据。sunny=1,overcast=2,rain=3;同理temperature的hot=1,mild=2,cool=3。
首先计算样本X到14个记录的距离(取曼哈顿距离)分别为:
Distance(X,p1)=3,Distance(X,p2)=3,Distance(X,p3)=2,Distance(X,p4)=1.5,Distance(X,p5)=1,Distance(X,p6)=2,Distance(X,p7)=2.5,Distance(X,p8)=2.5,Distance(X,p9)=2,Distance(X,p10)=0.5,Distance(X,p11)=2.5,Distance(X,p12)=3,Distance(X,p13)=0.5,Distance(X,p14)=2.5;
根据KNN的概念可知,K=3,在这里取3个距离最小的值,分别为Distance(X,p10)=0.5,Distance(X,p13)=0.5,Distance(X,p5)=1。所以取离样本X最近的3个近邻为p5,p10,p13。而这3个最邻近对应的类标号都为yes,因此样本X的类标号被预测为yes。
5 结论
论文对相似性的概念进行了介绍,然后对数据类型进行了分类,并对不同数据类型对象的相似度的衡量方式进行了分析。不同的数据类型具有不同的相似性处理方式,相似性的计算方法有很多,有的适用于专门的领域,同时也有适用于特定类型数据的限制,选择相似性的一个重要的因素就是属性的类型。在进行非数值型数据时,有时会因为将其化为标称类型,但是这样的转换并不能很好地了解属性间的差异性,而将其进行序数化,再进行相似度计算,更能体现数据之间的差异性。
参考文献:
[1] Jiawei Han, Micheline Kamber, Jian Pei.Data Mining Concepts and Technologyes[M].3rd ed.China Machine Press,2012.
[2] 蒋盛益,李霞,郑琪.数据挖掘原理与实践[M].北京:电子工业出版社,2013.
[3] 黄.相似度度量的研究及其在数据挖掘中的应用[D].福州:福建师范大学,2009.
[4] Yano Y.Associative Memory with Fully Parallel Nearest-Manhattan-Distance Search for Low-Power Real-Time Single-Chip Applications[C]. Proc. Of IEEE ASP-DAC, 2004:543-544.
[5] Hua-Kai Chiou, Gia-Shie Liu.Multiple Objective Compromise Optimization Method to Analyze the Strategies of Nanotechnology in Taiwan[C]. Symposia and Workshops on Ubiquitous, Autonomic and Trusted Computing,2009:172-177.
[6] de Souza R M C R , de Carvalho F A T. Dynamic clustering of interval data based on adaptive Chebyshev distances[J]. Electronics Letters, 2004, 40(11).
[7] Ryotaro Kamimura, Osamu Uchida. Greedy Network-Growing by Minkowski Distance Functions[C]. IEEE Transaction on Neural Networks, 2004:2837-2842.
[8] Chunhua Shen, Junae Kim, Lei Wang. Scalable Large-Margin Mahalanobis Distance Metric Learning[J].IEEE Transactions on Neural Networks, 2010, 21( 9): 1524-1530.
[9] Sheng-Yijiang.Efficient Classification Method for Large Dataset [C]. Proceeding of the Fifth International Conference on Machine Learning and Cybernetics, Dalian, 2006:13-16.
[10] Xing E P, Ng A Y, Jordan M I,et al. Distance metric learning, with application to clustering with side-information[C]. proc Adv Neural Inf Process Sys., 2003:505-512.
[11] 陈|.基于划分的混合属性聚类算法研究[D].长沙:湖南大学,2010.