前言:中文期刊网精心挑选了雷雨话剧范文供你参考和学习,希望我们的参考范文能激发你的文章创作灵感,欢迎阅读。
雷雨话剧范文1
关键词:新课改;语文实践;教学总结;教学形态
新课程改革沸沸扬扬,但落实到具体教学中时就气力衰弱,和以前的教学模式并无二致,其精髓却被浮泛在课堂40分钟的教学流程中,只是被时髦地利用了一下而已,学生的“自主、合作、探究”活动只不过10分钟而已,时间一到,自然终止。我常想,课堂40分钟的教学时间,学生还未来得及体会概念和问题,如何能实现“自主、合作、探究”的深刻意义,所以课堂的这种活动只能以浮泛作结,只是流于形式的时髦应用而已。
到底什么样的教学形态才会实现教学的真正价值和意义,才会是真正意义上的“自主、合作、探究”呢?先谈谈我对现代话剧《雷雨》的教学思考和设计。
现代话剧是一种文学形态,是集合了诸多元素在内的舞台文学艺术,即是一种通过舞台语言来深刻反映生活的文学形式。它通过演员在舞台出色的语言方式呈现生活主题,让人们直观地从视觉和听觉上了解人物形象、体会生活和感悟生活。我们对话剧教学的方向是明朗的,即让学生深入了解这种文学形式。因此,据教学行为可行性的原则,探究的方向可以定出两个,一是剧本的创作,一是舞台表演。
在话剧《雷雨》的教学思考中,有两点可以作为突破点,一是语文必修四只给出了话剧的第二幕剧本,二是它只是文字剧本并非直观的舞台表演。对于第一条,可以利用学生的好奇心,让他们自己推想其他三幕的情节,并且尝试写作;对于第二条,可以利用学生强烈的表演欲望,让他们尝试排演话剧。这两项工作是学习话剧的核心工作,扎实有效地做完这两项,话剧教学的目标也就会完成得很好。
以下是我通过实践后做出的以《雷雨》教学为出发点的话剧单元教学设计:
(一)新课程的教学思考:(1)强调学生的课堂主体地位;(2)激发兴趣点并培养自主操作与创新能力。
(二)新课标与综合性研究学习的要求:(1)力图使学生对中外话剧有基本的了解;(2)引导学生观察语言、文学和中外文化现象;(3)培养发现问题与研讨探究的能力。
(三)基本学习内容(前期工作):(1)第二幕文本阅读;(2)第三、四幕影视欣赏;(3)引导至第一幕的教学中,课本未选章节。
(四)从参与讨论到思考创作:(1)分组(4~6人/组),主持1人,执笔1人;(2)讨论基本内容为第一幕舞台布景在周家还是鲁家,怎么开场,安排哪些人物,交代哪些内容,矛盾怎么体现,情节如何发展,怎样才更加合理;(3)形成第一幕剧本草稿并且试排。
(五)组间交流讨论,组内修改,分组表演:(1)交流本组创作时遇到的问题,组员出现的分歧,如何解决的,其他组提出建议;(2)表演,讨论,修改并形成正稿;(3)阅读先生第一幕剧本,对比自己的剧本,看看谁距大师更近一步。
(六)学生可能会有的收获(教学预期):(1)基本了解话剧的表现形式;(2)学会合理安排人物以及情节,会处理人物矛盾和他们之间的复杂关系;(3)懂得话剧表演词的巨大作用;(4)在自主学习中学会思考问题和处理问题;(5)懂得话剧在舞台表演上是受时间和空间的限制,懂得合理和集中反映矛盾的必须性和必要性。
话剧《雷雨》的教学计划用8课时,但实际上达到10课时,虽然未按计划完成,但我却收到了意想不到的成果。
其一,同学们表现出了前所未有的兴趣和热情。从分组到作计划,之后分工再到研讨,交流完毕到修改,虽然个别组因争相主持和发言闹了小矛盾,但最终都完整地呈现了各自的成果,我作为教学组织者只是不断地参与各组讨论并进行观察。
雷雨话剧范文2
关键词:划分方法;聚类算法;研究与应用
随着我国的数学、计算机科学以及经济学学科的快速发展,聚类算法得到广泛使用,加快了数据处理与分析的速度,很大程度上促进了这些学科的发展。而且聚类算法的应用领域已经涉及生活和生产的方方面面,它是将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程。这有很多具体应用的实例,比如说在商业方面,聚类分析方法可以帮助销售工作者找到不同的客户群,并且通过聚类分析定的模式来展现客户群的差异性。实际出真知,聚类分析方法对于市场的整体分析和数据处理等有着极其重要的作用,而且可以根据对客户群特点的分析准确把握客户的消费心理,这样一来能够促使厂商发现新的商机,开发新型的产业和地区市场,并且能够将这些信息整合起恚辉诒O招幸担聚类分析的应用更是在很大程度上解放的人力,很多数据的收集、处理变得极其方便,主要是根据地区的保险业的平均水平来划分的,以平均值为划分的界限,再结合局部地区的经济发展速度、人均工资水平以及对保险业的态度和购买程度进行分组;再者便是在近些年来最为流行的贸易方式――电子商务。电子商务顾名思义用的就是计算机,其本身在数据处理上就占有一定的优势,利用聚类分析的方法使得电子商务中的交易数据和人群划分更加明显,交易人群特点的掌握有利于电商事业的发展,也为更近一步的商务交流提供了建设性的意见。
1划分方法的基本概念及其常用的方法
划分方法(PAM:Partitioning method)的定义是首先创建k个划分,k为要创建的划分个数。常用的划分方法有:k-means,k-medics,CLARA(Clustering Large Application),CLARANS(Clus-tering Large Application based upon Randomized Searchl.FCM。其中以k-means的使用最为普通,严格来说k--means属于非层次聚类法的一种,下面我们来看一下它的整个执行过程,一共分为两个部分,分别是初始化,循环。所谓初始化就是指选择或是人为指定某些记录作为凝聚点,但是要注意的一点就是按就近原则进行初始化的选择,而且要注意记录中心的数据,最后根据记录数据重新进行这一过程。一直不断地重复这一过程,直到凝聚点位置收敛为止。这种方法一般具有节省运算时间等特点。
2具体的运算过程
2.1数据预处理
数据预处理是指我们在对数据进行正式的处理之前,要先对数据的整体进行一下估量,主要从数据的数量、范围、程度和既定标准这几方面入手,进行规划分类和简单的预测分析,然后再就每一个方面对整体数据的影响进行估量式判断,建立起一个预测模式。当然在我们有了明确的数据处理和分析结果时要将这一预测模式清楚,避免结果混淆。
2.2定义距离函数
聚类的产生是由于多个领域和数据之间存在着相似性,正是由于事物之间相似性的存在,才促生了聚类的算法。但是这些相似性的存在也极容易造成事物之间的混淆。所以给这些数据设置一个定义函数是非常有必要的。函数的设置是为了避免误差,所以在设置相似距离时一定要把握好度量,保持数据点之间的平衡,从而保证整个运算过程的准确性。
2.3聚类或分组
数据对象的分类要根据数据的特点、适应的环境或是发挥的作用等来进行分类,而且由于分类时采用的方法不同或是人为因素的干扰,总会产生不同的数据分组。划分方法一般从初始划分和最优化一个聚类标准开始。Crisp Clustering,它的每一个数据都属于单独的类;Fuzzy Clustering,它的每个数据可能在任何一个类中,Crisp Clustering和Fuzzy Clustering是划分方法的两个主要技术,划分方法聚类方法具有自身的法则优势,它可以找到在不同的分类组之间的相似性,甚至可以分析出在同一组内分类数据之间存在的差异性,我们常说数据的处理和分析要科学,要辩证的看到事物的两面性。这种方法本身就是一种辩证的方法,所以用它来分析和处理数据最合适不过了。
3聚类方法的主要应用研究
聚类算法在实际应用过程中涉及多个行业发展。从商业、生物、地理、保险行业、因特网行业以及电子商务行业等都所有涉猎。
3.1商业
在商业市场的发展过程中,往往对于市场未知风险的预测是企业可持续发展的一个重要问题。如果企业能够有效的预测未来的市场风险,探究潜在的消费者动向,那么往往能够取得显著的利益。因此在当前阶段,聚类算法能够为企业研究消费者行为、探究潜在市场发展、选择实验室市场等奠定坚实的理论数据基础。
3.2生物
在生物行业发展过程中,由于现代化科学技术的发展,在进行生物学的研究过程中,基因数据库的容量大大提升,通过聚类算法能够有效的根据基因数据库的特点进行划分,使人们能够对种群的固有特征有显著的认识。
3.3保险行业
当前世界保险行业发展速度较快,而不同的行业所需要的保险种类略有区别。聚类算法能够根据不同的行业发展类型,制定相应的保险措施,为保险更好地发挥作用效果奠定基础。
3.4因特网及电子商务
当前阶段,电子文库的发展规模逐渐扩大,聚类算法电子文库的信息修复以及信息分类上发挥了显著的作用效果。在进行信息特征搜索的过程中,聚类算法能够根据相应的关键词检测整篇文章,大大降低了工作量。
其次当前物联网时代的到来,物联网对人们的影响愈加扩大。而通过聚类算法的数据分析和统计等,能够在最短的时间内根据消费者的消费记录以及浏览行为确定消费者特征,为电子商务的更好更快发展提供有效的保障。
雷雨话剧范文3
关键词:聚类分析;相似度;共享最近邻;k-平均算法;数据挖掘
中图分类号:F224.0 文献标志码:A 文章编号:1673-291X(2010)05-0238-03
引言
随着信息技术的不断发展,数据库应用的范围、规模和深度也在不断的扩大,这样就导致积累了大量的数据,而人们所关心的往往是这些数据背后所隐藏的信息。目前,商业界普遍使用的条形码和科学研究领域利用先进的数据测量仪器所测出的数据,这些数据都是海量的。面对这样庞大的数据库,人们迫切的需要一种有效的技术从这些庞大的数据中智能、自动地提取出来有价值的知识或是信息,这就是所谓的数据挖掘技术。而聚类分析正是数据挖掘所采用的关键技术之一,它被用于发现隐藏在大量数据中的分组和令人感兴趣的数据模式。迄今为止,人们提出了许多聚类算法,所有这些算法都试图解决大规模数据的聚类问题。
一、聚类的基本概念
1.聚类的定义
所谓聚类[1],就是将一个数据集合分成若干个称为簇或是类别的子集,每个簇中的数据都是具有很高的相似度,而簇之间具有较低的相似度。
簇的定义[2]:由于不同的应用所分析的具体数据具有不同的特征,因此聚类的目标簇具有不同的的形式和定义。简单的来讲,簇就是聚类分析结果中由相似的数据对象所组成的一个个的分组就成为簇,同一簇中的点具有很高的相似性,不同簇中的点具有很高的相异性。
2.聚类的一般步骤
聚类分析一般的主要步骤如下:
(1)特征选择。首先必须适当的选择特征,尽可能多的包含任务所关心的信息。在选择特征中,信息的多余减少和最小化是主要的目的。
(2)相似性度量。用于定量度量两个特征向量之间的相似度。一个简单的度量如欧氏距离经常被用来反应两个特征向量之间的非相似度。
(3)聚类算法。已经选择了合适的相似性度量,这步涉及到选择特定的聚类算法,用于揭示数据集中隐藏的数据结构。
(4)结果验证。一旦用聚类算法得到了结果,就需要验证其正确性。
(5)结果的判定。在许多情况下,应用领域的专家必须用其他实验数据和分析判定聚类结果,最后得出可被人理解的正确的结论。
3.聚类的典型要求
一种好的健壮的聚类方法应当具有可伸缩性、具有处理不同类型属性的能力、能够发现任意形状的簇、先验知识最小化、具有处理噪声数据的能力、对输入数据的顺序不敏感、具有处理高维数据的能力、基于约束的聚类、具有可解释性和可用性。
二、典型的聚类方法
1.基于划分的方法
给定一个包含n个数据对象的数据库,以及要生成簇的数目k,一个基于划分的聚类算法将数据对象组织为k个划分(k
k-平均算法(k-means)首先随机选取k个数据对象,每个对象代表一个簇的平均值或中心点。其余的对象按照它们与这些平均值之间的距离,被赋予与之最相近的簇。然后,算法对每个新簇重新计算其平均值。这个过程一直迭代直到一个准则函数收敛为止。典型的准则函数是方差准则函数,定义为:E=xeCx=m
其中x代表数据空间中给定的对象,mi是簇Ci的平均值(x和mi可以是任意维的向量)。该准则函数试图使结果簇内部尽可能地紧凑并相互分离。
k-中心算法(k-medoids)不采用簇中对象的平均值,而是采用簇中心点(medoid)作为参照点。对象划分的原则仍与k-平均算法一样是基于最小化所有对象与其参照点之间的相异度之和。该算法首先为每个类随机选择一个代表对象,剩余的对象根据其与代表对象的距离分配到最近的一个类中, 然后反复地用非代表对象替代代表对象, 以改进聚类的质量。
2.基于层次的方法
层次聚类法(hierarchicalcl ustering methods)是一种广泛应用的一种经典方法[4]。这种方法的基本思想是:先将n个样本各自看成一类(簇),然后规定样本之间的距离和类与类之间的距离。最初每个样本自成一类,类与类之间的距离即为样本之间的距离。然后选择距离最小的一对合并为新类,接着计算新类与其他类之间的距离,再合并间距最小的两个类,依次迭代,直到所有的样本都归于一类。具体分为两种:凝聚的(agglomerative)层次聚类和分裂的(divisive)层次聚类。
凝聚的层次聚类是采用自底向上的策略,首先将每个对象作为一个簇,然后合并这些原子簇为越来越大的簇,直到所有的对象都在一个簇中,或者某个终止条件被满足。绝大多数层次聚类方法属于这一类,只是区别在簇间的相似度定义上。
分裂的层次聚类采用与凝聚的层次聚类相反的策略,首先将所有对象置于一个簇中,然后逐渐细分为越来越小的簇,直到每个对象自成一个簇,或达到某个终止条件。例如,达到了预期的簇的数量,或者两个最近的簇之间的距离超过了某个阀值。
3.基于密度的方法
DBSCAN (Density-Based Spatial Clustering of Applications with Noise)是一种典型的基于密度的聚类算法。[5]该算法的基本思想是:一个类能够被其中的任意一个核心对象所确定,为了发现一个类,DBSCAN先从数据集D中找到任意一对象P,并查找数据集D中以Eps (半径)和MinPts (最小密度阀值)为参数的从对象P密度可达的所有对象。如果P是核心对象,也就是说半径为Eps的P的邻域中包含的对象数不少于MinPts个,则根据算法可以找到一个关于参数Eps和MinPts的类,如果P是一个边界点,即半径为Eps的P的邻域包含的对象数目小于MinPts个,则没有对象从P密度可达,P被暂时标注为噪声点,然后DBSCAN 处理数据集D中的下一个对象,该算法的时间复杂度为O (NlogN) (N是数据集中的数据对象数目)。
4.基于网格的方法
基于网格的(grid-based)聚类方法采用一个多分辨率的网格数据结构。它将空间量化为有限数目的单元,这些单元形成了网格结构,所有的聚类操作都在网格上进行。这种方法的主要优点是处理速度快,其处理时间独立于数据对象的数目,仅依赖于量化空间中每一维上的单元数目。基于网格的代表性算法有STING和CLIQUE等。
5.基于模型的方法
基于模型的聚类方法试图优化给定的数据和某些数据模型之间的适应性。[6]这类方法经常是基于这样的假设,即数据是根据潜在的概率分布生成的。基于模型的方法主要包括统计学类方法和神经网络类方法。
三、基于几何光滑度的案例聚类方法
由于上述算法都存在一些局限性,一般只能发现凸型的类或是球型的类,而对于凹形或是任意形状的类或是具有高度稀疏特性的类就无能为力,因此,本文提出基于SNN相似度的类似于几何中自由曲线曲面拼接光滑度计算(即连接点处若干阶左右导数一致)的聚类算法,即基于几何光滑度的光滑拼接聚类算法,算法本身可由光滑度参数来调节。
1.SNN相似度
数据对象之间相似的程度取决于它们共享最近邻的数量。任一数据对象的k个最近邻组成 一个最近邻列表,两个对象之间的共享最近邻为它们最近邻列表的交集。特殊地,当两个对象的k最近邻列表完全一致时,它们的相似程度最大。SNN相似度就是它们共享的近邻个数。计算SNN相似度可利用下述算法。
2.相关定义
如前所述,SNN相似度就是它们共享的最近邻个数。通过算法1我们能够计算出所有样本间的SNN相似度并组成相似度图。随后我们可以应用到基于SNN的聚类算法中,但是一般的基于SNN的聚类算法如JP聚类[7]和基于SNN密度聚类[8]都存在一个共同的缺点:一个样本集是分裂成两个类还是保持不变,可能依赖于一条链,这使它们显得有些脆弱。例如,如果有3个样本x1,x2,x3,x1和x2有一个很高的SNN相似度,x2和x3也有一个很高的SNN相似度,但x1和x3的SNN相似度却为0,这时应用JP聚类算法或基于SNN密度聚类算法,x1,x2,x3一般会归到一类中去。这显然不是很好的聚类。因为直观上看,如果这3个样本是一类,那么x1和x3也应该有一个较高的SNN相似度,而不至于很快降为0。这类似于几何中计算参数曲线拼接问题,如果两条参数曲线在拼接点满足越高阶的导数连续性,拼接后的曲线就被认为越光滑,在直观上也觉得它更象一条曲线了。因此,我们根据几何中的这种现象提出基于SNN相似度的n阶光滑度的定义。在此基础上再提出光滑拼接聚类算法。
定义1:如果有一条长链,由2n+1个样本点x-n,…,x-1,x0,x1,…,xn组成。假设链可表示为:x-n?圮x-n+1?圮…?圮x-1?圮x0?圮x1?圮…?圮xn-1?圮xn,其中,每个样本点和其后的样本点之间的SNN相似度是这两个样本点组成的单链强度(大于0)。我们把这个长链看作是一个短链x-n?圮x-n+1?圮…?圮x-1?圮x0与另一个短链x0?圮x1?圮…?圮xn-1?圮xn在x0处的拼接。如果x-1与x1的SNN相似度不为0,则称原长链在x0处是1阶光滑的;否则称为0阶光滑的;如果x-2,x-1,x1,x2的两两SNN相似度都不为0,则称原长链在x0处是2阶光滑的;一直下去,如果有x-n,…,x-1,x1,…,xn两两之间SNN相似度都不为0,则称原长链在x0处是n阶光滑的。
定义2:如果有一条长链,由n+1个样本点x0,x1,…,xn组成。假设链可表示为:x0?圮x1?圮…?圮xn-1?圮xn,其中,每个样本点和其后的样本点之间的SNN相似度是这两个样本点组成的单链强度(大于0)。我们把这个长链看作是一个单链x0?圮x1与另一个短链x1?圮…?圮xn-1?圮xn在x1处的拼接。如果x0与x2的SNN相似度不为0,则称原长链在x1处是1阶单侧光滑的;否则称为0阶单侧光滑的;如果x0,x2的SNN相似度也不为0,则称原长链在x1处是2阶单侧光滑的;一直下去,如果有x0 , x1,…,xn两两之间SNN相似度都不为0,则称原长链在x1处是n阶单侧光滑的。
3.算法设计
通过算法1我们可以从数据集{xi1≤i≤m}中计算出任意两个样本间的SNN相似度,并组成一个m×m阶的SNN相似度矩阵。从此矩阵中可以找出Cm2个单链,其中,每个单链的强度为两个样本点的SNN相似度。如果两个短链中含有相同的样本点,我们可以考虑把它们合并成一条链,并检查这种拼接在拼接点是否满足s阶光滑(如果两条都是单链,则s只能取1),如果满足,就合并;否则,它们就不拼接而维持原状。由于拼接需要考虑光滑度,因此这种拼接聚类不仅仅依赖于单链的强度,s值如果过大,会导致一些单链无法拼接。这将会导致类别数目过多。假设已有一个连通图,而一条单链要在连通图的一个节点处拼接,从这个节点出发在连通图中可以找到若干条短链,这个单链要与这些短链在拼接点满足一个指定的光滑度。因为拼接要有确定的先后顺序,以保持实验结果的稳定,所以我们预先将单链集中的单链按强度(即SNN值)由大到小排序。这样先拼接的单链的强度大,但光滑度要求低;后参加拼接的单链的强度(同一类内而言)越来越小,但光滑度要求越来越高。由此可知,这种拼接是强度和光滑度之间互补的。这显然是合理的,因为如果一个样本点要加入一个类中,如果和类中的某个样本没有很大的SNN相似度,那么它至少应该和这个类中的很多样本有一个共享最近邻(SNN值为1)。由于算法内含强度和光滑度互补的运行机制,因而算法本身不需要设置参数。在拼接过程中,满足条件就进行拼接,但在第k层节点拼接之间,我们可以删除之前的第k-1层节点的单链,因为这些节点已经属于一类,无需参加拼接,这样单链集容量就能迅速降低,加快算法。
具体的基于SNN相似度的光滑拼接聚类算法可以描述如下:
四、实验与分析
本次试验我们采用数值型数据进行试验,这样可以简化操作,便于进行数据进行处理,突出我们所采用的聚类算法的有效性。
1.数据集
实验所采用的数据集来源于国家从2004―2007年全国总共发生的洪涝灾害,总共由100条数据点组成。在这个数据集中,我们可以将取值密集但相同的变量去掉,并将一些非数值文字型的不影响实验结果的变量去掉,最终每个数据点都是一个24维的向量。
2.实验结果分析
对于算法1中我们将最近邻参数k取值为常数6,算法2中光滑度参数s取定值为1。我们采用算法2进行聚类分析,在结果中我们发现类别编号1、3、5、7四个类是算法所发现的类,这些类中数据点相对集中,其他还有少量数据点的类别均看作是噪声。并且发现四级响应级别数据点相对比较集中。并发现那些被看做是噪声的数据点一般都是属于个别年份离类别较远的数据点。
聚类分析是数据挖掘中的一种非常实用的技术,它能够发现大量数据背后所隐藏的数据分布模式与关联规则,以便提供给我们有价值的信息。目前聚类算法已经应用到许多领域,但是仍然存在诸多缺陷。今后,聚类算法将在可伸缩性、容错性、易用性、处理高维数据等方面加以提高和改进,以便能够更好地应用于更多的领域,解决其他方法不能够解决的问题。
参考文献:
[1] Han JiaWei.Kamber数据挖掘概念与技术[M].北京: 机械工业出版社, 2001.
[2] 邵峰晶,于忠清. 数据挖掘――原理与算法[M].北京: 中国水利水电出版社, 2003.
[3] 王实,高文. 数据挖掘中的聚类算法[J].计算机科学,2007, (4): 42-45.
[4] 武森,高学东. 高维稀疏聚类知识发现[M]. 北京: 冶金工业出版社, 2003.
[5] 周水庚,周傲英,曹晶. 基于数据分区的DBSCAN算法[J]. 计算机研究与发展, 2000,(10): 1153-1159.
[6] Guha, S, R. Rastogi, and K Shim, Rock. A robust clustering algorithm for categorical attributes. Information Systems, 2000,25(5): 345-366.
雷雨话剧范文4
关键词: 聚类分析;差分进化;K-均值聚类算法;Laplace 分布;Logistic混沌搜索
中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2013)22-5064-04
K-均值算法是由MacQueen[1]提出的一种经典的聚类分析算法,它具有算法简单且收敛速度快的优点,但是算法的聚类结果易受初始聚类中心影响,且容易陷入局部最优。近年来许多学者利用各种常用智能优化算法(如遗传算法[2-3]、微粒群优化[4]等)对K-均值算法进行改进,并取得了不错的效果。
由Storn和Price提出的差分进化(Differential Evolution, DE)算法[5]是一种基于群体进化的启发式算法。该算法从原始种群开始,通过变异(Mutation)、交叉(Crossover)和选择(Selection)操作来生成新种群,通过计算每个个体的适应度值,来确定个体的保留或淘汰,然后通过不断迭代运算,引导搜索过程向最优解逼近。文献[6-7]利用差分进化对K-均值算法进行改进,结果表明,与基于传统遗传、微粒群优化等常用进化算法的K-均值改进算法比较,基于差分进化的K-均值改进算法能获得更好性能。但是,传统差分进化算法也存在算法收敛速度与全局寻优能力之间的矛盾,进化后期易出现早熟、停滞现象,通过改变控制参数虽然可以提高算法收敛速度,但是也会造成其全局寻优能力的下降,从而使得基于传统差分进化的K-均值改进算法的性能受到一定影响。
针对上述问题,该文提出一种基于改进差分进化的K-均值聚类算法,基本思想是:在差分进化算法中通过引入Laplace变异算子来提高算法收敛速度和全局寻优能力,同时通过引入Logistic变尺度混沌搜索,以克服传统差分进化算法进化后期可能出现的早熟、进化停滞现象;然后将其用来改进K-均值算法。实验结果证明,该算法具有较好的全局寻优能力,且收敛速度较快。
1 聚类的基本数学模型
2 改进差分进化算法
2.1 传统差分进化算法
2.2 Laplace变异算子
2.3 Logistic变尺度混沌搜索
3 基于改进差分进化的K-均值聚类算法
3.1 个体编码
3.3 算法步骤
步骤1:设定个体数N,最大迭代次数Gmax。
步骤2:种群的初始化:随机选取样本作为聚类中心,并计算当前位置适应度值。
步骤3:对于个体Xi,G按3.2描述产生变异算子F。
步骤4:分别根据式(3)执行变异操作,根据式(4)执行交叉操作,生成试验向量[Uki,G],根据式(5)执行选择操作。
步骤5:根据个体的聚类中心编码,按照最近邻法则重新划分样本的归属类别。
步骤6:重新计算新的聚类中心,以替代原值。
步骤7:由式(11)判断是否陷入局部最优,若是,则对该个体变尺度混沌搜索,以利于跳出局部最优,转到步骤3。
步骤8:如不满足所设的终止条件,则转到步骤3,同时G的值自增1;否则输出最好个体值Xbest及最好适应度值[fXbest],算法结束。
4 实验及效果评价
5 结束语
本文首先在传统差分进化算法中引入Laplace变异算子和Logistic变尺度混沌搜索以提高其性能,然后将改进的差分进化算法应用于K-均值算法。实验结果表明:该文算法较好地克服了传统K-均值算法的缺点,具有较强的全局搜索能力,且收敛速度较快。
参考文献:
[1] MacQueen J. Some methods for classification and analysis of multi-variate observations[C]// Proc. of the 5th Berkeley Symposium on Mathematics Statistic Problem, 1967, 1: 281-297.
[2]王家耀,张雪萍,周海燕.一个用于空间聚类分析的遗传K-均值算法[J].计算机工程,2006,32(3):188-190.
[3] Michael Laszlo, Sumitra Mukherjee.A genetic algorithm that exchanges neighboring centers for k-means clustering[J]. Pattern Recognition Letters,2007,28(16):2359-2366.
[4] Omran M G H, Engelbrecht A P, Salman A. Dynamic clustering using particle swarm optimization with application in unsupervised image classification [J]. Proceedings of World Academy of Science, Engineering and Technology, 2005, 9(11): 199-204.
[5] Storn R, Price K.Differential evolution-a simple and efficient heuristic for global optimization over continuous spaces[J].Journal of Global Optimization, 1997, 11(4):341-359.
[6] Paterlini S , Krink T.High performance clustering with differential evolution[C]//Proc. of Congress on Evolutionary Computation,2004,2:2004-2011.
[7] Sudhakar G. Effective image clustering with differential evolution technique[J]. International Journal of Computer and Communication Technology,2010,2(1):11-19.
[8] Kuo-Tong Lan, Chun-Hsiung Lan.Notes on the distinction of Gaussian and Cauchy mutations[C]// Proc. of Eighth International Conference on Intelligent Systems Design and Applications,2008:272-277.
[9] 刘兴阳,毛力.基于Laplace分布变异的改进差分进化算法[J].计算机应用, 2011,29(10):2719-2722.
[10] 沈明明,毛力.融合K-调和均值的混沌粒子群聚类算法[J].计算机工程与应用, 2011,47(27):144-146.
雷雨话剧范文5
关键词 地理气候 聚类分析 判别分析
中图分类号:G642 文献标识码:A
0 引言
气候分类①是将全国气候按某种标准划分为若干类型的过程。决定各地气候物理条件的因素主要指决定各地地理位置的诸要素,如纬度、高度、海拔分布等。此外,海流、盛行风也可作为气候因素。
本文选取中国气象科学数据共享服务网②中的一组数据集,采用年平均气压、年平均气温、年极端最高气温等8个指标,用最短距离法对重庆—沙坪坝、福建—福州、安徽—安庆等24个城市进行聚类分析,确定了5类气候区域,并对各类区域的气候特点进行分析,得出划分结果与实际各城市气候特点相符的结论;再从这24个城市中选择几个城市重新进行判别分析,并利用判别分析对聚类分析的评价结果进行检验,最终确定5类气候分划。
1 聚类分析的基本原理及应用
1.1 聚类分析的基本原理
聚类分析是将数据所对应的研究对象进行分类的统计方法。其基本原理是依样品的属性或特征,用数学方法定量地确定样品间的亲疏关系,再按其亲疏程度划分成不同的类,得出能反映个体间亲疏关系的分类系统。
本文选用欧氏距离③系数作为统计量。其数学表达式为: =
其中为第个样本第个因子的值;为第个样本第个因子的值;为因子个数。
由于欧氏距离受量纲的影响,因此首先将数据标准化,公式为:
并采用最短距离法进行聚类分析,具体分析步骤④⑤如下:
(1)所有的样本点各自为一类。计算样本之间的距离,共有个,将计算结果排成距离矩阵:
(2)按最短距离逐步归类。从矩阵表中选择距离最短的两个样本归并为一类。再将其组成新的序列,继续计算新类同其他样本的距离。依上述方法重复计算,每一次都按距离最短的两个样本组合并成新类或归并到其他类,直到所有代表样本连成一个完整的分类系统。
(3)画出聚类分析图。
1.2 聚类分析的应用
按上述步骤得到的聚类结果及结果分析如下:
Ⅰ区:德钦。云南气候复杂,兼具低纬气候、季风气候、山原气候的特点,主要特征表现为:气候垂直变化明显;年温差小,日温差大;降水充沛,干湿分明,分布不均。
Ⅱ区:大柴旦。青海具有高原大陆性气候,光照充足;冬寒夏凉,暖季短暂,冷季漫长;雨量偏少,干湿季分明。
Ⅲ区:东方。海南最具热带海洋气候特色,全年暖热,雨量充沛,干湿季节明显,常年风力较大,气候资源多样。
Ⅳ区:成山头、大连、阿巴嘎旗、富锦、长春、阿勒泰、敦煌、盐池、卢氏、北京 、天津。以上地区位于长江以北,属于温带地区,具有温带海洋、温带季风、温带大陆等气候特点。
Ⅴ区:贵阳、鄂西、沙坪坝、安庆、东台、上海、广州、常德、福州、赣州。以上地区位于长江以南,普遍具有亚热带气候特点。
显然,这种聚类结果与现实中这些城市所属的地理气候大致是相同的,用聚类分析法将该组数据划分成5类是符合实际意义的。
2 判别分析的基本原理及应用
2.1 判别分析的基本原理
距离判别是最简单、直观的一种判别方法,由于在统计分析中有必要考虑随机变量方差的信息,因此本文选用马氏距离③。样本与均值为,方差为的总体的马氏距离为:
(, ) =
由于聚类分析结果为前三类各有一个城市,因此,本文只考虑Ⅳ区和Ⅴ区,用已聚类得到的这两类作为已知总体,选择其中的几个城市进行回代来验证聚类结果的可信度。因此,本文考虑两总体的距离判别问题,分两种情况讨论:两总体协方差阵相同不同的情况。
设两个总体为和,其均值向量分别为和,协方差阵分别为和,现在给一个样本,要判断来自哪一个总体。
(1)两个总体的协方差矩阵相同时,即≠,==
2.2 判别分析的应用
在聚类分析产生的第Ⅳ类和第Ⅴ类分别作为总体,来回判聚类结果中第Ⅳ类、第Ⅴ类的所有城市属于哪一类总体,这属于以上所介绍的两个总体的距离判别问题。
其判别分析结果为:未作为判别总体的北京和天津属于第Ⅳ类、赣州属于第Ⅴ类,而作为判别总体的那18个城市在回判过程中仍然还属于聚类过程中所属的那一类,这种判别结果与现实中这些城市所属的地理气候大致相同,同时还与聚类分析的结果一致,进一步验证了这8个指标变量的有效性。
3 结束语
通过上面的聚类分析和判别分析,根据各城市的主要指标,将某年全国主要城市的气候标准值数据划分为5类:Ⅰ Ⅴ类区。通过分析比较各类城市的气候指标,可将全国各省的气候类型进行划分,并可以对全国其他地区的气候类型进行推断,进一步做出该城市的大致的所属区域:长江以南或以北、温带或亚热带以及各种雨量或其他气候特征。因此,可用这些气候指标数据,对某一省市进行地理区域划分,通过该划分进一步对不同地理区域的农业发展、经济开发等各方面进行研究,推动我国各项事业的综合发展。
基金项目:国家自然科学基金资助项目(项目编号:41071247)
注释
① http:///view/746962.htm.
② http:///shishi/climate.jsp stprovid=%B1%B1%BE%A9.
③ 薛毅,陈立萍.统计建模与R软件[M].北京:清华大学出版社,2011.
雷雨话剧范文6
Abstract: Traditional automated attendance records manage system is too rigid for modern company, and it cannot give more humanized attendance results in view of workers’specific situations. Even in medium and small-sized enterprises, it will generate a large amount of attendance records every month. The traditional system just processes these information separately, so it will lose a lot of valuable information and also bring some difficulties in the future system maintenance. But clustering analysis technique will help to solve this problem. This method treads the whole records as a dataset and it will find some useful clusters. Then these clusters will help to classify the individual attendance records. And at the same time, this method will give the differences between the clustering results and individual records which will finally come to the more humanized attendance ranking.
关键词:聚类;分类;考勤系统
Key words: clustering;sorting;attendance system
中图分类号:TP274 文献标识码:A 文章编号:1006-4311(2015)35-0138-03
0 引言
考勤系统是现代企业管理中必不可少的一环,随着技术的发展,考勤的技术手段也在不断地进步,从最初的人工手动记录,转变为打卡式考勤,指纹式考勤,人脸识别式考勤等,上述的考勤方法又可归结为主动式考勤。随着RFID[1]技术的发展,员工可以不再主动地对自己的上下班进行记录,考勤设备利用感应技术主动地记录员工的上下班情况,这一类技术又可归结为被动考勤技术。
无论是主动考勤技术还是被动考勤技术,其记录的核心信息都只有两种,一种是员工的身份信息,另一种是这个身份信息下所对应的考勤记录序列。目前企业中所使用的考勤系统[1,2]其核心可分为两块:请假子系统与迟到早退判别子系统。迟到早退判别子系统的核心方法是利用系统中设定好的班制信息对员工的打卡信息进行判定,筛选出迟到早退的情况。这样的判定逻辑几乎被用在所有的考勤信息处理系统中,但是随着公司管理技术的发展,这种考勤模式所存在的问题也日渐凸显出来。
首先,这样的考勤系统是需要预先录入考勤规则的,也就是说相关人员需要配置班制信息,班制的增删修改都将影响系统的判定,并且在公司没有使用更先进的考勤设备技术前,从考勤设备中导出的数据往往是不带有班制信息的,这就给考勤系统的班制判断带来了更大的困难;其次,这种根据规则判断的考勤系统无法实现更为人性化的考勤管理,对于员工的迟到数据,系统没办法给出非量化的判断,例如,对于某员工的偶发性迟到与某员工的习惯性“踩点”迟到这两种情况,传统的判断方式无法区别,只能同样处罚两个员工的迟到行为,这样的管理方式有失公平,不够人性化。
对于中型企业而言,随着员工规模的增加,公司的考勤数据可以利用数据挖掘的方法进行非“量化”的处理,每一种班制的员工打卡记录都具有特定的模式,即使上班的人员数量不多,但是由于其具有时间上的重复性,依然可以形成某一班制的特性。目前尚没有文献研究尝试利用聚类技术对考勤系统进行改良,本文尝试利用某公司的真实考勤数据,利用聚类分析的方法实现一种新的考勤判定系统,降低考勤系统开发的复杂度,提高算法的通用性。
1 数据预处理
1.1 数据导入并格式化 打卡设备所导出的原始数据是非标准化的,导出的文件格式更适用于人工判断处理,其原始格式包含表标题、日期行、员工信息行、员工打卡记录行,如图1所示。
本文利用mysql数据库对数据进行格式化存储,利用PHP插件PHPEXCEL将原始xls文件导入到计算机中。
由于原始数据打卡记录中存储的是时间字符串序列,这样的字符串序列不利于后续数据的计算处理,故利用下述公式行映射转换:t=h・60+m
其中m为时间字符串中“:”后面的分钟数,h为前面的小时数,t为映射后的值,其实际含义为当天时刻对应的分钟数。导入后的数据如图2所示。
1.2 缺失冗余数据清洗 数据清洗是数据挖掘步骤中不可缺少的环节,其目的在于清除数据中错误的、不相关的数据,避免对后续分析产生影响[3]。
从打卡记录中可以发现,有些时间点的时间间隔非常短,前后相距不超过五分钟,此种情况常常是由于设备灵敏度或者人为遗忘打卡后重复打卡导致的数据冗余,为了避免这种情况对于数据准确性的影响,在数据清洗过程中,首先将时间间隔低于2的数据合并,并以第一个时间作为合并后的时间间隔,同时记录这一天内的打卡记录数。最终形成待挖掘数据集,如图3所示。
2 聚类分析
2.1 聚类模型选取 在选取聚类模型前,首先利用统计的方法对打卡时间点按每十分钟做一次统计,绘制图像如图4所示。
通过统计图不难发现,打卡记录在某些时间点上存在显著的聚集情况,同时在平时又呈现出分散的效果,利用统计的方法去发现其中的模式显得非常的困难。
聚类分析简称聚类(Clustering)[4],其作用是将数据对象划分成为多个簇,使得簇内部的相似度很高,而簇与簇之间的相似度很低,聚类被广泛应用于商务智能、图像识别等领域。聚类技术又被称为无监督的学习,与之对应的是有监督的学习―分类技术(Sorting)。
本文为了在对班制判断的时候避免需要提前录入班制的情况,故利用聚类技术对数据进行聚类,获取班制信息,并利用其与聚类“边界”的关系,计算出差异的权重值。
聚类算法大致可以分为层次聚类、划分聚类、密度聚类、网格聚类等几大类[5]。划分类聚类方法中k-means最为著名,但是k-means与许多聚类方法都有着一个问题―需要提前确定聚类个数[9],或者在试验中凭经验获取聚类参数k,通过实验,随着K取值的变化,分类结果也存在着显著的差异,当k=8时聚类结果如图5所示。
从聚类结果中可以看出,参数k对于聚类结果有着显著的影响,为了降低对程序开发及维护人员的工作,故本文不采用k-means聚类防范,而利用参数较为不敏感的密度聚类算法,对考勤时间序列模式进行聚类分析。
2.2 聚类算法说明 密度聚类(DBSCAN)[6,7]是一种能够发现任意形状类团的聚类方法,除此以外,相比划分类聚类方法,其无须指定类团数目参数,而是用领域半径与领域密度阈值来实现聚类。
密度聚类算法思路非常简单,任意选取一点,将其标记为“已访问”,并在其ε半径内寻找其它点,如果在ε半径内满足MinPts个点,则继续访问这些点,重复上述操作,如果不满足,则将该点置为离群点。并且DBSCAN聚类方法还可以通过利用PC设备上的GPU进行加速运算[10]。
DBSCAN算法在类团边缘存在一些边缘判断错位的问题[11],由于本文的真实数据集的特性,聚类边缘不容易出现两个类团交叉的现象,并且本文所使用的MinPts相对较小,也不容易产生这一问题。
本文采用的密度聚类参数为:MinPts=15,ε=50,MinPts的值是由一个班制一个人在一个月内至少有15次打卡记录得出的,ε的参数值是通过几轮实验最终确定的。
2.3 聚类结果处理 通过类团数据,利用类团数据计算类团中心并分析结果如图7所示。
其中类别1与类别2均非正常班制,在传统考勤系统中也并未明确给出该班制,而类别4为某员工自发加班所形成的班制也并未在班制表中出现。如表1。
3 离群点处理
3.1 离群点原因 虽然聚类数据包含大部分的打卡记录点,但是依然有一些数据点被孤立在簇以外形成离群点[8],离群点产生的原因有很多种:漏打卡,重复打卡,非正常上下班,数据错误等。
3.2 离群点处理 离群点产生的原因很多,甚至远远超过正常类团的数量,对于考勤记录中的离群点,可行的处理方式有三种:第一种,由于数据缺失重复导致的离群情况。这种情况可以利用特定个体当月的其它考勤记录,通过其它考勤记录的长度均值判断离群数据点的离群原因;第二种,依然利用聚类技术找出离群点的共性,一个月的离群数据可能不足以形成可解释的类团,但是随着时间的积累,离群点的数量也最终满足聚类的数量要求,形成新的类团;第三种,对于偶况的离群点,采用人工归纳的方式,形成离群库,为以后此类离群现象提供参照。
4 总结
通过数据实验可以得出,利用聚类方法能够较为准确地获得班制信息,甚至可以发现班制表中不存在但是在实践中会出现的班制情况,这也证明了在班制判断领域,聚类分析方法有着更为通用的表现。通过聚类的可视化,又发现了打卡时间的边界效应,从而解决了无法准确分辨时间点的上下班属性。利用数据挖掘的思路解决考勤判定这一问题有着传统方法无法实现的巨大优势。但是,利用这种方法也存在着一些不足,如无法准确获取迟到的具体时间,离群点的聚类效果不理想等问题。由于本次实验所采用的数据长度均为2,从某种成都上简化了模型的复杂度,对于真正投入系统运行,还需要结合真实数据进一步调整。
参考文献:
[1]唐勇.RFID身份识别考勤系统设计[D].电子科技大学,2013.
[2]陈英.员工考勤管理系统的设计与实现[D].南京邮电大学,2014.
[3]孟龙梅.数据挖掘过程中数据清洗的研究[J].通化师范学院学报,2015(4).
[4]韩家炜,堪博.数据挖掘:概念与技术[M].范明,孟小峰,译.机械工业出版社,2007.
[5]孙吉贵,刘杰,赵连宇.聚类算法研究[J].软件学报,2008,19(1):48-61.
[6]高N.基于密度聚类算法的改进方法研究[D].大连理工大学,2007.
[7]黄文.数据挖掘[M].电子工业出版社,2014.
[8]邓玉洁.基于聚类的离群点分析方法研究[D].重庆大学,2012.
[9]Dudik J M, Kurosu A, Coyle J L, et al. A comparative analysis of DBSCAN, K-means, and quadratic variation algorithms for automatic identification of swallows from swallowing accelerometry signals[J]. Computers in biology and medicine, 2015, 59: 10-18.