前言:中文期刊网精心挑选了雷雨话剧范文供你参考和学习,希望我们的参考范文能激发你的文章创作灵感,欢迎阅读。
雷雨话剧范文1
关键词:新课改;语文实践;教学总结;教学形态
新课程改革沸沸扬扬,但落实到具体教学中时就气力衰弱,和以前的教学模式并无二致,其精髓却被浮泛在课堂40分钟的教学流程中,只是被时髦地利用了一下而已,学生的“自主、合作、探究”活动只不过10分钟而已,时间一到,自然终止。我常想,课堂40分钟的教学时间,学生还未来得及体会概念和问题,如何能实现“自主、合作、探究”的深刻意义,所以课堂的这种活动只能以浮泛作结,只是流于形式的时髦应用而已。
到底什么样的教学形态才会实现教学的真正价值和意义,才会是真正意义上的“自主、合作、探究”呢?先谈谈我对现代话剧《雷雨》的教学思考和设计。
现代话剧是一种文学形态,是集合了诸多元素在内的舞台文学艺术,即是一种通过舞台语言来深刻反映生活的文学形式。它通过演员在舞台出色的语言方式呈现生活主题,让人们直观地从视觉和听觉上了解人物形象、体会生活和感悟生活。我们对话剧教学的方向是明朗的,即让学生深入了解这种文学形式。因此,据教学行为可行性的原则,探究的方向可以定出两个,一是剧本的创作,一是舞台表演。
在话剧《雷雨》的教学思考中,有两点可以作为突破点,一是语文必修四只给出了话剧的第二幕剧本,二是它只是文字剧本并非直观的舞台表演。对于第一条,可以利用学生的好奇心,让他们自己推想其他三幕的情节,并且尝试写作;对于第二条,可以利用学生强烈的表演欲望,让他们尝试排演话剧。这两项工作是学习话剧的核心工作,扎实有效地做完这两项,话剧教学的目标也就会完成得很好。
以下是我通过实践后做出的以《雷雨》教学为出发点的话剧单元教学设计:
(一)新课程的教学思考:(1)强调学生的课堂主体地位;(2)激发兴趣点并培养自主操作与创新能力。
(二)新课标与综合性研究学习的要求:(1)力图使学生对中外话剧有基本的了解;(2)引导学生观察语言、文学和中外文化现象;(3)培养发现问题与研讨探究的能力。
(三)基本学习内容(前期工作):(1)第二幕文本阅读;(2)第三、四幕影视欣赏;(3)引导至第一幕的教学中,课本未选章节。
(四)从参与讨论到思考创作:(1)分组(4~6人/组),主持1人,执笔1人;(2)讨论基本内容为第一幕舞台布景在周家还是鲁家,怎么开场,安排哪些人物,交代哪些内容,矛盾怎么体现,情节如何发展,怎样才更加合理;(3)形成第一幕剧本草稿并且试排。
(五)组间交流讨论,组内修改,分组表演:(1)交流本组创作时遇到的问题,组员出现的分歧,如何解决的,其他组提出建议;(2)表演,讨论,修改并形成正稿;(3)阅读先生第一幕剧本,对比自己的剧本,看看谁距大师更近一步。
(六)学生可能会有的收获(教学预期):(1)基本了解话剧的表现形式;(2)学会合理安排人物以及情节,会处理人物矛盾和他们之间的复杂关系;(3)懂得话剧表演词的巨大作用;(4)在自主学习中学会思考问题和处理问题;(5)懂得话剧在舞台表演上是受时间和空间的限制,懂得合理和集中反映矛盾的必须性和必要性。
话剧《雷雨》的教学计划用8课时,但实际上达到10课时,虽然未按计划完成,但我却收到了意想不到的成果。
其一,同学们表现出了前所未有的兴趣和热情。从分组到作计划,之后分工再到研讨,交流完毕到修改,虽然个别组因争相主持和发言闹了小矛盾,但最终都完整地呈现了各自的成果,我作为教学组织者只是不断地参与各组讨论并进行观察。
雷雨话剧范文2
关键词:划分方法;聚类算法;研究与应用
随着我国的数学、计算机科学以及经济学学科的快速发展,聚类算法得到广泛使用,加快了数据处理与分析的速度,很大程度上促进了这些学科的发展。而且聚类算法的应用领域已经涉及生活和生产的方方面面,它是将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程。这有很多具体应用的实例,比如说在商业方面,聚类分析方法可以帮助销售工作者找到不同的客户群,并且通过聚类分析定的模式来展现客户群的差异性。实际出真知,聚类分析方法对于市场的整体分析和数据处理等有着极其重要的作用,而且可以根据对客户群特点的分析准确把握客户的消费心理,这样一来能够促使厂商发现新的商机,开发新型的产业和地区市场,并且能够将这些信息整合起恚辉诒O招幸担聚类分析的应用更是在很大程度上解放的人力,很多数据的收集、处理变得极其方便,主要是根据地区的保险业的平均水平来划分的,以平均值为划分的界限,再结合局部地区的经济发展速度、人均工资水平以及对保险业的态度和购买程度进行分组;再者便是在近些年来最为流行的贸易方式――电子商务。电子商务顾名思义用的就是计算机,其本身在数据处理上就占有一定的优势,利用聚类分析的方法使得电子商务中的交易数据和人群划分更加明显,交易人群特点的掌握有利于电商事业的发展,也为更近一步的商务交流提供了建设性的意见。
1划分方法的基本概念及其常用的方法
划分方法(PAM:Partitioning method)的定义是首先创建k个划分,k为要创建的划分个数。常用的划分方法有:k-means,k-medics,CLARA(Clustering Large Application),CLARANS(Clus-tering Large Application based upon Randomized Searchl.FCM。其中以k-means的使用最为普通,严格来说k--means属于非层次聚类法的一种,下面我们来看一下它的整个执行过程,一共分为两个部分,分别是初始化,循环。所谓初始化就是指选择或是人为指定某些记录作为凝聚点,但是要注意的一点就是按就近原则进行初始化的选择,而且要注意记录中心的数据,最后根据记录数据重新进行这一过程。一直不断地重复这一过程,直到凝聚点位置收敛为止。这种方法一般具有节省运算时间等特点。
2具体的运算过程
2.1数据预处理
数据预处理是指我们在对数据进行正式的处理之前,要先对数据的整体进行一下估量,主要从数据的数量、范围、程度和既定标准这几方面入手,进行规划分类和简单的预测分析,然后再就每一个方面对整体数据的影响进行估量式判断,建立起一个预测模式。当然在我们有了明确的数据处理和分析结果时要将这一预测模式清楚,避免结果混淆。
2.2定义距离函数
聚类的产生是由于多个领域和数据之间存在着相似性,正是由于事物之间相似性的存在,才促生了聚类的算法。但是这些相似性的存在也极容易造成事物之间的混淆。所以给这些数据设置一个定义函数是非常有必要的。函数的设置是为了避免误差,所以在设置相似距离时一定要把握好度量,保持数据点之间的平衡,从而保证整个运算过程的准确性。
2.3聚类或分组
数据对象的分类要根据数据的特点、适应的环境或是发挥的作用等来进行分类,而且由于分类时采用的方法不同或是人为因素的干扰,总会产生不同的数据分组。划分方法一般从初始划分和最优化一个聚类标准开始。Crisp Clustering,它的每一个数据都属于单独的类;Fuzzy Clustering,它的每个数据可能在任何一个类中,Crisp Clustering和Fuzzy Clustering是划分方法的两个主要技术,划分方法聚类方法具有自身的法则优势,它可以找到在不同的分类组之间的相似性,甚至可以分析出在同一组内分类数据之间存在的差异性,我们常说数据的处理和分析要科学,要辩证的看到事物的两面性。这种方法本身就是一种辩证的方法,所以用它来分析和处理数据最合适不过了。
3聚类方法的主要应用研究
聚类算法在实际应用过程中涉及多个行业发展。从商业、生物、地理、保险行业、因特网行业以及电子商务行业等都所有涉猎。
3.1商业
在商业市场的发展过程中,往往对于市场未知风险的预测是企业可持续发展的一个重要问题。如果企业能够有效的预测未来的市场风险,探究潜在的消费者动向,那么往往能够取得显著的利益。因此在当前阶段,聚类算法能够为企业研究消费者行为、探究潜在市场发展、选择实验室市场等奠定坚实的理论数据基础。
3.2生物
在生物行业发展过程中,由于现代化科学技术的发展,在进行生物学的研究过程中,基因数据库的容量大大提升,通过聚类算法能够有效的根据基因数据库的特点进行划分,使人们能够对种群的固有特征有显著的认识。
3.3保险行业
当前世界保险行业发展速度较快,而不同的行业所需要的保险种类略有区别。聚类算法能够根据不同的行业发展类型,制定相应的保险措施,为保险更好地发挥作用效果奠定基础。
3.4因特网及电子商务
当前阶段,电子文库的发展规模逐渐扩大,聚类算法电子文库的信息修复以及信息分类上发挥了显著的作用效果。在进行信息特征搜索的过程中,聚类算法能够根据相应的关键词检测整篇文章,大大降低了工作量。
其次当前物联网时代的到来,物联网对人们的影响愈加扩大。而通过聚类算法的数据分析和统计等,能够在最短的时间内根据消费者的消费记录以及浏览行为确定消费者特征,为电子商务的更好更快发展提供有效的保障。
雷雨话剧范文3
关键词:聚类分析;相似度;共享最近邻;k-平均算法;数据挖掘
中图分类号:F224.0 文献标志码:A 文章编号:1673-291X(2010)05-0238-03
引言
随着信息技术的不断发展,数据库应用的范围、规模和深度也在不断的扩大,这样就导致积累了大量的数据,而人们所关心的往往是这些数据背后所隐藏的信息。目前,商业界普遍使用的条形码和科学研究领域利用先进的数据测量仪器所测出的数据,这些数据都是海量的。面对这样庞大的数据库,人们迫切的需要一种有效的技术从这些庞大的数据中智能、自动地提取出来有价值的知识或是信息,这就是所谓的数据挖掘技术。而聚类分析正是数据挖掘所采用的关键技术之一,它被用于发现隐藏在大量数据中的分组和令人感兴趣的数据模式。迄今为止,人们提出了许多聚类算法,所有这些算法都试图解决大规模数据的聚类问题。
一、聚类的基本概念
1.聚类的定义
所谓聚类[1],就是将一个数据集合分成若干个称为簇或是类别的子集,每个簇中的数据都是具有很高的相似度,而簇之间具有较低的相似度。
簇的定义[2]:由于不同的应用所分析的具体数据具有不同的特征,因此聚类的目标簇具有不同的的形式和定义。简单的来讲,簇就是聚类分析结果中由相似的数据对象所组成的一个个的分组就成为簇,同一簇中的点具有很高的相似性,不同簇中的点具有很高的相异性。
2.聚类的一般步骤
聚类分析一般的主要步骤如下:
(1)特征选择。首先必须适当的选择特征,尽可能多的包含任务所关心的信息。在选择特征中,信息的多余减少和最小化是主要的目的。
(2)相似性度量。用于定量度量两个特征向量之间的相似度。一个简单的度量如欧氏距离经常被用来反应两个特征向量之间的非相似度。
(3)聚类算法。已经选择了合适的相似性度量,这步涉及到选择特定的聚类算法,用于揭示数据集中隐藏的数据结构。
(4)结果验证。一旦用聚类算法得到了结果,就需要验证其正确性。
(5)结果的判定。在许多情况下,应用领域的专家必须用其他实验数据和分析判定聚类结果,最后得出可被人理解的正确的结论。
3.聚类的典型要求
一种好的健壮的聚类方法应当具有可伸缩性、具有处理不同类型属性的能力、能够发现任意形状的簇、先验知识最小化、具有处理噪声数据的能力、对输入数据的顺序不敏感、具有处理高维数据的能力、基于约束的聚类、具有可解释性和可用性。
二、典型的聚类方法
1.基于划分的方法
给定一个包含n个数据对象的数据库,以及要生成簇的数目k,一个基于划分的聚类算法将数据对象组织为k个划分(k
k-平均算法(k-means)首先随机选取k个数据对象,每个对象代表一个簇的平均值或中心点。其余的对象按照它们与这些平均值之间的距离,被赋予与之最相近的簇。然后,算法对每个新簇重新计算其平均值。这个过程一直迭代直到一个准则函数收敛为止。典型的准则函数是方差准则函数,定义为:E=xeCx=m
其中x代表数据空间中给定的对象,mi是簇Ci的平均值(x和mi可以是任意维的向量)。该准则函数试图使结果簇内部尽可能地紧凑并相互分离。
k-中心算法(k-medoids)不采用簇中对象的平均值,而是采用簇中心点(medoid)作为参照点。对象划分的原则仍与k-平均算法一样是基于最小化所有对象与其参照点之间的相异度之和。该算法首先为每个类随机选择一个代表对象,剩余的对象根据其与代表对象的距离分配到最近的一个类中, 然后反复地用非代表对象替代代表对象, 以改进聚类的质量。
2.基于层次的方法
层次聚类法(hierarchicalcl ustering methods)是一种广泛应用的一种经典方法[4]。这种方法的基本思想是:先将n个样本各自看成一类(簇),然后规定样本之间的距离和类与类之间的距离。最初每个样本自成一类,类与类之间的距离即为样本之间的距离。然后选择距离最小的一对合并为新类,接着计算新类与其他类之间的距离,再合并间距最小的两个类,依次迭代,直到所有的样本都归于一类。具体分为两种:凝聚的(agglomerative)层次聚类和分裂的(divisive)层次聚类。
凝聚的层次聚类是采用自底向上的策略,首先将每个对象作为一个簇,然后合并这些原子簇为越来越大的簇,直到所有的对象都在一个簇中,或者某个终止条件被满足。绝大多数层次聚类方法属于这一类,只是区别在簇间的相似度定义上。
分裂的层次聚类采用与凝聚的层次聚类相反的策略,首先将所有对象置于一个簇中,然后逐渐细分为越来越小的簇,直到每个对象自成一个簇,或达到某个终止条件。例如,达到了预期的簇的数量,或者两个最近的簇之间的距离超过了某个阀值。
3.基于密度的方法
DBSCAN (Density-Based Spatial Clustering of Applications with Noise)是一种典型的基于密度的聚类算法。[5]该算法的基本思想是:一个类能够被其中的任意一个核心对象所确定,为了发现一个类,DBSCAN先从数据集D中找到任意一对象P,并查找数据集D中以Eps (半径)和MinPts (最小密度阀值)为参数的从对象P密度可达的所有对象。如果P是核心对象,也就是说半径为Eps的P的邻域中包含的对象数不少于MinPts个,则根据算法可以找到一个关于参数Eps和MinPts的类,如果P是一个边界点,即半径为Eps的P的邻域包含的对象数目小于MinPts个,则没有对象从P密度可达,P被暂时标注为噪声点,然后DBSCAN 处理数据集D中的下一个对象,该算法的时间复杂度为O (NlogN) (N是数据集中的数据对象数目)。
4.基于网格的方法
基于网格的(grid-based)聚类方法采用一个多分辨率的网格数据结构。它将空间量化为有限数目的单元,这些单元形成了网格结构,所有的聚类操作都在网格上进行。这种方法的主要优点是处理速度快,其处理时间独立于数据对象的数目,仅依赖于量化空间中每一维上的单元数目。基于网格的代表性算法有STING和CLIQUE等。
5.基于模型的方法
基于模型的聚类方法试图优化给定的数据和某些数据模型之间的适应性。[6]这类方法经常是基于这样的假设,即数据是根据潜在的概率分布生成的。基于模型的方法主要包括统计学类方法和神经网络类方法。
三、基于几何光滑度的案例聚类方法
由于上述算法都存在一些局限性,一般只能发现凸型的类或是球型的类,而对于凹形或是任意形状的类或是具有高度稀疏特性的类就无能为力,因此,本文提出基于SNN相似度的类似于几何中自由曲线曲面拼接光滑度计算(即连接点处若干阶左右导数一致)的聚类算法,即基于几何光滑度的光滑拼接聚类算法,算法本身可由光滑度参数来调节。
1.SNN相似度
数据对象之间相似的程度取决于它们共享最近邻的数量。任一数据对象的k个最近邻组成 一个最近邻列表,两个对象之间的共享最近邻为它们最近邻列表的交集。特殊地,当两个对象的k最近邻列表完全一致时,它们的相似程度最大。SNN相似度就是它们共享的近邻个数。计算SNN相似度可利用下述算法。
2.相关定义
如前所述,SNN相似度就是它们共享的最近邻个数。通过算法1我们能够计算出所有样本间的SNN相似度并组成相似度图。随后我们可以应用到基于SNN的聚类算法中,但是一般的基于SNN的聚类算法如JP聚类[7]和基于SNN密度聚类[8]都存在一个共同的缺点:一个样本集是分裂成两个类还是保持不变,可能依赖于一条链,这使它们显得有些脆弱。例如,如果有3个样本x1,x2,x3,x1和x2有一个很高的SNN相似度,x2和x3也有一个很高的SNN相似度,但x1和x3的SNN相似度却为0,这时应用JP聚类算法或基于SNN密度聚类算法,x1,x2,x3一般会归到一类中去。这显然不是很好的聚类。因为直观上看,如果这3个样本是一类,那么x1和x3也应该有一个较高的SNN相似度,而不至于很快降为0。这类似于几何中计算参数曲线拼接问题,如果两条参数曲线在拼接点满足越高阶的导数连续性,拼接后的曲线就被认为越光滑,在直观上也觉得它更象一条曲线了。因此,我们根据几何中的这种现象提出基于SNN相似度的n阶光滑度的定义。在此基础上再提出光滑拼接聚类算法。
定义1:如果有一条长链,由2n+1个样本点x-n,…,x-1,x0,x1,…,xn组成。假设链可表示为:x-n?圮x-n+1?圮…?圮x-1?圮x0?圮x1?圮…?圮xn-1?圮xn,其中,每个样本点和其后的样本点之间的SNN相似度是这两个样本点组成的单链强度(大于0)。我们把这个长链看作是一个短链x-n?圮x-n+1?圮…?圮x-1?圮x0与另一个短链x0?圮x1?圮…?圮xn-1?圮xn在x0处的拼接。如果x-1与x1的SNN相似度不为0,则称原长链在x0处是1阶光滑的;否则称为0阶光滑的;如果x-2,x-1,x1,x2的两两SNN相似度都不为0,则称原长链在x0处是2阶光滑的;一直下去,如果有x-n,…,x-1,x1,…,xn两两之间SNN相似度都不为0,则称原长链在x0处是n阶光滑的。
定义2:如果有一条长链,由n+1个样本点x0,x1,…,xn组成。假设链可表示为:x0?圮x1?圮…?圮xn-1?圮xn,其中,每个样本点和其后的样本点之间的SNN相似度是这两个样本点组成的单链强度(大于0)。我们把这个长链看作是一个单链x0?圮x1与另一个短链x1?圮…?圮xn-1?圮xn在x1处的拼接。如果x0与x2的SNN相似度不为0,则称原长链在x1处是1阶单侧光滑的;否则称为0阶单侧光滑的;如果x0,x2的SNN相似度也不为0,则称原长链在x1处是2阶单侧光滑的;一直下去,如果有x0 , x1,…,xn两两之间SNN相似度都不为0,则称原长链在x1处是n阶单侧光滑的。
3.算法设计
通过算法1我们可以从数据集{xi1≤i≤m}中计算出任意两个样本间的SNN相似度,并组成一个m×m阶的SNN相似度矩阵。从此矩阵中可以找出Cm2个单链,其中,每个单链的强度为两个样本点的SNN相似度。如果两个短链中含有相同的样本点,我们可以考虑把它们合并成一条链,并检查这种拼接在拼接点是否满足s阶光滑(如果两条都是单链,则s只能取1),如果满足,就合并;否则,它们就不拼接而维持原状。由于拼接需要考虑光滑度,因此这种拼接聚类不仅仅依赖于单链的强度,s值如果过大,会导致一些单链无法拼接。这将会导致类别数目过多。假设已有一个连通图,而一条单链要在连通图的一个节点处拼接,从这个节点出发在连通图中可以找到若干条短链,这个单链要与这些短链在拼接点满足一个指定的光滑度。因为拼接要有确定的先后顺序,以保持实验结果的稳定,所以我们预先将单链集中的单链按强度(即SNN值)由大到小排序。这样先拼接的单链的强度大,但光滑度要求低;后参加拼接的单链的强度(同一类内而言)越来越小,但光滑度要求越来越高。由此可知,这种拼接是强度和光滑度之间互补的。这显然是合理的,因为如果一个样本点要加入一个类中,如果和类中的某个样本没有很大的SNN相似度,那么它至少应该和这个类中的很多样本有一个共享最近邻(SNN值为1)。由于算法内含强度和光滑度互补的运行机制,因而算法本身不需要设置参数。在拼接过程中,满足条件就进行拼接,但在第k层节点拼接之间,我们可以删除之前的第k-1层节点的单链,因为这些节点已经属于一类,无需参加拼接,这样单链集容量就能迅速降低,加快算法。
具体的基于SNN相似度的光滑拼接聚类算法可以描述如下:
四、实验与分析
本次试验我们采用数值型数据进行试验,这样可以简化操作,便于进行数据进行处理,突出我们所采用的聚类算法的有效性。
1.数据集
实验所采用的数据集来源于国家从2004―2007年全国总共发生的洪涝灾害,总共由100条数据点组成。在这个数据集中,我们可以将取值密集但相同的变量去掉,并将一些非数值文字型的不影响实验结果的变量去掉,最终每个数据点都是一个24维的向量。
2.实验结果分析
对于算法1中我们将最近邻参数k取值为常数6,算法2中光滑度参数s取定值为1。我们采用算法2进行聚类分析,在结果中我们发现类别编号1、3、5、7四个类是算法所发现的类,这些类中数据点相对集中,其他还有少量数据点的类别均看作是噪声。并且发现四级响应级别数据点相对比较集中。并发现那些被看做是噪声的数据点一般都是属于个别年份离类别较远的数据点。
聚类分析是数据挖掘中的一种非常实用的技术,它能够发现大量数据背后所隐藏的数据分布模式与关联规则,以便提供给我们有价值的信息。目前聚类算法已经应用到许多领域,但是仍然存在诸多缺陷。今后,聚类算法将在可伸缩性、容错性、易用性、处理高维数据等方面加以提高和改进,以便能够更好地应用于更多的领域,解决其他方法不能够解决的问题。
参考文献:
[1] Han JiaWei.Kamber数据挖掘概念与技术[M].北京: 机械工业出版社, 2001.
[2] 邵峰晶,于忠清. 数据挖掘――原理与算法[M].北京: 中国水利水电出版社, 2003.
[3] 王实,高文. 数据挖掘中的聚类算法[J].计算机科学,2007, (4): 42-45.
[4] 武森,高学东. 高维稀疏聚类知识发现[M]. 北京: 冶金工业出版社, 2003.
[5] 周水庚,周傲英,曹晶. 基于数据分区的DBSCAN算法[J]. 计算机研究与发展, 2000,(10): 1153-1159.
[6] Guha, S, R. Rastogi, and K Shim, Rock. A robust clustering algorithm for categorical attributes. Information Systems, 2000,25(5): 345-366.
雷雨话剧范文4
关键词:聚类分析 人口区划 数据挖掘
中图分类号:C92 文献标识码:A 文章编号:1007-3973(2013)005-184-03
1 前言
随着中国信息化进程的加速,各行各业每天都产生大量的数据,如何充分利用这些数据,更好地为人类生产和生活更好地服务?数据挖掘是一种不错的方法,数据挖掘又称数据库中的知识发现,是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。知识发现过程由以下三个阶段组成:(1)数据准备;(2)数据挖掘;(3)结果表达和解释。
聚类分析(Cluster Analysis)是一种数据挖掘方法,是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法,它们讨论的对象是大量的样品或数据,要求能合理按各自的特性来进行合理的分类,没有任何模式可供参考或依循,即是在没有先验知识的情况下进行的。目前在文献中存在大量的聚类算法,算法的选择取决于数据的类型、聚类的目的和应用。大体上聚类分析主要的算法可以分为:(1)划分方法;(2)层次的方法;(3)基于密度的方法;(4)基于网格的方法;(5)基于模型的方法。如果聚类分析被用作描述或者探查的工具,可以对同样的数据尝试多种算法,以发现数据可能揭示的结果。聚类方法广泛应用于各行各业。
人口是基础数据,是制定各项政策的依据。人口区划根据自然、经济、人口特征及相应的指标体系,对全国人口分布状况分区划片,并提出各区人口发展合理目标及相应的人口政策和措施,为全国和分区人口发展规划提供科学依据,并为国民经济计划和经济区划服务。20世纪80年代初,中国学者胡焕庸根据自然地理特征、人口密度、人口自然增长、人口迁移、耕地、粮食产量、劳动力等指标,将中国划分为人口区,即:黄河下游区,辽吉黑区,长江中下游区,东南沿海区,晋陕甘宁区,川黔滇区,蒙新区,青藏区。随着中国经济的迅猛发展人口分布呈现出许多新的特征,为了适应新的趋势,有必要重新定位和再研究。
2 数据与方法
2.1 数据来源与指标选择
本研究的数据采用2011年全国31个省及直辖市的统计数据,人口数据来源于《中国人口统计年鉴》,各省人均可支配收入来源于经济信息网。因研究的是各省的人口及经济指标聚类,研究区域很大,信息粒度较大,因此选择了有代表性的综合性人口数据指标,人口(总量)、人口密度、人口自然增长率、第六次人口普查数据、人均可支配收入、人均GDP、迁移数据。其中人口自然增长率为(人口出生率-人口死亡率)/人口均值*1000%,迁移数据=第六次人口普查数据-人口(常住人口)。各省及直辖市的基础数据如表1所示。
2.2 聚类分析原理
3.2 二维聚类
以人均GDP和人口自然增长率进行聚类,数据进行标准化处理后,得到的结果有五类,如表5如示。
从以上聚类结果看,第一类是沿海地区,经济较为发达,人口增长正常;而第二类内陆地区,人均GDP较低,人口自然增长优率较为正常;第三类为东北三省,人均GDP中等,人口增长率低;第四类为人均GDP高,为三个直辖市;第五类为人均GDP低,而且人口增长快的区域。
3.3 多维聚类
多维聚类时,采用K均值法进行聚类,得到的聚类结果如表6。
根据多维数据聚类,共分为六类,其中第一类属于人口少,但较为富裕的北京和上海,而第六类为天津,自成一类,主要是流动人口及可支配收入较第一类差一些;第四类为经济发达的广东、江苏和浙江;第二类为经济较好,人均收入中等,流动人口较少的地区;第五类为经济欠发达,人口保持较高增长率的省份;第三类则是大部分的内陆地区。
4 结论与讨论
本文通过采用聚类分析的手段分析全国31个省市人口的发展规律,揭示了不同省市在人口发展之间的相似性和差异性,研究得出合理聚类结果,为政府和各职能部门在制定人口及各项地方性经济发展政策提供依据。
聚类分析结果表明,一维、二维和多维聚类分析方法有各自的典型特征有用途。一维聚类分析简洁地表明各省人口自然分布规律,可为国家对不同各省份的人口政策提供科学依据;二维聚类分析直接反应了不同省份人口与经济等指标的相互关系,如论文中对人均GDP和人口自然增长率的二维聚类分析,分类结果合理的体现了当前我国各省经济发展与人口特征。多维聚类分析方法适用于对各省综合分类,论文中采用了与人口有关的5个指标进行的多维聚类分析,分类结果有较强的综合性,与当前各省公众认识的综合分类一致。
解决了传统的经验分类方法导致的客观性缺乏等问题。为人口的分类管理实践提供了理论依据和技术手段。
(本论文为院级大学生实践创新训练计划项目2011XYCXXL14资助项目)
参考文献:
[1] Jiawei Han,Micheline Kambe.数据挖掘概念与技术[M].北京:机械工业出版社,2012.
[2] 陈志泊.数据仓库与数据挖[M].北京:清华大学出版社,2009.
[3] 陆学艺.可持续发展实验区发展历程回顾与建议[J].中国人口资源与环境,2007,17(3):1-2.
[4] 张文彤,董伟.SPSS统计分析高级教程[M].北京:高等教育出版社,2004:236-237.
雷雨话剧范文5
关键词 地理气候 聚类分析 判别分析
中图分类号:G642 文献标识码:A
0 引言
气候分类①是将全国气候按某种标准划分为若干类型的过程。决定各地气候物理条件的因素主要指决定各地地理位置的诸要素,如纬度、高度、海拔分布等。此外,海流、盛行风也可作为气候因素。
本文选取中国气象科学数据共享服务网②中的一组数据集,采用年平均气压、年平均气温、年极端最高气温等8个指标,用最短距离法对重庆—沙坪坝、福建—福州、安徽—安庆等24个城市进行聚类分析,确定了5类气候区域,并对各类区域的气候特点进行分析,得出划分结果与实际各城市气候特点相符的结论;再从这24个城市中选择几个城市重新进行判别分析,并利用判别分析对聚类分析的评价结果进行检验,最终确定5类气候分划。
1 聚类分析的基本原理及应用
1.1 聚类分析的基本原理
聚类分析是将数据所对应的研究对象进行分类的统计方法。其基本原理是依样品的属性或特征,用数学方法定量地确定样品间的亲疏关系,再按其亲疏程度划分成不同的类,得出能反映个体间亲疏关系的分类系统。
本文选用欧氏距离③系数作为统计量。其数学表达式为: =
其中为第个样本第个因子的值;为第个样本第个因子的值;为因子个数。
由于欧氏距离受量纲的影响,因此首先将数据标准化,公式为:
并采用最短距离法进行聚类分析,具体分析步骤④⑤如下:
(1)所有的样本点各自为一类。计算样本之间的距离,共有个,将计算结果排成距离矩阵:
(2)按最短距离逐步归类。从矩阵表中选择距离最短的两个样本归并为一类。再将其组成新的序列,继续计算新类同其他样本的距离。依上述方法重复计算,每一次都按距离最短的两个样本组合并成新类或归并到其他类,直到所有代表样本连成一个完整的分类系统。
(3)画出聚类分析图。
1.2 聚类分析的应用
按上述步骤得到的聚类结果及结果分析如下:
Ⅰ区:德钦。云南气候复杂,兼具低纬气候、季风气候、山原气候的特点,主要特征表现为:气候垂直变化明显;年温差小,日温差大;降水充沛,干湿分明,分布不均。
Ⅱ区:大柴旦。青海具有高原大陆性气候,光照充足;冬寒夏凉,暖季短暂,冷季漫长;雨量偏少,干湿季分明。
Ⅲ区:东方。海南最具热带海洋气候特色,全年暖热,雨量充沛,干湿季节明显,常年风力较大,气候资源多样。
Ⅳ区:成山头、大连、阿巴嘎旗、富锦、长春、阿勒泰、敦煌、盐池、卢氏、北京 、天津。以上地区位于长江以北,属于温带地区,具有温带海洋、温带季风、温带大陆等气候特点。
Ⅴ区:贵阳、鄂西、沙坪坝、安庆、东台、上海、广州、常德、福州、赣州。以上地区位于长江以南,普遍具有亚热带气候特点。
显然,这种聚类结果与现实中这些城市所属的地理气候大致是相同的,用聚类分析法将该组数据划分成5类是符合实际意义的。
2 判别分析的基本原理及应用
2.1 判别分析的基本原理
距离判别是最简单、直观的一种判别方法,由于在统计分析中有必要考虑随机变量方差的信息,因此本文选用马氏距离③。样本与均值为,方差为的总体的马氏距离为:
(, ) =
由于聚类分析结果为前三类各有一个城市,因此,本文只考虑Ⅳ区和Ⅴ区,用已聚类得到的这两类作为已知总体,选择其中的几个城市进行回代来验证聚类结果的可信度。因此,本文考虑两总体的距离判别问题,分两种情况讨论:两总体协方差阵相同不同的情况。
设两个总体为和,其均值向量分别为和,协方差阵分别为和,现在给一个样本,要判断来自哪一个总体。
(1)两个总体的协方差矩阵相同时,即≠,==
2.2 判别分析的应用
在聚类分析产生的第Ⅳ类和第Ⅴ类分别作为总体,来回判聚类结果中第Ⅳ类、第Ⅴ类的所有城市属于哪一类总体,这属于以上所介绍的两个总体的距离判别问题。
其判别分析结果为:未作为判别总体的北京和天津属于第Ⅳ类、赣州属于第Ⅴ类,而作为判别总体的那18个城市在回判过程中仍然还属于聚类过程中所属的那一类,这种判别结果与现实中这些城市所属的地理气候大致相同,同时还与聚类分析的结果一致,进一步验证了这8个指标变量的有效性。
3 结束语
通过上面的聚类分析和判别分析,根据各城市的主要指标,将某年全国主要城市的气候标准值数据划分为5类:Ⅰ Ⅴ类区。通过分析比较各类城市的气候指标,可将全国各省的气候类型进行划分,并可以对全国其他地区的气候类型进行推断,进一步做出该城市的大致的所属区域:长江以南或以北、温带或亚热带以及各种雨量或其他气候特征。因此,可用这些气候指标数据,对某一省市进行地理区域划分,通过该划分进一步对不同地理区域的农业发展、经济开发等各方面进行研究,推动我国各项事业的综合发展。
基金项目:国家自然科学基金资助项目(项目编号:41071247)
注释
① http:///view/746962.htm.
② http:///shishi/climate.jsp stprovid=%B1%B1%BE%A9.
③ 薛毅,陈立萍.统计建模与R软件[M].北京:清华大学出版社,2011.
雷雨话剧范文6
【关键词】钢构件;C-均值聚类算法;优化设计
0.引言
据国家发改委2012年底公布的数据显示,至12年11月全国粗钢产量达到66013万吨,同比增长2.9%,钢材产量87041万吨,增长7.2%,连年攀高的钢材产量现已稳居世界第一。自我国进入WTO后,建筑钢材品种更为丰富,价格更为合理。目前北京、天津、山东、上海、广东等地已兴建了大量底层、多层、高层钢结构试点示范工程,体现了钢结构建筑在我国发展的良好势头[1]。
如何快速、经济、合理地进行钢结构体系的分析设计,一直以来都是土木工程领域中的热点问题。在我国,目前主要是设计人员凭借自己的工程实践经验,依靠现有的钢结构设计软件作为载体,采取重复设计的方法完成数字模型的分析计算。专用的空间网格结构CAD软件中一般都具有图形前处理、结构的分析计算、优化设计、自动生成施工图等功能较为完备的模块,且大多软件都会采用归并系数法对构件进行分组归并优化。然而实际工程结构中,归并对象的数值分布是任意的,有时甚至是杂乱无章的,归并系数法以“距离”相近原则对特征对象机械的分组归并很难找到实际的,复杂结构模型中各构件的“最优满意解” [2]。
1.C-均值模糊聚类算法
C-均值模糊聚类算法(简称FCM算法)依据客观事物间的特征、亲疏程度和相似性,通过建立模糊相似关系对客观事物进行科学、有效的分类,此分类方法以模糊数学理论为基础,能够实现待归并对象的非等距区间分割。
定义聚类目标函数:J(u,v)=ud聚类目标函数表示各类中样本点到聚类中心的加权距离平方之和。其中ξ∈(1,+∞)为加权指数,样本Xi对第k聚类的隶属度uik为权值,d=x-v为样本点Xi到聚类中心Vk的欧氏距离。
⑦若某个分组中的样本集聚度为0,剔除此集聚度为0的聚类中心,返回重新进行3~6步的计算,直至没有冗余聚类的出现,计算停止。
⑧对每个分组中的p个样本进行规格化设计,得到各个分组的规格化归并值。
聚类归并能够合理减少样本的分组数目,进而降低工程结构的加工设计成本,实现工程结构的综合成本趋于最优的结构优化设计目标。
3.案例分析
工程1(参见图1)为济南市某商业服务中心,共三层,主要功能为办公和商业。主体为钢框架结构体系,钢柱和钢梁均采用Q345BF级钢材,现浇钢筋混凝土楼板。采用C-均值模糊聚类算法对初始模型中的钢梁和钢柱等主要承重构件进行分组归并后,构件截面尺寸均有所增大,钢材用量与初始模型相比增幅为0.9%。然而聚类归并后,梁柱构件的截面种类均有所减少,降低了工程结构的复杂程度,可达到优化数学模型的分析目标。
工程2(参见图2)为某钢网架结构屋盖,网架长向支承跨度为65.51m,短向为47.30m,覆盖面积约为3000m2。采用C-均值聚类算法优化模型杆件后,部分杆件的截面尺寸有所增加,用钢量与初始模型相比增幅为1.59%。然而聚类归并后,杆件种类减少3种(优化前后结果参见表1),同样达到了降低结构模型复杂程度的结构优化设计目标。
4.结束语
本文以优化钢结构模型,降低工程成本为研究背景,结合模糊数学中的C-均值模糊聚类算法给出了钢构件分组归并优化的实现方案,并通过案例证明了方法的可行性。 [科]
【参考文献】
[1]陈禄如.我国钢结构住宅发展概况[J].钢结构,2007(7).