国庆的诗句范例6篇

前言:中文期刊网精心挑选了国庆的诗句范文供你参考和学习,希望我们的参考范文能激发你的文章创作灵感,欢迎阅读。

国庆的诗句

国庆的诗句范文1

1、《麻雀》,由李易峰、周冬雨、张鲁一、张若昀、阚清子、尹正、李小冉、王劲松联袂主演,主要讲述了陈深潜伏在汪伪特工总部首领毕忠良身边,以“麻雀”为代号委派工作,秘密传递信息,成功“窃取”汪伪政府“归零”计划的故事。阚清子饰演李小男,美艳迷人的天真少女。

2、《璀璨人生》,由何润东、李沁、阚清子、张勋杰等主演,讲述了四个年轻人因错位人生而展开的爱恨纠结。阚清子在剧中饰演叶琳,刁蛮任性、从不言败,从小被父母捧为掌上明珠。

3、《通天狄仁杰》,由任嘉伦、阚清子、焦俊艳、缪俊杰等人主演,讲述了唐高宗年间,深受河南黜陟使阎立本赏识的汴州判佐狄仁杰,屡破悬案,天下闻名的故事。阚清子饰演慕容清,从小受龙潜的训练,为了效忠于自己的组织,潜伏在狄仁杰身旁,为他的探案之路设置重重障碍。

(来源:文章屋网 )

国庆的诗句范文2

1、位于法国东南部,是一个濒临地中海的蓝色海岸,薰衣草的故乡。该地出产优质的葡萄酒;

2、普罗旺斯是一座“骑士之城”,也是中世纪骑士叙情诗的发源地,著名的城镇有马赛和艾克斯等;

3、普罗旺斯是世界闻名的薰衣草故乡,并出产优质葡萄酒。普罗旺斯还是欧洲的“骑士之城”,是中世纪重要文学体裁骑士抒情诗的发源地;

国庆的诗句范文3

一、关注课堂,研究课堂,让常态课走向优质

我校自2008年起,把减负的重点锁定在聚焦常态课堂教学上,努力处理好减负、提效、优质三者之间关系,不断提高教育教学质量。

第一、聚焦课堂,深入调研,发现教学的“真问题”。学校教导处深入各教研组调研,下班级听推门课,重点关注教师的常规教学行为和学科教学行为,对课堂教学进行评定,每半个学期形成学校常态课的评价报告。报告能针对调研中发现的共性问题,提出全校优化常态课教学的指导意见,由教导处督促学科教研组结合各年级的学情,指导教师改进课堂教学。

第二,多管齐下,提升教师专业素质,构建高效的课堂教学。高效课堂是学生快乐学习、自主学习、探究创新的课堂。提升教师的专业素质是构建高效课堂教学的基础。近几年来,我校采取了跟、帮、展、研、赛、训等方法多管齐下,极大地提升了教师的专业素质和教学水平,使常态课走向优质、高效。通过开展这种别具一格的教学活动,有力地引导、推动了教师在日常教育教学中不断地提升自身的学科专业素养和教育水平,使“常态课”教学走向优质、高效。

二、建立正确的教育教学监控机制,提高课堂教学质量

正确运用教学质量的检测工具和评价手段,是减轻小学生过重负担的一项重要措施。作为学校领导,关键是要引导教师转变对检测与评价的认识,改革测评内容与方法,为全面推进素质教育服务。

第一,要使教学检测和评价为实施素质教育服务。实现五个方面的转变。即:在测评的性质上,由对学生学习结果的评判转为对学生学习过程的监控;在测评的功能上,由对学生的排队、评比转为对学生的诊断、矫正和激励;在测评的标准上,由常模参照标准转为目标参照标准;在测评的内容上,由仅限于认知领域转向面向全面素质;在测评的评定上,由百分制转为等级制、鼓励性评语式等。

第二,认真做好教学的检测工作。首先应使检测内容严格控制在新课程标准规定的范围内,试题难度适中,不准出超出教学大纲范围的偏题、难题,坚持以考查学生的基础知识和基本技能为主,做到覆盖面广,层次多样,学校教导处、教研组必须严格依据新课标的标准和要求把好试卷关。其次要指导教师认真做好日常教学的评价工作,做到及时反馈、及时评价,发现问题,提出对策加以改进。

第三、积极改革评价方法,实施“多元化”评价,促进学生的全面发展。在实践中,可以从如下方面进行有益探索,为了促进学生良好学习品质的发展,可拓展测评领域,开展学习情感的测评试验,通过对学生的课堂学习表现、完成作业情况和日常学习状况等方面进行考查和评定。为了促进学生创新精神和实践能力的发展,可研究拓宽检测内容,设计一些开放性题目,如要求学生进行某种观察、专题调查、某项制作、某项实验等等。

国庆的诗句范文4

关键词:晋剧;《代国情》;艺术样式

在导演丛兆桓先生努力之下,晋剧中的古老曲目《代国情》以崭新的艺术样式展现在北京的舞台上,给观众带来了耳目一新的艺术效果。该剧不仅保留了晋剧中完美的舞台效果,而且运用了新式的艺术样式,符合当前观众的审美意识,体现了古老剧种中的时代精神。丛兆桓导演在民族戏曲的基础上,打造了载歌载舞的新型艺术样式,吸取了昆曲、音乐、戏剧、舞蹈等不同的艺术元素,取得了良好的艺术效果。

1 运用多种艺术手段打造新样式

丛兆桓导演在打造晋剧《代国情》运用了多种艺术手段,经过了多年的艺术潜思,使晋剧《代国情》演绎出了新的艺术样式。在对晋剧《代国情》进行总体构思的过程中,导演积极运用了多种艺术手段,提高了对舞台的驾驭能力。

为了冲破传统戏曲的窠臼,导演和舞蹈设计充分运用了民间舞蹈来对传统戏剧的程式进行冲击,从而改变了传统戏曲艺术的演出形式。晋剧《代国情》中的舞蹈也成为了其艺术样式中的一个亮点。

在晋剧《代国情》剧目中,舞蹈不再是烘托气氛和安排场面的点缀,而成为了剧情发展的一个重要组成部分。导演积极通过舞蹈来推动剧情的发展,塑造丰满立体的人物形象。例如通过代国军民共跳“驱傩舞”来表现古代代国人民直爽、勇猛的性格,营造了具有丰富的艺术意蕴的舞台效果。为了表现代王亲民、直爽、热情、剽悍的性格,导演特意安排了代王与代国军民共跳“驱傩舞”。在“抢亲舞”中,无忧、大王与代国军民共舞,表现一种平等、和谐的安乐场景。在这些舞蹈的烘托下,使人感受到代国是一片和谐、欢乐的桃源乐土。无忧与大王的共舞也是为之后大王与无忧结亲的情节做铺垫[1]。

通过这两段舞蹈可以看出,在晋剧《代国情》中,舞蹈已经不仅仅是烘托气氛的手段,更加成为了推动情节发展的重要艺术元素。在晋剧《代国情》中,通过舞蹈奠定了全剧的风格基调,并且没有使用戏曲化的舞蹈,而是保留了民间舞蹈的本来面目。民间舞蹈的鲜活气息,使整个晋剧《代国情》剧目有别于其他传统的戏曲艺术,体现出一种勃勃的生机。

在晋剧《代国情》剧目中,没有拘泥于一种舞蹈素材,而是通过意念、象征、抽象的艺术手法来创作舞蹈。例如冰河救公主这段舞蹈,为了表现公主的车驾陷入冰河之中的危机,以及大王率领群众来救护公主的紧急,该舞蹈通过人流的上下起伏和反向与正向的旋转,体现出一种热烈的舞蹈场景。最后大王将公主托出冰面,完成了整个艺术动作,具有良好的艺术效果[2]。

2 突破传统戏曲艺术的程式

晋剧《代国情》之所以能够取得成功,在于其能够突破传统艺术的桎梏,创造出新的艺术样式。我国的传统戏剧艺术具有非常精到的表演艺术和非常精细的行当分工,例如手眼身法步、唱念做打舞、生旦净末丑等。然而也正是由于这些原因,导致要对传统戏曲艺术进行改革和发展非常困难。特别是要对传统剧目进行改革,加入一定的时代精神就更难。大多数的戏改工作还没有有效的突破,传统戏曲舞台的时空观念和舞台形式大多数还是延续了以表演艺术或者演员为中心的表演程式。尽管有时也会在舞台上进行象征性的装饰,但是没有将演员的唱念表演和台上的象征性装饰结合起来。晋剧《代国情》的导演突破了传统戏曲艺术的桎梏,使用一个可分可合、可进可退的转台作为舞台,能够对戏剧中的时空转换进行灵活的处理,从而使舞台的调度能力得到了极大的增强,更容易烘托热烈的舞台气氛。转台的旋转能够有效的推动情节的发展,表现人物的性格。例如在公主陷入冰河之后,通过转台的旋转来表现大王率领人民群众紧急相救公主的热烈场面,在旋转的状态中表现人流的奔涌。在无忧和无恤两姐弟见面的场景中,姐弟两人各站在一个转台上,中间隔着一条鸿沟,形成一种针锋相对的局面,从而表现姐弟之情的破裂,达到一种隐喻的效果,姐弟两人站台之间的鸿沟正隐喻着其内心不可跨越的鸿沟,姐弟亲情也由此断裂。在最后无忧自杀的场景中,通过转台将无忧托上一个最高点,众百姓簇拥在无忧之下,既能够起到烘托和渲染的作用,又能够表现无忧作为代国夫人爱国爱民的情感,以及代国百姓对无忧这个代国王后的拥护和尊敬,对其自杀的悲愤,从而凸显最后无忧自杀场景的悲壮。

正所谓“他山之石,可以攻玉”,为了进一步对我国的传统戏曲艺术进行改革,还可以积极地借鉴不同的艺术样式,这就需要戏曲工作人员具备大胆创新的精神。在继承传统戏曲工作的基础上,也要积极求新求变,取得突破性的进展。中国绘画同样是我国古老的艺术门类,而中国画领域中出现西洋画之后,各路中国画画家积极吸收西洋画中的艺术成分,从而对传统绘画面貌进行了极大的改变,取得了突破性的进展。作为戏曲工作者也应该博采众长,在进行传统戏曲的改编工作中,也应该积极了解当前观众的审美观念,从而在传统戏曲剧目中加入更多的时代元素[3]。

晋剧《代国情》经过导演以及其他工作人员、演员多年来不懈的努力,取得了蚕蛹化蝶的艺术效果,无论是从思想高度、艺术理想还是表现形式方面,都对传统的晋剧艺术乃至戏曲艺术进行了突破和创新。可以说晋剧《代国情》的成功为我国戏曲艺术的改革与发展指出了一条崭新的道路。

3 结语

导演丛兆桓先生以及河北省蔚县晋剧团,经过多年来的酝酿,将晋剧《代国情》呈现在北京观众面前,晋剧《代国情》中融合了古乐民歌、舞蹈、舞剧,甚至运用了现代化的舞台技术,无论是艺术感染力还是艺术思想都达到了一个极高的高度,充分运用了多种艺术门类,突破了传统戏曲程式的桎梏,取得了极大的成功。

参考文献:

[1]刘巨才.荟精集萃成大观――山西省晋剧院建院55周年剧目创作回望[J].艺术评论,2014(01).

国庆的诗句范文5

【关键词】青春偶像剧;内地;回归现实;本土化

中图分类号:J99 文献标识码:A 文章编号:1006-0278(2014)07-287-02

关于青春偶像剧学术界是“百家争鸣”。大致来说,是由一群青春靓丽的男女演员出演的、以当前时代为背景的、以现实主义或浪漫主义为风格的关于年轻人故事的电视剧。

青春偶像剧必须是讲述生活在当时时代的年轻人的生活,可以是爱情、可以是他们成长过程中遭遇的痛苦和迷惘、可以关于他们激昂的热情和像“打不死的小强”的奋斗意志,可以是发生在都市中的青春故事,乡村也可以成为洋溢青春热情的大舞台;可以是十几岁人的校园青春,二十几岁人的放肆青春,当然也不能忽略三十几岁仍然默默为理想奋斗的人的无悔青春;出演电视剧的演员应该具有青春代表性,极具人格魅力加上优质的气质和外貌,精神和形象缺一不可的才可以称得上真正的偶像。时尚的主人公,穿着潮流服饰,从事白领类的时尚工作,生活休闲娱乐都最具有时代代表性,反映时展趋势。

一、夹缝中的内地偶像剧

最早的青春偶像剧是叫“时尚剧”、“趋势剧”,直到90年代将这种“时尚剧”改为偶像剧。在20世纪90年代中后期以《上海之恋》、《京港爱情线》的出现为标志,内地的青春偶像剧终于抓住了世纪末的尾巴得以出现。

《将爱情进行到底》以一群在上海大学校园的年轻人为对象,展现了他们在面对各种境遇,挣扎、痛苦和破茧成蝶的成长的人生历程。无论是内容还是形式都紧紧围绕青年人,他们的生活和爱情都是那么得独一无二,获得很高的观众收视率,被认为是中国内地青春偶像剧的开山之作。随着《将爱》的试水成功,内地的青春偶像剧处于探索时期。紧随其后出现的《北京爱情》、《真空爱情记录》以及带有偶像剧色彩和其他剧类型混合的《拿什么拯救你,我的爱人》、《玉观音》、《男才女貌》等,可都没有形成稳定的风格,明显带有模仿的痕迹。中国内地的青春偶像剧生存处境十分艰难,存在的问题也很多,但不能因此就否定这个时期的偶像剧,这些探索性的尝试在为成熟时期的青春偶像剧的发展打下了坚实的基础。

2005年之后,内地的青春偶像剧走向成熟期:《血色浪漫》、《好想好想谈恋爱》、《与青春有关的日子》、《奋斗》、《我的青春谁做主》、《北京爱情故事》、《北京青年》等等,这些电视剧开始有意识结合本土文化语境、紧密联系当前社会现实生活,拉近观众和故事人物的距离,取得不俗的成绩。《奋斗》有自己独特的创新意识:他展现的现实更真实,生活不再是简单啃老然后风花雪月,多得是理想与现实的激烈碰撞,理想在现实面前被打击得体无完肤,爱情也不再只有不真实的浪漫,争吵、分手、离婚都是那么紧扣现实。另外,京味十足的调侃语言也让整部剧显得轻松活泼。这些偶像剧可以称作青春励志偶像剧,“把目光敏锐而准确地聚焦在刚刚踏入社会的“80后”身上,让这一群体在大众传播渠道里集体亮相,展示他们为事业、为爱情、为生活而奋斗的情感体验和思维方式,极具浓烈的社会气息,十分贴近当代中国青年的现实生活,摆脱了某些偶像剧光有时尚感而无时代感的诟病。

二、现存问题

从引进日韩剧,从模仿开始,亦步亦趋,中国偶像剧也走过了将近二十多年,栉风沐雨,取得很大进步,但其中存在的问题也不能忽视,只有正视并找到解决办法才能引导中国的青春偶像剧在正确的道路上不断向前发展。总结起来,大致有如下的问题:

(一)题材狭窄,编剧薄弱

虽然内地偶像剧也在尽自己最大努力拓宽题材,但不能否认题材还是过于狭窄。题材狭窄,创新能力薄弱就会导致抄袭和粗制滥造。例如《将爱情进行到底》和《新闻小姐》就是日剧《爱情白皮书》和《新闻女郎》的仿制品,不反对模仿,可有时候“画虎不成反类犬”,没有学到日韩剧的精髓,不学习人家对情感的细腻把握、镜头语言传达的丰富信息、背景音乐的感人肺腑,就知道包装、场景豪奢,制造绚丽的梦幻效果,剧中的主人公有点像机器人,感情不足,做作有余。

题材狭窄的最直接的一个原因是剧本的缺少和优秀编剧人才的匮乏。目前中国内地的情况是“40岁的人编剧,描述他们想当然的20岁,把每个人都当成15岁”,写出来的东西当然不会让人爱看。另外,编剧人员的待遇不高也让人无法坚持下去,当爱好遭遇肚皮,还是填饱肚子比较重要。

(二)“空中楼阁”,脱离现实

当前中国青春偶像剧中,是都市里的高级白领,开着名车,进出酒吧、歌厅、高档会所,不用为基本的物质生活挣扎在社会底层,他们所要做的就是尽情放肆青春,并以“这才是青春”的冠冕堂皇理由招摇过活。这的确是年轻人的向往,可看多了一种“幸福是他们的,而我什么都没有”的空虚感就会油然而生,会觉认识到电视剧还是和自己生活相差遥远,这样“电视剧反映生活真实”的宗旨就没有达到,相反还起到不良的后果,偶像剧的后续发展也就没有了保障,这些阻碍偶像剧良性发展的绊脚石都应该引起足够的重视。

(三)表演做作,缺乏新鲜血液

国内众多的青春偶像剧中,男才女貌已经是题中之义,男女演员从头到脚散发着时代最前沿的时尚气息,可仔细观察就觉得他们的表演是“只见皮肤不见骨肉”,演员们就是剧本的奴隶,一切听剧本指挥。缺乏最真实的情感流露。另外,国内青春偶像剧不敢任用新人,翻来覆去都是那些熟悉的面孔。

三、内地青春偶像剧的突围策略

既然中国内地的青春偶像剧存在这样那样的问题,那么针对这些不足,重视并找到解决办法是当务之急,只有这样国内的偶像剧才会探索出真正属于自己的一条道路,只有形成自己的独特性,才能作为独特的个体屹立不倒。

(一)拓宽题材范围,丰富剧情

这里要重新界定青春偶像剧。很多导演就会简单认为青春偶像剧是给中学生到30岁的年龄段受众观看的,导演在制作时就会将这类人群作为思考对象,给这类观众制造美丽的虚幻梦想,甜蜜不切实际的浪漫,让很多人沉溺其中甚难清醒。偶像剧在播出时间安排上也是避开黄金时间段,基本上国内的中学生和二十几岁的年轻人这个时间基本上不会守候在电视机前。偶像剧如果积极拓宽题材,展现有关青春的多角维度,偶像剧的题材会大大充实,受众也不会只围囿于年轻一代,还会扩大观众群体,让更多的人在青春偶像剧中看到自己的现在、曾经或将来。

(二)回归现实,扎根本土

青春偶像剧不要再躺在制造甜蜜浪漫的爱情中不愿脱身,时间久了,必定会成为被温水煮的青蛙。国内的青春偶像剧大致有两种,即纯爱型和励志型。单一的只以虚幻的爱情作为主题很显然已经让观众产生审美疲劳内地偶像剧应该紧扣现实,反映符合时代的生活特征和精神面貌,以独特的视角,新奇的表现形式展现一些“接地气”的青春生活。

扎根本土,只有根植本国的现实土壤,才能找到与观众惺惺相惜的感人细节场景。让国内的偶像剧打上本民族的印记,成为国家文化的载体。要重新定位本土观众的接受心理,知道不同年龄段、不同地域、甚至不同性别的观看需求,不然一味移植他国的东西就有可能导致水土不服。

(三)培养人才,可持续发展

国内的青春偶像剧,剧中演员的年龄普遍偏大,这正反映内地偶像剧的一个重大问题:演员储备不足!这对偶像剧的未来发展几乎是致命的。男女演员在出演之前大部分都是已有名气,新人想第一次就出演主角几乎是天方夜谭。因此,积极培养新人,让内地偶像剧的演员不断流,大胆为新人创造机会。改善编剧人才的生存环境,提高待遇,促进优秀剧本的创作也不能忽视。

总的说来,中国内地的偶像剧正处在自身发展的十字路口,只要正视现存问题,敢于创新并解决,未来内地的偶像剧会走出彷徨期出现较大的质的飞跃。

参考文献:

[1]陈友军青春偶像剧中的“人”与“城”[N].中国艺术报,2013-1-21(006).

[2]朱天宇.中冲国当代青春偶像剧的文化解读[J].新闻传播,2010(7).

[3]杨晓林.论中国青春励志电视剧的创作――以《奋斗》为例[J].电影文学,2010(04).

[4]倪学礼,张璀.尴尬的中国青春偶像剧[N].文艺报,2001-10(03).

国庆的诗句范文6

关键词:大数据;数据质量;云清洗;Map-Reduce

中图分类号:TP391 文献标识号:A

Design and Implementation of Cloud Clean System on Big Data

HUANG Shenbin1 , WANG Haijie1 , ZHU Zhenhua2

(1 Network and Information Center, Harbin Institute of Technology, Harbin 150001, China;

2 School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001, China)

Abstract: Data cleaning is one of the central issues in big data. The paper describes a cloud clean system based on Hadoop for data cleaning. Using Map-Reduce model, the system detects and repairs various data quality problems in big data. The paper designs the system from the following features: (1) the support for cleaning multiple data quality problems in big data; (2) a visual tool for watching the status of big data cleaning process and tuning the parameters for data cleaning; (3) the friendly interface for data input and setting and cleaned data collection for big data. The cloud clean system is a promising system that provides efficient and effect data cleaning mechanism for big data in either files or database.

Keywords: Big Data; Data Quality; Cloud Clean; Map-Reduce

0 引 言

大数据已经广泛地应用于各个领域,其数据质量问题逐渐被人们所关注。这主要是由两方面的因素导致的:一方面大数据由海量的数据源获得,不同的数据来源使其更可能存在不一致冲突和不完整性;另一方面则是因为大数据频繁地变化且难以手动地获取。数据质量问题严重影响着大数据应用的效率,因为低质量数据上的分析和查询容易导致错误结果或者误导性的决策。数据清洗无疑能够提升大数据的利用效率。本文设计并实现了一个大数据云清洗系统,提取了数据清洗任务中的基本操作并基于Map-Reduce[1]计算框架实现相应的算法。该系统对多种数据清洗任务均有可观的性能。

1相关工作

虽然已经有很多数据清洗的技术和算法被相继提出,但却并非都适用于大数据上。主要原因如下。

首先,现有的数据清洗算法的效率并不能满足大数据的需求。并行计算是大数据算法的一个常用手段。然而,除了少数实体识别的算法[2-3]外,几乎没有其他的并行数据清洗算法获得提出。具有多种数据质量问题的大数据清洗工作的整体效率往往也都不高。

其次,现有的数据清洗系统[4-7]集中于数据质量的某一方面。NADEEF[8]支持各种形式的规则,但是缺少数据清洗领域的一些重要问题如缺值填充和冲突属性的真值发现等。对于具有多种数据质量问题的大数据而言,这往往是不够高效的。究其原因,一方面多种数据质量问题需要多个不同的系统来完成各自的数据清洗工作,从而导致清洗过程需要多次的导入和导出数据;另一方面,多个数据质量问题往往可能会共享相同的操作,如去除数据冗余[9]和流通数据发现[10]即都需要实体识别。如果不同的数据质量问题均由各自的清洗系统来完成,那么这些相同的操作便将多次执行,不利于全局的优化。

最后,现有的数据清洗系统常常需要设置参数,例如不一致性检测[11]的约束规则,实体识别[12]的阈值。对于小规模数据来说,这些规则能够通过人工的观测和理解来设置。然而对于大数据,仅靠观察来设置是不合理的,而对整个数据人工的遍历一遍更是不可能的。

2云清洗系统概述

清洗大数据的一个很直观、很自然的想法便是将云计算的技术应用其中,并将计算任务分布式地分发给多个节点以提高并行度。本文设计的大数据云清洗系统采用的便是这个思路,基于Map-Reduce封装实现了数据清洗领域的各类基本问题和清洗操作,包括实体识别、不一致性检测和修复、缺值填充和真值发现。

云清洗系统基于Hadoop来实现架构,利用Map-Reduce框架系统能够高效地控制硬件资源执行分布式计算。整个系统的数据流如图1所示。 图1 数据流

Fig.1 Data Flow

系统的数据是组织在分布式文件系统中。而输入数据则是通过文件或者数据库来提供,前者由用户上传,后者将是用户提供数据库的连接信息而由系统来访问。数据输入后存在于分布式文件系统中,而集群中节点的数据则通过分布式文件系统来访问。在清洗过程中,数据在mapper和reducer间传递,清洗结束后数据被送回到分布式文件系统。和输入类似,用户可以将清洗后的数据以文件的形式下载或者提供数据库连接信息再由系统输出到数据库中。

系统的结构如图2所示,其中包含一个Master和多个Slave节点。具体地,Master 节点接收数据清洗任务的输入数据、清洗计划以及参数设置。而清洗计划即是一个清洗操作序列,由系统提供的四种清洗的基本操作构成,这四种操作分别为实体识别、不一致性检测和修复、缺值填充和真值发现,并且四种操作可以重复选择。

图2 系统结构图

Fig.2 Architecture of the System

大数据的清洗任务,往往需要很长的时间。在清洗时,云清洗系统给用户提供一个接口来实时查看清洗的进度情况以及通过结果预览来调整算法参数。

3 数据清洗操作

本节将简要介绍四个数据清洗操作的功能以及基本Map-Reduce计算框架下的算法实现。

3.1 清洗操作

为了使清洗系统能够复用共享的操作以提升清洗的效率,研究提取了数据质量问题中的四类基本的操作,分别是实体识别、不一致性检测和修复、缺值填充和真值发现。对其概述如下

实体识别:识别元组是否代表现实世界的同一实体。

不一致性 检测和修复:检测违反规则集的元组,并修复数据使之符合规则。

缺值填充:根据其他完整的元组数据来填充元组的缺失属性值。

真值发现:选择代表同一实体的不同元组存在取值冲突时的真实取值。

这些操作涵盖了数据质量方面的大多数问题。本文的系统可以利用如上的基本操作并根据实际需求来组合形成新的数据清洗的复杂操作。

3.2 算法实现

这些操作对应的算法可在Map-Reduce框架下获得实现,再并行地在各个slave上运行。限于篇幅,此处仅给出其简要介绍。

(1)实体识别。该算法有两阶段。第一阶段,构建属性索引表,使得索引表中拥有相同属性值的数据对象对应于同一个实体。这一阶段由一轮Map-Reduce实现并完成。其中的Map阶段划分主要根据属性的取值来进行数据划分,而Reduce阶段则根据属性取值来对元组决定其分群。第二阶段,完成实体的识别,执行相似度连接查询生成相似实体对集合。该阶段由五轮Map-Reduce实现并完成。其中的第一轮分别统计每个实体及每个实体对的出现次数。第二轮和第三轮分别根据同时出现在实体对中的第一个实体和第二个进行聚集,生成相似实体对集合。稍后的第四轮和第五轮则根据阈值和计算的相似度,完成实体划分。

(2)不一致性检测和修复。该操作需要三轮Map-Reduce来实现并完成。第一轮实现了常量CFD的不一致性检测和修复。Map过程是根据约束规则对元组进行划分,并从规则中得到修复值,Reduce过程则根据得到的修复值对不一致的数据项进行相关修复。随后的两轮则完成FD和CFD的不一致性检测和修复。两者中,前一轮的Map过程依然是根据约束规则来划分元组,此过程检测的是变量CFD的违反,因此一个元组可能重复地划分;而Reduce过程则针对获得的分组以判断组内是否发生变量违反,制定修复方案。基于前一轮Reduce的输出,后一轮将以其作为输入,并按照计算的解决方案对不一致的数据项进行修复。Map阶段对每条元组的修复方案进行整合。Reduce阶段将继续根据整合后的修复方案对不一致的数据项进行修复。

(3)缺值填充。研究根据不同的属性取值设计了多种不同的算法类型来实现缺值填充。对于连续变量值的缺失而言,就是利用其他的属性取值通过回归来实现缺值填充。此处的回归包含三个子过程,分别是:标准化、排序和回归,每一个操作均对应一轮的Map-Reduce。具体来说,标准化阶段将所有属性进行标准化,并计算各个属性的最小值,构成最小值向量。排序则对所有元组的最小值向量计算相对大小并排序。回归将完成回归并填充缺失值。离散变量值缺失,则通过分类来实现缺值填充。分类也同样包含三个子过程,分别是:概率计算、参数聚集和缺值填充,每个操作也都对应一轮Map-Reduce。具体地,概率计算过程需要计算每个特征属性的条件概率和分类属性的边缘概率,生成概率表。参数聚集则根据概率表来聚集缺值填充需要的参数。而缺值填充主要根据聚集的参数来完成填充。

(4)真值发现。真值发现的基本框架是贝叶斯模型。该框架迭代地计算真值和数据源的相关性。每次迭代均需要两轮的Map-Reduce。第一轮通过数据源的可靠性来计算真值,map将根据属性与实体序号的匹配来生成属性值与数据源的可靠性的对应,reduce阶段则通过投票来确定真值。第二轮通过上一轮得到的真值来重新评估数据源的可靠性。两轮一直迭代执行,直至收敛。

4用户功能接口