前言:中文期刊网精心挑选了计算机视觉基本原理范文供你参考和学习,希望我们的参考范文能激发你的文章创作灵感,欢迎阅读。
计算机视觉基本原理范文1
关键词:计算机视觉;定标方法;应用特点
中图分类号:TP319文献标识码:A文章编号:16727800(2012)007014902
作者简介:许志雄(1968-),男,浙江绍兴人,江汉石油钻头股份有限公司工程师,研究方向为计算机多媒体。
0引言
计算机技术的应用在诸多领域占据了主要位置,并得到了人们的极大重视。在此形势下,摄像机的高清晰度亦成为了人们追逐的目标,而在计算机视觉中的定标方法有各种不同的处理方式,从而为摄像机的发展提供了一个绝好的机会。由此,计算机视觉中的摄像机定标方法成为当今世界摄像机研究领域里至关重要的一个方面,以摄像机得到的图像信息作为出发点来计算三维空间中自然场景的几何信息成为计算机视觉的基本任务之一,并且它的应用特点也得到了人们的密切关注。
1摄像机视觉投影原理
透镜成像的原理利用了光的折射现象,而摄像机的视觉投影原理和透镜的成像原理相差无几,只不过在一些细节上进行了相应的改变,使成像更加清晰,以更好地满足人们的需求。摄像机视觉投影原理就是利用镜头的光学原理进行视觉成像,而其中又有许多理论支持,包含镜头与焦距和视角。焦距是指镜头的焦点之间的距离,对于摄像机而言,就是指从镜头的中心位置到摄像管,也可以说是成像的位置之间的距离就是摄像机镜头的焦距,只有调整好了这两者之间的距离,才能保证摄像机的摄像效果,这也是保证摄像机正常工作的首要任务。视角要受到镜头焦距的限制,由镜头焦距对摄像的大小情况而决定,摄影师们就是通过对焦距的不断变换来改变对任务的造型,从而改变人们的视觉效果。对于拍摄相同距离的目标而言,镜头焦距越大,摄像的水平视角就会变得越窄,这样带来的后果就是拍摄到的目标的范围就越小,使得拍摄效果大打折扣,从而给摄像机带来不利的使用效益。因此,必须在两者达到一个较好的组合效果之时,才能够充分发挥摄像机的作用,并将摄像艺术发挥到极致。由此可见,计算机视觉中的摄像机定标方法将会给摄像机的拍摄效果带来巨大的转变。
2计算机视觉中的摄像机定标方法
2.1三维定标法
在人们的平常思维中,凡是物体的影像必定是三维的,本文的理论研究也同样基于这样的想法。在讨论单幅图像的设计标定之时,我们所追求的理论基础就是需要摄像机的定标物是人们所追求的那种三维的效果,在此基础上再进行相关的理论研究,以达到相得益彰的效果。在此过程中,首先要准确定位定标物上一些比较重要的点的三维坐标,这样才能够为后来的工作提供方便;然后在与定标物相对应的成像上找到相应的点的位置,这是至关重要的一步,这也决定了后面成像的具体设计方法;最后在那些比较重要的点的图像上标出其具体的三维坐标,达到定标物的实际成像效果图,这样就可以完全解决摄像机的成像问题了。这种定标方法的基本原理就是充分分析定标物的三维信息,同时与它的具体成像位置相关联,在这两者之间形成一种具体的相对应关系。由此我们可以充分利用计算机的快速运算,实现摄像的功能,并适时进行程序功能改进,优化定标物参数的获取方法,从而达到增加摄像机清晰度的目标。
2.2平面定标法
与上面的定标方法相对立的一种方法就是多幅图像的设计标定。在这样的时代背景下,人们的要求应尽可能得到满足,因而理论研究者会在这个方面下足功夫,弄懂这里面的个中玄机,利用多幅图像对平面的定标物来进行物体的标定工作,以达到摄像机定标的目的。这样的平面定标方法就是充分利用平面物体的运动特性,在它和摄像机之间找到一个平衡点,观察两者的相对运动,这样的定标方法也给拍摄运动中的物体带来了生机。此方法在实施之余也会带给人们不一样的感受,让人们充分体会到摄像的魅力。当然这种考虑运动的平面定标法会受到特征点的增多的影响,随着点的不断增加,定标情况就会越来越好,定标物的精度也会不断提高,于是在定标物相同的前提下,平面定标法自然就可以从定标物上获得更多的数据信息,为准确对定标物进行定位测量提供了更多的依据。因此,这种方法的效果要比前面的方法好很多,得到推广的力度也会大大增加,所得到的经济效益也会增加,设备的成本在原来的基础上还有降低的趋势。所以,理论研究者的研究领域就会逐渐向这一方面进行转变。
2.3两步定标法
有了前面的研究成果作支撑,摄像机定标方法的进一步研究就会显得异常容易,人们的进一步要求也会得到满足,可谓一举两得。理论研究者们在有了丰富的理论和实践基础之后,利用直接线性的定标方法进行摄像机参数的进一步优化提高,通过透视原理来修改以前的参数,然后将修正的参数进行初始值的确认,把它们作为现在研究阶段的起点,在这样的起点之上综合考虑各种外界因素,利用最优化的计算机算法进行摄像机成像程序的改进,把原来的程序进行升级处理,使得定标物的精确度得到进一步的提高,这就是我们所提到的两步定标法。它的基本原理其实很简单,只不过是充分利用了原有的理论,并进行了一定的创新而已。但就是这样的创新步伐的迈出,给计算机视觉中的摄像机定标方法带来了新的生机,也给摄像机镜头的优化带来了很多指导方法。在图像中心到图像点的距离保持不变的前提下,参数的数量会显著减少,这样不仅节省了材料的用量,而且还进一步提高了摄像机的摄像清晰度,有效弥补了以前清晰度不高的缺点。这样一来,摄像机的成像效果大大改进,于是才有了现代摄像机的高清效果,确实让人们享受到了科技带来的福音。
3计算机视觉中的摄像机定标方法的应用特点
3.1建立于主动视觉上的自我标定
由于计算机视觉中摄像机定标方法的不断推广,一些计算机技术在摄像机的制作过程中得到了较好的应用。但是在这之中必不可少地存在一些制作人员或设计人员的主观因素,这样摄像机的标定方法中就会形成形色各异的特点,而且彼此之间可能会出现较大的不同,特别是在主动视觉上的自我标定。在主动视觉中,我们所用到的摄像机可以在一个被控制的平台上被人们固定,利用计算机的高运算能力,计算机可以把平台上所出现的参数精确地读出来,我们只需要利用控制摄像机的运转顺序,让摄像机作一定的周期运动,就可以在这个过程中得到更多的图像,然后再利用所成的图像和固定的摄像机的运动参数来确定摄像机的运动情况。这种自我标定方法比较简单,但是必须为人们提供精确控制摄像机运动的平台,这种以主观意识为主的标定特点强化了个人的主观能动性,让人们更加易于接受。
3.2进行有层次划分的逐步标定
近年来,人们对摄像技术的理论研究已经日趋成熟,并根据自己的意愿进行相关的研究工作,把自己的想法融入到摄像机的设计中,真正做到有层次的逐步标定,把所要的标定物以逐个击破的方式实现有层次的程序算法,从而让人们在逻辑上能够有所认识,并且易于接受,从而达到有层次划分的逐步标定的目的。分层逐步标定法已为标定研究领域中普遍认同的方法之一,在实际的应用中逐渐取代了直接标定的方法。因为进行有层次划分的逐步标定是符合人们的想法的,而且这种方法的特点是以射影标定作为基础,以某一幅图像作为基准图像,进行其它图像的射影对齐工作,从而将摄相机中成像未知参数的数量减少,更易于为人们所接受。可以说,进行有层次划分的逐步标定是人们在实践中得出的一套符合大势所趋的标定方法,为世人所推崇。
4结语
综上所述,计算机视觉中摄像机定标方法在人们的不断认识中得以应用和推广,在时代的不断进步中逐渐向前发展。同时,摄像机标定方法的应用特点也大相径庭,各有千秋,从而实现百家争鸣的态势,进一步推动计算机视觉中的摄像机研究工作的向前发展。
参考文献:
计算机视觉基本原理范文2
【关键词】课程 计算机视觉 图像检索
1.课程设置、建设与改革自述
1.1 综合基础与应用,精选教研内容
从专业学位教育的高层次应用型人才培养目标出发,我以学生专业应用能力的培养作为教研的重点,同时,考虑到“计算机视觉”是一门数学要求较高、理论性较强的专业基础课程。课程的基础理论教研十分重要,我在规划教案时,综合安排基础理论与应用实践的教研内容。
1.2 强调学生应用能力,优化教研方法
将启发式教研方法融入到整个教研过程中,将课堂讲授的重点放在问题由来、概念形成、研究思路与方法上,并通过介绍人工智能与计算机视觉学科交叉中出现的最新研究与应用。把新理念、新思路、新方法和新问题引入课堂,调动学生学习的积极性和主动性,拓宽他们视野和思路。
通过较为熟悉的分析,“计算机视觉”课程中的教研方法较为新颖,使他们从一开始就建立了所学理论与实际工程控制问题的联系。
按“计算机视觉”的基础理论和知识内容分环节来实施教研,每个环节以实际工程问题开始,以理论学习为基础,各教研环节之间既是工程问题的系统化深入,也是理论知识体系的循序推进。
按“计算机视觉”的基础理论和知识内容分环节来实施教研。每个环节,以理论学习为基础,以提出和解决实际实验案例中的识别问题为结束,各教研环节之间既是三维重建问题的系统化深入,也是理论知识体系的循序推进。
他们都十分赞同我以强调学生自主学习和应用能力为目的的启发式和交互式教研方法。尤其是以论文报告和答辩形式提交作业。强调了理论和应用的结合。每一次的作业贯穿整个教研环节,使他们对问题的发现、理解和解决成为一个逐渐明确、细化和深入的过程,因此。虽然作业要求较高、工作量较大,但做起来并不会感到压力和困难。同时,他们大多之前没有撰写科研论文和报告的经历,通过作业也可以使他们在这方面的能力得到锻炼和提高,最后考试结业。
与此同时。研究生们也畅谈了他们对课程教研中一些问题的看法.研究生们十分重视专业应用能力和实际动手能力的培养与提高。也非常看重扎实理论基础的必要性,都认为理论学习与专业应用能力培养应该没有矛盾,但在有限的2年时间内,如何实现两者的全面提高,他们大多存在疑虑。同时,他们也认为目前大多数的课程教研具有明显的理论或实践的偏向性,缺乏科学合理的平衡。
针对我在教研中所提出的案例和问题,学生们反映,尽管十分熟悉,但对问题的本质和要求仍只是停留在理性认识上。无法建立与实际对象的对应关系。另外,他们提出,案例仅从单一课程角度讲授,在有限课时内难以从多学科的角度介绍滤波,三维重建,运动恢复,图像检索案例,虽然是实际科研项目,但课堂不可能展示整体实物,学生缺乏工业现场的实际感受。使得学生对案例的整体理解难以跳出课堂的思维界域。
针对此,我计划在加强现代化教育手段方面进行一些建设与探索,努力向学生提供信息容量大、表现形式丰富的综合性辅助认识手段。考虑到“计算机视觉”通常需要运用计算机技术解决工程问题,我们将在以后教研中,增加计算机辅助教研的功能。如利用Matlab工具对所学内容及实际视觉问题进行可视化仿真演示。我们也将用虚拟仪器工具搭建案例的虚拟系统,试图通过这样的虚拟系统,向学生提供有利于启发思维的灵活的认识与实践环境。增强学生的感性认识;同时,尽管采用了多媒体教研。计划在以后的教案中增加更多的现场视频材料以及图形和图像资料,使学生更容易理解和记忆,增强抽象理论的可接受性。这些工作都需要我们在教研和科研工作之余投入大量的热情和精力。
2.教研手段(课程建设中积极营造数字化、信息化环境和外语教研环境,网络教研和网上教研资源的开发与建设情况)
2.1本课程的主要特色
体现机器视觉与机器听觉融合。①机器视觉:图像处理、图像与视频压缩、模式识别和机器学习、生物特征识别、三维视觉信息处理。②机器听觉:听觉计算模型、语音信号处理、口语信息处理。此外还在同济大学开设计算机视觉,和图像处理方面课程,该课程构成本课程基础, 及对大量应用实例介绍设计方法,系统性能,并对结果进行祥细分析和点评。学生通过听课可以跟随教师本人了解和掌握计算机视听觉。充分领略数字技术用于语音通信这一广阔的领域神奇魅力。脑、 机接口的研究有广阔的应用前景, 正成为脑科学、康复工程、神经工程及人机交互( puter interface, HCI) 领域的一个研究热点。
2.2本课程的建设总目标和成果
以后开展图像,图形,语音处理,多媒体的内容的检索,三维景物物体的重建,自然语言理解的研究方向:视觉与听觉的生理学和心理学基础,从生理与心理学的角度探索视觉与听觉的感觉和知觉机理,为视觉与听觉信息处理提供基本理论和方法,完成同济大学研究生精品课程建设。以近几年为研究生讲授“计算机视觉”课程讲义的电子教案为基础,结合开发科研项目,并参考相关文献资料和最新动态编写计算机视听觉电子教案,和教材。
机器视觉:图像处理、图像与视频压缩、模式识别和机器学习、生物特征识别、三维视觉信息处理。
机器听觉:听觉计算模型、语音信号处理、口语信息处理、自然语言处理、智能人机交互。
2.3 本课程的建设分年度目标和步骤
教材内容:针孔摄像机,辐射学术语;局部影调模型,点,线和面光源,光度学体视;颜色;线性滤波器,平滑抑制噪音,边缘检测;纹理,用滤波器输出表示统计量,纹理量,纹理合成,由纹理推断形状;基本的多视角几何,立体视觉;用聚类实现分割;拟合直线与曲线,用最大似然率进行拟合,鲁棒性;隐变量与EM;用卡尔曼滤波来跟踪,数据相关;摄象机标定;使用特征对应和摄像机标定的基于模型的视觉;使用分类器的模版匹配;基于关系的匹配;在数字图书馆中检索图像,基于图像的绘制。
准备离散时间语音信号处理的原理,介绍语音信号处理研究及其应用方面的最新动态,其中包括语音处理,语音时频分析以及非线性声学语音产生模型,而这些讲授内容在以往任何一本语音信号处理教科书都不曾提及,深入介绍以下内容:语音编码,语音增强,语音综合,说话人识别,语音信号恢本复,动态范围压缩语音信号处理基础,语音的时域的分析语音信号频域分析,语音信号线性预测分析,矢量量化,语音编码,语音合成,语音增强,说话人识别。
3.构建研究实践型模式,探究研究生指导
通过研究生指导模式的学习,两种指导方式之一是对传统面对面的与基于网络两种指导方式的混合。师生之间定期与不定期面对面的交流对于保证研究生指导质量提高有着重要关系。互联网突破时空限制为高校师生提供一个开放的、共享、个性化、多维交互的教与学的平台。我提供优秀研究资源,学生也可以通过网络共享研究资源。师生都可以Web对于优化研究资源的共享、促进师生之间的社会互有着重要作用使得研究生指导模式充分发挥面对面指导。研究生指导主要注重科研素养培养。研究生培养根本目标发展能力。课程学习对于系统提高研究生对专业关心课程学习状况必要,要为学生提供学习方法指导与建议,要鼓励学生结合课程学习进行相关讨论。
基于自主与协作的探究性学习是研究生学习的主体地位,发挥作用。我在教研中培养研究生发现问题、分析问题、解决问题的能力正是为了支持研究目标在于获得亲身参与研究探究体验:培养“教研模式中”包括个人理解专业研究领域相关问题的内涵与特征。旨在使学生能够切实掌握专业与研究领域所涉及基本原理与能够利用这些原理与方法分析确定方案实施、“know“know 是相互交织相互作用的层面,主要是为了增强指导以便根据不同层包括若干个问题常常需投人较多的精力与时间。应该安排较长时间且要充分利用网络技术平台支持。提升研究质量有效地避免传统指导误区。在指导时过于强调研究生所获取学术成果而忽视指导过程体现在两方面:一目标评价标准单一往往给研究生层面:①面向研究生个体的“个别指导”;②面向小组集中:③自主调控评价,必须与教师、同伴、专家进行交流、协作才有可能真正地提高效率,实现学习目标,培养学团队意识,其次要帮助研略,在各层面都有明确的目标相应指导内容,并要注意这三个层面整合。使之过程得到全面发展。养成科学态度和科学道德。“科研能力发展、轻综合素质培养”,研究生导师不但应该是研究生的指导者。指导教师可以按“科研项目一要问题一具体任务”的层次。以教师的、助学促学”尽可使每个研究生都能达到预期培养目标。评价要更关注总结性评价”与“过程性评价”工具以丰富研究生指导过程中教研交互的教育学中社会互。传统环境下的社会互往往是面对面的交互。网络平台可以利用构建社会网络支持社会交互。强调的研究科研成果而深层次交流方式不同指导目标、不同指导层次整合,指导教师角色转变,变革评价方式,丰富指导教师来促进“自主一协作”探究学习,对研究生“混、他评”与“自混评关注教研评价的。”教研模式下网络技术与内涵表现在:①利用技术促进教研资源的整合,优化教研资源管理,教研资源共享,促进师生与教研内容的交互;②利用Web工具,有效地整合现实交互空间虚拟交互空间另外还地加速或加强人际联系,帮助师生了解探究式应用实践探索。
研究生是否发表了高水平的科研成果,研究生入学初期,以Web的应用为核心的互联网络不但为高校师生的交流提供了新的沟通与互动方式。以独特高校师生的思维方式生存方式发生了系列改变。也成为高校师生教研与生活中的重要信息工具为研究生指导提供了丰富的资源与多维立体环源。网络平台也用于共享、深化面对面交流中所总结形成相关观点与资料。要求其他每位学生都至少要提一个问题所提出问题进行进一步的讨论。了解专业研究领域的基本问题、核心问题与前沿问题研究生自己在调研基础上提出研究进行独立自主的探究。所以除了关注在专业领域内研究能力的发展之外还要注意教育科研能力的培养引导学关注“专业发展”。 用于规划了解学生的已有基础,以帮助后期制定更为合理个别指导计划:第二,通过召开定期的讨论会、师生个别交流,包括两种类型:①旨在提高新生适应研究生学习与生活的适应性:②面向科研任务的研究小组。面向任务方式冲击着高校师思维方式与文化理念,非常重视网络平台研究指导中的应用,建立了向团队公用资源平台教研主要采用研究式教研方法, 要求研究生自学其基本原理, 然后利用实际数据,由导师提供或从期刊文献中获取,完成数据预处理、计算、结果表达、解释的全过程, 并以论文形式提交给教师, 同时在课堂上向大家介绍自己的研究成果。这样做一方面提高了学生应用知识的能力以及研究成果的文字组织和语言表述能力。 另一方面, 研究生的每篇习作就是一个很好的实例, 教师可以从中发现学生对知识理解的偏差, 及时予以纠正, 使学生对方法的掌握更加准确和牢固。将网络共享平台中上传所有研讨记录训练,将研究分个层面:①选择专业研究内的基本问题或重要问题或热点问题对之进行深入探究。掌握本专业领域基本研究方法;②以自己课体依托,在课题下设置子课根据研究与研究兴趣跨年级构建小组,每个小组负责不同的子课题与任务③鼓励研究途径。一年级开始参与课题研究,二年级学期要求开始提出自己一些问题或鼓励结合确定毕业论文选题使他们在更大程度职业能力发展;推荐专业相关资料;对(共8人)进行指导,效果较明显。在学习方面,24名本科生通过毕业答辩。研究生八人以学生身份公开发表学术科研论文。 他们在这方面的能力得到锻炼和提高。
通过"混合型-探究式"研究生指导模式的学习实践三个维度的"混合":对传统面对面的与基于网络的两种指导方式的整合,对提升研究生课程学习绩效、促进研究生科研能力发展、促进研究生职业能力发展三个指导目标的整合,对个别指导、小组集中指导、团队集中指导三个指导层面的整合;说明了该模式中三个层面的"探究":对专业问题的探究,对专业与研究领域内基本原理的探究,对综合科研任务的探究;同时介绍了在实践层面应用"混合型-探究式"研究生指导模式的实际效果。以重点学科为依托,吸取国内外大学研究生培养经验,对创新型研究生培养模式方法进行探索,在研究生培养模式改革中,提出“四个转变”的指导思想,即变“单人指导”为“团队指导”,变“单一培养模式”为“多元培养模式”,变“以教师为中心”为“以学生为中心”,变“面向培养结果”为“面向培养过程”。形成以研究生为中心的培养模式,突出研究生探索精神、科学思维、创新意识的培养。切实 行的措施 引导 究生遵守科学 道德,保持科学冲动,增强创新意识,提高科学能力。
考虑到“计算机视觉教研探究研究生指导”通常需要运用计算机技术解决工程问题,我将在以后教研中,增加计算机辅助教研的功能。如利用Matlab工具对所学内容及实际视觉问题进行可视化仿真演示。我也将用虚拟仪器工具搭建案例的虚拟系统,试图通过这样的虚拟系统,向学生提供有利于启发思维的灵活的认识与实践环境。增强学生的感性认识;同时,尽管我采用了多媒体教研。我计划在教案中增加更多的现场视频材料以及图形和图像资料,使学生更容易理解和记忆,增强抽象理论的可接受性。
参考文献:
[1]David A.Forsyth and Jean Ponce , Computer Vision-A modern Approach
[2]贾云得.机器视觉.电子工业出版社,1999
[3]Thomas F.Quatieri离散时间语音信号-原理与应用,电子工业出版社,2004
[4]Shapiro.L.G and stockmen,G.C,计算机视觉.北京-机槛工业部,2001
[5]Haralick,R.,1992/1993 Computer and Robot vision ,volume I and II
[6]张雄伟,陈亮等.现代语音处理技术及应用.机械工业出版社,2003
[7]Thomas F.Quatieri离散时间语音信号-原理与应用,电子工业出版社,2004
[8]郑燕林等“混合型-探究式”研究生指导模式的构建与实践,学位与研究生教育,2010
计算机视觉基本原理范文3
关键词: 扣件缺失检测;图像处理;Canny算子;模糊C均值聚类
中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2014)10-2367-04
Abstract: The traditional fastener detection methods are inefficient and unreliable, can not meet the needs of the modern railway maintenance. This paper proposes a vision-based technique for detecting rail fastening automatically. First, a criss-crossing localization method was proposed to position the fastener for the canny edge processing gray images, and the edge characteristic information of fastener was extracted. Finally, fuzzy C-means clustering algorithm was used to cluster the extracted features, fastener missing detection can be realized by calculating the membership between the unknown samples and the standard modes of fastener. The experiment showed that this image processing and classifying algorithm can realize the automatic detection of missing fastener effectively; the detection rate is above 96%.
Key words: fastening missing detecting; image processing; canny algorithm; fuzzy C-means clustering
铁路线路维修保养对于轨道交通系统的安全运行具有重要作用,其重要工作之一是检查扣件是否缺失。实际中,由于安装保养不到位、列车行驶的振动和人为盗取等原因,线路上扣件可能会缺失,这给会对铁路行车安全形成巨大威胁,甚至酿成重大交通事故。目前,对铁路扣件的检查主要依靠人工巡查的方法,效率低、劳动强度大、可靠性差、漏检率高。近些年,随着计算机技术、模式识别和图象处理技术的发展,研制基于计算机视觉的自动化扣件缺失检测系统来代替巡道工的视觉检查工作成为可能,该检测方法具有效率高、成本低和可靠性好等优点,是铁道和地铁线路维修的新趋势。
日本于20世纪90年代中期开发了一些采用图像处理技术实现轨道裂纹、腐蚀及扣件状态自动识别的设备。美国ENSC0公司在20世纪90年代末研发了轨道视觉检查系统自动检查轨道状态[1,2]。德国SBG公司研制的GeoRail系统采用数字扫描相机和先进的图象处理技术,实时检测轨道表面和轨枕的缺陷,及扣件缺失、道床断面的异常等;德国BENNTEC公司开发了RailCheck系统也能实现类似功能[3,4]。法国研制开发了巡查线路设备状态的自动检查系统,并在TGV高速线路和普通线路上投入了实际运行[5,6]。国内有北京福斯达公司高速车载式轨道图像识别系统,另有一些基于计算机视觉针对扣件螺母缺失进行检测的专项研究[7]。
上述检测系统都是采取用高速摄像机采集扣件完整图片,然后进行图像处理,判断扣件是否存在。但是现有系统在图像处理上耗时较多,很难适应速度要求极高的高速轨检车。此外,列车行进过程中状态复杂,所采集的图片参数不一,具有较大的模糊性,目前的扣件缺失检测方法并不能有效的处理扣件状态特征间的模糊性。
本文针对已有研究成果的不足,运用Canny算子及模糊聚类等主要技术,设计了一种基于计算机视觉的扣件缺失检测系统,解决现有技术识别速度慢、通用性差的缺陷,可应用于铁路钢轨扣件缺失的在线快速探测。
1 扣件缺失检测系统设计
基于计算机视觉的扣件缺失检测系统基本原理是首先采用高速CCD相机拍摄轨道扣件图像作为系统输入,通过一系列分析由系统自动判定扣件的缺失状态。该系统包括硬件和软件模块,硬件主要由图像获取系统和图像识别系统组成。图像获取系统包括高速CCD相机、照明设备、图像存储模块和GPS定位模块;图像识别系统可以是DSP或工控机,包括:图像预处理、扣件图像定位、特征提取、分类识别模块,主要功能有:
1)图像预处理:对图像进行灰度化、降噪、滤波处理,突出图像中的扣件区域,抑制或消除不必要的信息,提高图像质量,便于扣件识别。
2)定位与特征提取:从采集的整幅图像中定位出扣件位置;然后从扣件图像中提取出能够反映扣件状态的特征信息,用于扣件缺失判定。
3)扣件识别:采用提取所得的扣件特征信息,建立识别模型,检测扣件是否缺失。
系统安装示意图如图1所示:
2 扣件的定位与特征提取
2.1 扣件定位基本原理
由于采集的图像除了包含钢轨和扣件,还包括道床、轨枕区域,如果直接在原图上提取扣件状态,受到的干扰多,运算量很大。因此需要对扣件进行定位,从原始图像中裁剪出扣件。
在钢轨表面区域,灰度只在水平方向上有明显跳变,在垂直方向是连续的;而钢轨以外的区域,道砟的纹理比较复杂,在各个方向都存在跳变,可以根据这个特征找到钢轨边缘。同理,可以找到轨枕的边缘。根据钢轨边缘和轨枕边缘的交叉点就可以根据先验信息提取出扣件。该方法称作十字交叉法,具体步骤为:
1)采用Canny算子对图像进行边缘处理;
2)采用区域扫描统计法,以钢轨宽度为区域宽度,在二值图像上从左向右移动,统计区域内的亮点数目,投影在水平方向,投影在水平方向,其最大值即为钢轨的左边界;
3)以同上的方法,做横向(从右到左)区域扫描统计,获得钢轨的右边界;
4)从上向下移动,进行区域扫描,确定钢轨上边界,从下向上移动,进行区域扫描,确定轨枕下边界;
5)根据先验知识(扣件长宽)提取扣件区域。
2.2 基于Canny算子的边缘检测
1986年,Canny提出了边缘检测的三个判断准则:信噪比准则、定位精度准则和单边缘准则,并在此基础上提出了Canny边缘检测算子,其详细检测算法可参考文献[8]。
按照Canny算子计算方法对检测图像进行边缘检测,其结果如图2所示。
2.3 扣件区域提取
根据2.1节所述的十字交叉扣件定位方法,在图像的Canny边缘检测基础上,采用区域扫描法,提取扣件所在区域。首先对检测图像进行从左至右的区域扫描,区域宽度近似钢轨宽度;然后,以轨枕为区域为宽度进行从上到下垂直区域扫描,对图2的扫描曲线如图3所示。
水平方向和垂直方向的区域扫描结果的最小值,即为铁轨的左边界和轨枕上边界,分别为:278和141。
同理,对图像进行从右到左和从下到上区域扫描,确定铁轨的右边界和轨枕下边界为:380和320。
最后,根据先验知识(扣件的长和宽),提取出扣件。为了方便图像的模式识别,将扣件区域位置大小统一设为120×200像素。对Canny边缘检测结果进行扣件区域截取,其结果如图4所示。
2.4 扣件特征提取
提出一种基于扣件边缘几何结构分析的特征提取方法,利用Canny算子实现对扣件轮廓边缘的提取,根据轮廓特征可实现扣件缺失检测。
本文2.3节中,检测到扣件的边缘图像后,将图像平均分割为20份,每份包含30×40个像素,每个像素的值为0或1,将所有像素相加并除以总像素点,即可得到反映扣件状态的特征向量。
篇幅有限,文中列出4个样本下的特征向量,如图5所示,可见无扣件状态下的特征向量与有扣件下的特征向量有明显区别,但两类间也有明显的模糊性。
4 基于模糊C均值聚类的扣件识别
模糊聚类分析作为一种无导师的学习方法,利用分类模式之间的模糊关联度进行分类,更相似的划为一类,更不相似的划作另外一类。在分类过程中不断计算所划分各类的中心,以待分类模式与已判定为某类的模式中心的隶属度作为其分类的准则,与已知聚类中心具有最大隶属度的类别即为未知状态的类别。该文将有无扣件分别作为聚类分析的两个类别,可实现扣件缺失检测。
模糊C均值聚类算法是Bezdek提出的作为早期硬C均值聚类(HCM)方法的一种改进算法[9]。FCM把n个向量xi(i=1,2, ・・・ ,n)分为C个模糊组,并求每组的聚类中心,使得非相似性指标的价值函数达到最小。FCM的价值函数(或目标函数)表示如下[10]:
由上述两个必要条件,模糊C均值聚类算法是一个简单的迭代过程。
下文以有无扣件下的20个样本为例进行聚类分析,所得各样本的隶属度如图6所示。在图6中,“隶属度1”表示各个样本与有扣件聚类中心的隶属度;“隶属度2”表示各样本与无扣件聚类中心的隶属度;前20个样本为有扣件状态,后20个样本为无扣件状态。从图6可知:前20个样本与有扣件的聚类中心有最大隶属度,即属于有扣件状态;后20个样本与无扣件的聚类中心有最大隶属度,即属于无扣件状态。这与实际结果吻合。
当出现如图7所示的干扰物时,该状态下的特征与上述聚类中心的隶属度如下表1所示。
从表1可知,图7的四个状态与有扣件状态下的聚类中心有最大隶属度,即实现干扰物状态下扣件状态的正确判别。经过大量实验验证表明,该方法的识别准确度的可达96%,且随着先验知识库的增加,准确度也会逐步提升。
5 结论
采用CCD相机采集轨道扣件图像,首先对原始图像进行小波阈值滤波,其次在对图像进行Canny算子边缘处理后采用十字交叉法对扣件位置进行定位,定位扣件位置,提取扣件的边缘特征信息,最后利用模糊C均值聚类算法实现扣件缺失识别。通过铁路现场实验结果表明本文的图像处理方法和识别分类算法能有效实现扣件系统缺失的自动检测,准确率高,并得到如下结论:
1)将降噪后图像进行Canny算子边缘处理能凸显图像中的钢轨和轨枕,然后采用十字交叉法能准确提取扣件区域。Canny算子扣件图像边缘轮廓信息中,能够提取较为准确扣件状态特征向量。
2)模糊C均值聚类算法对扣件特征向量进行分类,产生有无扣件的标准聚类中心,然后按照最大隶属度进行扣件缺失检测,效果好、精度高,且其扩展性好,在使用过程中逐步完善先验知识库,提高可靠性及精度。
参考文献:
[1] Singh M, Singh S, Jaiswal J, et al. Autonomous rail track inspection using vision based system[C]//Computational Intelligence for Homeland Security and Personal Safety, Proceedings of the 2006 IEEE International Conference on. IEEE, 2006: 56-59.
[2] Sholl H, Ammar R, Greenshields I, et al. Application of Computing Analysis to Real-Time Railroad Track Inspection[C]//Automation Congress, 2006. WAC'06. World. IEEE, 2006: 1-6.
[3] Killing J, Surgenor B W, Mechefske C K. A machine vision system for the detection of missing fasteners on steel stampings[J]. The International Journal Of Advanced Manufacturing Technology, 2009, 41(7-8): 808-819.
[4] De Ruvo P, Distante A, Stella E, et al. A GPU-based vision system for real time detection of fastening elements in railway inspection[C]//Image Processing (ICIP), 2009 16th IEEE International Conference on. IEEE, 2009: 2333-2336.
[5] Deutschl E, Gasser C, Niel A, et al. Defect detection on rail surfaces by a vision based system[C]//Intelligent Vehicles Symposium, 2004 IEEE. IEEE, 2004: 507-511.
[6] Marino F, Distante A, Mazzeo P L, et al. A real-time visual inspection system for railway maintenance: automatic hexagonal-headed bolts detection[J]. Systems, Man, and Cybernetics, Part C: Applications and Reviews, IEEE Transactions on, 2007, 37(3): 418-428.
[7] 王凌, 张冰, 陈锡爱. 基于计算机视觉的钢轨扣件螺母缺失检测系统[J]. 计算机工程与设计, 2011, 32(12): 4147-4150.
[8] Canny J. A computational approach to edge detection[J]. Pattern Analysis and Machine Intelligence, IEEE Transactions on, 1986 (6): 679-698.
计算机视觉基本原理范文4
关键词:图像识别;SURF算法;特征点;鲁棒性
中图分类号:TP391 文献标志码:A
图像识别,是利用计算机对图像进行处理、分析和理解,以识别各种不同模式的目标和对像的技术。图像的局部不变特征有着在多种图像变换(如光照变换,几何变换等)下的不变性、独特性、低冗余性以及无需预先对图像分割等特点,已经被广泛应用于图像匹配领域。基于特征不变的方法具有精度高、执行速度快、压缩信息量和鲁棒性好等优点。尺度不变特征转换(Scale-invariant feature transform,SIFT)算法便是其中的代表,该算法由David Lowe于1999年在ICCV上提出,并于2004年完善总结。SIFT算法匹配能力较强,能提取稳定的特征,可以处理两幅图像之间发生平移、旋转、仿射变换、视角变换和光照变换等情况下的匹配问题,但该算法数据量大,复杂度高,耗时长,同时也存在着特征提取及匹配速度慢,在灰度变化相似的区域容易产生误匹配的缺陷,限制了该算法的应用。SURF算法是针对SIFT算法的不足而改进的一种有效算法。
1SURF算法描述
快速鲁棒特征[1](Speeded-up Robust Features,SURF)是一种高鲁棒性的局部特征点检测器,由Herbert Bay等人于2006年在ECCV上提出的。该算法比SIFT更快更加具有鲁棒性,对图像分辨率、旋转、尺度缩放、平移和亮度变化等保持不变,而且对仿射变换、噪声以及视角变化等也能保持一定程度的稳定性。
SURF算法的基本流程主要包括:特征点检测、特征点描述和特征点匹配三部分。该算法中有三个关键技术,分别为:使用积分图像完成图像卷积操作,减少了时间计算的复杂度,提高计算速度;采用基于Hessian矩阵的检测器检测特征值,其在可重复性和稳定性方面都优于基于HarTis的检测器;采用Haar小波作为特征描述子,Harr特征速度快,能够减少计算时间并增加鲁棒性。
1.1积分图像
积分图像是一种对原始图像的特征表示方法。对于一幅灰度的图像,积分图像中的任意一点(x,y)的值是指从图像的左上角到这个点所构成的矩形区域内所有的点的灰度值之和[2]。图1所示填充区域即为点(x,y)的积分值。
1.2尺度空间的建立
图像的尺度空间是在视觉信息(图像信息)处理模型中引入一个被视为尺度的参数,通过连续变化尺度参数获得不同尺度下的视觉处理信息,然后综合这些信息以深入地挖掘图像的本质特征。一幅图像的尺度空间可定义为原始图像与高斯核的卷积运算,图像的尺度大小可以用高斯标准差来表示[3]。在计算机视觉领域, 尺度空间被表示为一个图像金字塔。在SIFT算法中,输入图像函数反复与高斯函数的核卷积并反复对其进行二次抽样,但因为每层图像依赖于前一层图像, 并且需要重设图像尺寸,所以使得运算量较大。SURF算法与SIFT算法在使用金字塔原理上的不同之处在于SURF算法申请增加图像核的尺寸,允许尺度空间的多层同时被处理,并且不需要对图像进行二次抽样, 从而提高了算法性能。同时SURF算法采用了尺度插值和3*3*3的非极值抑制方法以提取尺度不变的特征点。图2中A图是运用传统方式建立的一个图像金字塔结构,运算会反复使用高斯函数对子层进行平滑处理, 且图像的尺寸是变化的。B图的SURF算法保持原始图像不变而只是改变滤波器的大小。
1.3Hessian特征检测
2算法实现
根据SURF算法的基本原理,设计算法的实现过程。首先通过视频采集设备获取模板图像,并对其建立积分图像和构建尺度空间结构,再通过视频采集设备捕捉当前视频帧,然后检测出模板图像及当前视频帧的特征点, 并保存每个特征点各项特性的描述信息,最后比较模板图像与当前帧图像特征点的描述子信息进行图像匹配。
3OpenCV技术
OpenCV(Open Source Computer Vision Library)[5]于1999年由Intel建立,是一个基于(开源)发行的跨平台计算机视觉库,可以运行在Linux、Windows和Mac OS操作系统上。OpenCV轻量级而且高效,由一系列C函数和少量C++类构成, 实现了计算机视觉,图像处理和模式识别等方面的很多通用算法。
OpenCV为Intel公司的Integrated Performance Primitives(IPP)提供了透明接口,这意味着如果有为Intel处理器优化的IPP库,OpenCV将在运行时自动加载这些库。OpenCV致力于真实世界的实时应用,通过优化的C代码的编写对其执行速度带来了可观的提升,编写程序过程中调用OpenCV的基础函数库, 即可完成十分复杂的开发任务, 极大的提高开发效率。
3.1OpenCV的特点
1) 跨平台,Windows,Linux,Mac OS;
2) 免费,开源;
3) 代码经过优化,可用于实时处理图像;
4) 统一的结构和功能定义;
5) 强大的矩阵运算和图像处理能力;
6) 具有底层和高层的应用开发包;
7) 用户接口方便灵活。
3.2OpenCV的功能
1) 对图像数据的操作,包括分配、释放、复制和转换数据。
2) 具有对矩阵和向量的操作以及线性代数的算法程序,包括矩阵、解方程,特征值以及奇异值。
3) 具有基本的数字图像处理能力,如可进行滤波、边缘检测、角点检测、采样与差值、色彩转换、形态操作、直方图和图像金字塔等操作。
4) 对运动的分析,如对光流、运动分割和跟踪的分析。
5) 对目标的识别,可采用特征法和隐马尔科夫模型(HMM)法。
6) 具有基本的GUI功能,包括图像与视频显示、键盘和鼠标事件处理及滚动条等。
3.3OpenCV模块
1) CV核心函数库,实现图像处理,结构分析,运动分析,对象识别,摄像机标定和3D重构等功能。
2) CVAUX辅助函数库,实现通过立体视觉来实现的动作识别,基于轮廓线的形状匹配,模式识别,纹理描述等功能。
3) CXCORE数据结构与线性代数库,实现数据变换,矩阵运算等功能。
4) HIGHGUI图像界面函数库,实现图像获取,用户界面设计等功能。
5) ML机器学习函数库,包括模式分类和回归分析等。
4Android上的系统实现
Android是基于Linux开放性内核的操作系统,是Google公司在2007年l1月5日公布的手机操作系统。Android采用软件堆层的架构,主要分三部分:底层以Linux核心为基础,提供基本功能;中间层包括函数库和虚拟机;最上层是各种应用软件。Android应用程序用Java语言编写。每个应用程序都拥有一个独立的Dalvik虚拟机实例,这个实例驻留在一个由Linux内核管理的进程中[6]。
在Android系统上使用OpenCV来实现该系统,需利用JNI编写相应的本地代码组件并通过Android NDK工具集将其嵌入到Android应用程序中。首先,利用Android应用程序框架编写相应的Java代码;然后通过JNI与OpenCV提供的函数编写本地C/C++代码,并使用Android NDK将本地代码文件编译生成可由Java代码调用的共享库(动态链接库),最后通过SDK生成完整的Android应用程序[7]。
4.1JNI
JNI(Java Native Interface),即JAVA本地调用。它允许Java代码和其他语言编写的代码进行交互。
5结论
本文提出了一种基于SURF算法的图像识别方法,并运用此方法实现了一套基于Android平台的图像识别系统。由于系统需要进行大量的图像处理运算, 因此通过使用Android NDK调用OpenCV图像处理函数库以提高编程效率,。系统通过手机摄像头提取视频帧, 并使用SURF算法对其进行快速鲁棒特征检测。实验结果表明, 该方法复杂度低、实时性好并且具有良好的鲁棒性,将系统用于移动设备图像识别加密,以及视频监控等方面,会使其拥有更好的识别效率和可靠性。
参考文献:
[1]彭欣,刘富强,宋华军.基于SURF目标跟踪算法研究[J].长春理工大学学报, 2011,34(2):138-141.
[2]徐秀云.基于特征点的景象匹配技术研究[D].南京:南京理工大学,2009:1-68.
[3]高健, 黄心汉, 彭刚,等. 一种简化的SIFT图像特征点提取算法[J].计算机应用研究,2008,25(7):2 213-2 215.
[4]VASILEIOS K,CHRISTOPHOROS NIKOU,ARISTIDIS LIKAS.Visual Tracking by Adaptive Kalman Filtering and Mean Shift[J].Springer-Verlag Berlin Heidelberg,2010,6040:153-162.
[5]黎松,平西定,丁益洪.开放源代码的计算机视觉类库OpenCV的应用[J].计算机应用与技术,2005,22(8):134-136.
[6]韩超,梁泉.Android系统原理及开发要点详解[M]北京:电子工业出版社,2010:70-93.
[7]韩露.一种Java与OpenCV结合实现的目标检测模块[J].计算机应用,2008(3):773-775.
[8]HUIYU ZHOU,YUAN YUAN,CHUNMEI SHI.Object tracking using SIFT features and mean shift[J]. Computer Vision and Image Understanding,2009,113:345-352.
[9]HERBERT BAY, ANDREAS ESS, TINNE TUYTELAARS,et al.Speeded-Up Robust Features(SURF)[J].Preprint submitted to Elsevier,2008:233-245.
[10]TA D N CHEN,W C GELFAND,N PULLI K.SURFTrac:Efficient Tracking and Continuous Object Recognition using Local Feature Descriptors[C]//Coumputer Vision and Pattern Recognition(CVPR'09),2009:2 937-2 943.
[11]纪华,吴元昊,孙宏海,等.结合全局信息的SIFT特征匹配算法[J].光学精密工程,2009,17(2):439-444.
[12]CHAVES A,GUSTAFUSON D.Vision——Based Obstacle Avoidance Using SIFT Features[C]//Proceedings of the 5th International Symposium on Advances in Visual Computing.2009:550-557.
[13]公磊,周聪.基于Android的移动终端应用程序开发与研究[J].计算机与现代化,2008(8):85-89.
计算机视觉基本原理范文5
关键词:计算机网络;红外遥控;机器人控制系统;操作功能
基于计算机网络发展的移动机器人是现代机器人控制系统的发展趋势,移动机器人是一种具有导航技术、自动控制理论、计算机编程技术、网络控制以及人工智能等一系列高科技的综合应用,如今广泛运用于建筑、工厂自动化、军事、采矿、农业以及服务业等各种领域。然而,传统的机器人通过有线或者无线手柄进行控制,手柄可以设置的命令个数有线,由此限制了机器人的操作功能,并且不利于机器人控制的二次开发。笔者研究的网络红外遥控机器人可以通过计算机远程遥控实现对机器人的无线控制,极大拓展了机器人的使用功能以及研发方向,具有重大的意义。
1.硬件系统设计
1.1硬件系统的结构
如下图1所示,网络红外遥控机器人主要有红外收发模块、微控制器模块、电极驱动控制模块以及信号传感模块和电源等组成部分。
1.2基本原理
该硬件系统的基本原理是:首先由信号传感模块来感知机器人的外部操作环境,包括光强度、温度以及超声测距反馈信号等,信号的传递为控制系统的行为提供了外部信息以及反馈信号;然后使用电机控制系统根据接收到的指令,驱动整个系统的运行,使得整个机器人完成指令动作;红外收发模块则能够实现无线命令以及信号在传感模块与控制模块之间传递与输送,起到联系机器人与计算机的作用;最后,微控制模块可以说是整个机器人控制系统的核心,整个系统的运作都依靠微控模块接收和处理机器人外部信号,进而控制机器人的动作,微控模块使用RS232来和计算机通信[1]。
1.3微控模块设计
微控模块采用德国仪器公司的MSP430F149微控制器,其特点是低功耗且具有强抗干扰力。该微控制器拥有16位寄存器和常数寄存器、16位RISC结构以及最大代码效率,同时还带有两个16位监时定时器,一个内部比较器,48个I/O口的微处理器,两个通用接收发射器,以及8通道12位A/D转换器,其中转换器具有采样保持、带内部参考电压以及自动扫描的功能。总体而言,该型号的MSP擦写次数可以高达10万次,具有工业级水平。
该微控制器模块中电路接口如下图2所示:外接高频(8MHz)和低频(32kHz)两种晶振,保证了MSP能够根据需要调整高速或者节能的状态。
2.红外遥控设计
2.1红外发射电路原理
外发射端在发射数据或者信号时,将待发送的2进制数据调制成一系列脉冲信号,其发射频率是38kHz,采用脉宽调制PWM方式发送。红外载波可以通过单片机内部的定时器的PWM功能或者硬件电路实现。
红外发射电路中通常使用TSAL6200红外发射二极管,该型号的二极管是塑封的,在信号发射过程中将周期信号转换成一定频率的可以识别的红外光信号,同时其脉冲比较稳定,保持脉冲间隔数据“0”和“1”不变动,确保数据传递的连续性[2]。
2.2红外接收电路原理
红外接收过程使用HS0038B红外接收器,其环氧包装可以作为过滤器使用,并且抗干扰能力强,输出较为稳定。当接收到38kHz的载波信号后,接收器输出低电平,反之输出高电平,以此将红外光信号的间隔调节成较为连续的具有一定周期性的方波信号,最后经过单片机处理,可以恢复出原来的数据信号。
2.3红外通信协议
如下图4所示,红外通信协议能够保证红外数据同步,从而正确识别接收到的红外信号。红外通信中的差错控制方式采用自动请求重发方式ARQ。接收时,接收器首先接收到数据包中的地址码,随后进行地址码匹配。如果地址不匹配,则丢弃数据包,并发送“请求重发信号”;如果地址符合,则检查校验码,在校验正确的情况下,识别数据包中的数据,并发送“确认信号”,如果校验错误则发送“请求重发信号”。若在接收中的任何环节出现差错,均向发送方返回“请求重发信号”[3]。
结束语
本文设计的基于计算机的红外遥控机器人控制系统,主要从基础原理出发,采用分模块的设计思路,使得设计的各个模块能够紧密联系,完成整个移动机器人的控制活动。通过计算机远程遥控实现对机器人的无线控制,极大拓展了机器人的使用功能,同时期望读者在实际应用中能够自主开发,进行进一步的研发与创新。
参考文献:
[1] 闫明明,杨平,熊静琪等.基于“计算机控制技术”的机器人行走控制实验设计[J].实验技术与管理,2014,(3):173-175.
计算机视觉基本原理范文6
【关键词】主动表观模型 特征点标定 形状建模
人脸是人类日常生活中表达喜怒哀乐等情感的重要载体,长期以来人类一直通过绘画雕塑等多种方式来描述人脸。人脸图像技术随着计算机视觉的发展逐渐兴起,而人脸图像技术的基础和核心便是人脸特征点标定。人脸特征点标定是指利用计算机视觉技术对人面部器官的特征部位进行自动的特征搜索、轮廓拟合、特征点定位与纹理提取。主动形状模型算法(active shape model,ASM)和主动表观模型算法(active appearance model,AAM)是当前使用较为普遍的两种特征点标定算法,其基本原理都是利用统计规律得到目标物体形状向量,然后通过灰度建模实现特征点的最佳匹配,重复循环搜索直到收敛,完成标定工作。
1 AAM实现特征点标定的基本流程
1.1 形状建模的实现
主动表观模型通过对样本集中人脸图像进行样本标准化和主成分分析(principal component analysis,PCA)来实现形状建模。
首先对训练集中的样本图像进行手动特征点标定并用图像上所有特征点的坐标值组成的向量来唯一表示样本图像。由于不同样本图像之间在尺寸和方向上存在差异,需要采用Procrustes分析来实现样本图像标准化。对完成标准化之后的样本图像通过主成分分析来计算形状参数。主成分分析的核心思想是求样本数据中的主成分,在不丢失样本数据主要信息的同时实现数据降维。在这里我们利用主成分分析时,首先计算样本数据的协方差矩阵,然后计算出该矩阵的所有特征值和特征向量。选取若干数值较大特征值作主成分,并将其对应的特征向量作为主成分矩阵。根据主成分分析的原理,主成分矩阵中的特征向量所包含的形状变化信息量多,因此可以采用样本数据的主成分来对样本图像的形状变化信息进行统计分析同时用主成分矩阵来对形状向量进行表示。这里引入一个形状向量模型参数的概念,完成形状建模。
1.2 纹理建模的实现
主动表观模型通过对人脸图像面部像素进行提取来得到形状无关灰度信息,再通过对灰度信息进行主成分分析来得到解释面部图像灰度变化的纹理模型。
对于人脸样本图像,由于人脸只占图像的一部分,而且位置和像素数量也存在差异,因此必须先对样本图像进行变形,才能进行形状无关纹理信息的提取与分析。首先对平均人脸形状进行Delaunay三角剖分,将人脸划分成若干三角网格。然后对所有划分的网格进行仿射变换。完成这两步处理之后就可以得到形状无关纹理图像。按照特定顺序对这些纹理图像进行像素提取,得到一组灰度向量。对所有灰度向量进行归一化处理然后再次进行主成分分析,求出这组数据的主成分矩阵并利用KL变换得到平均灰度向量,完成纹理建模。
1.3 统计表观模型的建立
在求得形状参数和纹理参数之后,任何图像的形状和纹理理论上被完全分离,利用形状参数和纹理参数可以表示出任何人脸图像。但实际中形状模型和纹理模型之间仍然具有一定的相关性,需要再次使用主成分分析来消除这种相关性,得到统计表观模型。
一般情况下,形状参数和纹理参数在数值上会有较大的差异,需要引入一个权值来平衡两个参数的差异。选取一个对角矩阵并将其设为权值,通过权值的引入对形状参数和纹理参数数值差异进行平衡,可以得到一个连接参数。对连接参数再次进行主成分分析,得到一个新的参数,称之为表观模型参数。我们可以用这个表观模型参数来分别表示形状向量和形状无关的灰度向量,从而得到表观模型。
2 目标人脸图像的搜索与拟合
目标图像的搜索与拟合是主动表观模型的核心内容。目前常用的一种图像搜索与拟合算法是标准梯度递减最优化算法。该算法的核心思想是假设误差图像与参数的增加量之间存在线性关系,通过调整表观模型参数和形状模型参数来缩小合成图像与目标图像之间的灰度差值。循环迭代直到合成图像与目标图像之间的灰度差值最小,完成对目标图像的搜索与解释。其主要步骤可以简化为:
步骤一:给定初始表观参数和初始形状参数,计算得到合成图像的形状向量和纹理向量,通过对目标图像进行采样和归一化处理得到目标图像的纹理向量;
步骤二:根据合成图像的纹理向量和模型覆盖区域的纹理向量进行误差计算,得到初始误差;
步骤三:计算和调整表观参数和形状参数;
步骤四:根据对表观参数和形状参数的计算调整求出新误差;
步骤六:重复步骤四和步骤五,不断比较新误差与初始误差的差值,当其差值小于设定阈值时,认为其收敛,循环结束。
3 实验验证
本文利用MATLAB工具对主动表观模型算法进行了验证。根据Yale提供的人脸数据作为样本库,利用MATLAB对目标人脸图像进行了特征点的自动标定实验。实验结果论证了主动表观模型算法不仅能够实现对目标人脸特征点的自动标定,而且标定速度和精度也较为理想。
4 结语
文章利用MATLAB工具进行了目标人脸图像特征点的自动标定实验并且验证了主动表观算法的可行性及有效性。主动表观模型不仅能够快速准确地对目标人脸进行特征点自动标定,而且能够对人脸图像进行较好的特征描述和纹理表达,因而可以广泛应用在计算机人脸图像技术研究领域。
参考文献
[1]张浩,庄连生,王涌,庄镇泉,李斌.主动表观模型在光照变化影响下的人脸特征点定位[J].电路与系统学报,2009,01:72-76+71.
[2]王涛.基于PCA人脸图像压缩与重建算法的研究与实现[D].昆明理工大学,2014.
[3]谢玉鹏,吴海燕.基于AAM的人脸图像描述与编码[J].计算机仿真,2009,06:272-276.
[4]章毓晋.基于子空间的人脸识别[M].北京:清华大学出版社,2009:68-69.
[5]王国胤,龚勋.人脸感知:从二维到三维[M].北京:科学出版社,2011:37-38.