前言:中文期刊网精心挑选了如何学习计算机视觉范文供你参考和学习,希望我们的参考范文能激发你的文章创作灵感,欢迎阅读。
如何学习计算机视觉范文1
物体为什么会呈现出人们所看到的视觉效果?经过多重反射后,光线将怎样变化?如何让计算机把真实世界里的物理原理数字化表现出来?这些都是松下康之在微软亚洲研究院工作时要思考的问题,摄像机拍摄出的画面抖动看不清怎么办?松下康之也遇到过生活提出的小挑战。
松下康之用研究员的“专属语言”解释道,“低层视觉研究”和“满帧视频稳定技术”可以很好地回答和解决上面问题。“这也正是我所从事的两个研究方向:一个是光度学,另一个是视频分析,”微软亚洲研究院视觉计算组主管研究员松下康之说,“两者之间并没有十分紧密的联系,但这也正是有趣的地方。”
从东京大学的博士到微软亚洲研究院实习生、从日本东京到北京的希格玛大厦、从电气工程学专业到以物理学为基础的计算机视觉和视频分析与合成。事实上,这种“毫无关系”所带来的惊喜与巧合也贯穿于松下康之的经历之中。于是,松下康之给记者讲述了一个充满偶然与必然、选择与坚持的故事。言语间,流露出日本文化的严谨、美国式的活泼和与在微软亚洲研究院的中国研究员一样的亲切与随和。
邂逅未来
微软亚洲研究院院长洪小文曾说过:“创新更多的是意外”。而松下康之与微软亚洲研究院的缘分,正是充满着这种“必然的意外”。
在东京大学读书的时候,松下康之本科、硕士、博士的专业方向都是电气工程。那时,松下康之已经研究了智能交通系统。“但是,我意识到自己想做一些更加基础的研究,并且希望可以把这些研究应用到不同的事情上。”在博士毕业前两年,松下康之就发现了自己对计算机视觉领域的浓厚兴趣。而电气工程与计算机科学联系紧密,计算机系统结构和软件都有学习,所以对于松下康之来说,从电气工程转到计算机视觉并不是一个很大的跨越。
2002年,当时松下康之还在读博,在一次国际性的计算机视觉大会上,他见到了时任微软亚洲研究院副院长的沈向洋,“我之前就认识他,还知道他在计算机视觉领域非常有名。我希望能有机会与他一起工作,学到更多东西。”于是,松下康之向沈向洋毛遂自荐,“意外地”成了一名微软亚洲研究院的实习生,经过4个月的实习生活之后,松下康之发现自己已经喜欢上了这里的研究环境和生活,就这样,在微软亚洲研究院的工作开始了。
如何用科技来解决实际问题,从而改变更多人的生活,一直是微软亚洲研究院的初衷。生活也不断地给松下康之带来灵感和意外的收获。
其中,“满帧视频稳定技术”的“诞生”就源于松下康之的婚礼――用手持的摄像机拍摄的婚礼画面是摇晃的,看起来很不舒服,新婚妻子对婚礼录像效果很不满意,松下康之就想通过研究解决视频颤抖的问题。“现有的数字影像镶嵌技术可以对画面进行稳定性处理,但如果物体移动,这种在场景固定的情况下才能实现的方法就不可行了。而通过‘满帧视频稳定技术’,丢失掉的像素被自然的补充上了。”同理,还可以去除覆盖在视频上的文字、镜头上的污点,来补上丢失的像素。
科技的光影魔术
“视频分析在不久的将来将变得更加重要,因为图像和视频的界限已经越来越模糊,我相信最后一切都将变成视频。”松下康之对记者说。
微软亚洲研究院的计算机视觉包括:高层视觉(如人脸识别技术)和低层视觉(如光度学,即研究光线与物体的相互作用),松下康之的研究方向属于后者。
“光度学也非常重要,因为如果我们不明白‘低层’上发生了什么,就无法在‘高层视觉’研究上取得突破,所以‘低层视觉’研究是非常基础的。如果“低层视觉”发展了,那么“高层视觉”也会随之发展。”
虽然是“肉眼”难以察觉的变化,但是松下康之却给记者描述了光度学形象的应用――3D复原和现实物体数字化。而要实现上面的两项应用,很明显需要比普通人更特别的“视力”。
“计算机视觉里有一个传统的方法,叫多视角立体视觉法(multi-view stereo),通过不同视角拍摄的图片我们可以重现3D,但不能做细节的重现;还有另一种方法,叫立体光学法(photometric stereo),摄像机和物体都是固定的,但是光线是变化的,如果移动光源就可以得到物体的不同观察值,通过观察值可以得到表面方向(surface orientation)。”
前者可以得到整体的形状,但却无法得到细节,而后者不能给你整体的形状,因为它只能给你表面方向。如何把两个技术的优点结合起来得到最真实的3D图像呢?
“我们考虑如果把一个持续光源固定在摄像机上,这样我们就可以同时移动光源和摄像机。”于是,松下康之和他来自东京大学的实习生一起做出了看起来与普通家用数码产品没有太大差别的“3D摄像机”。“这个3D摄像机的相关的配件在市场上很容易就能买到,手持永远是简单的,人们不会想要拿着一个庞然大物。”松下康之向记者介绍研发背后的原因。
文化熔炉
作为美国电气电子工程师协会2009年计算机视觉与模式识别国际会议(CVPR)和2009年计算机视觉国际会议(ICCV)的区域主席、著名期刊International Journal of Computer Vision(IJCV)和Computer Vision Applications(CVA)的编委,松下康之坦言,微软亚洲研究院对研究员在专业领域的自由交流的支持,使得研究员对自己的研究领域“看得更远、更透彻”。
“通过这些职务,我对研究方向有了更高的认识,这种视野能够帮助我决定今后什么样的研究更有价值。此外,我能够认识计算机视觉界的很多人,这是另一个收获。”松下康之笑着说。
如何学习计算机视觉范文2
关键词:印制电路板;图像处理;机器视觉;PCB裸板;自动光学检测;缺陷检测 文献标识码:A
中图分类号:TP391 文章编号:1009-2374(2016)09-0010-05 DOI:10.13535/ki.11-4406/n.2016.09.005
我国是全球第一大PCB生产基地,作为电子产品承载体的电路板,其集成度和产量不断在提高。为了保证电子产品的性能,电路板缺陷检测技术已经成为电子行业中非常关键的技术。建立在图像处理算法基础上的机器视觉检测技术与传统的人工检测技术相比,提高了缺陷检测的效率和准确度。因此,设计一种高效精准的机器视觉检测电路板缺陷的系统,具有非常重要的现实意义。评估印刷电路板质量的一个重要因素就是表观检测,PCB的表观质量对产品性能及成品使用安全有着极大的重要性。而伴随着近年来在工业生产领域崛起的计算机视觉,当前表观缺陷检测和分类识别的研究方向已经转向了利用计算机视觉技术来实现。计算机图像处理识别技术这种基于计算机视觉的检测技术成功取代了传统的PCB缺陷检测方法,在自动光学检测系统众多应用中占据了相对重要的地位,一跃成为PCB生产业表观缺陷的主要检测方法。
图1 系统框图
因此本文通过设计AOI自动光学检测系统,搭建较为简单的PCB缺陷自动检测系统的实验平台,对PCB中四类较为关键、常见的缺陷进行检测、分析、识别、判定,为研究推广PCB缺陷自动检测系统开拓应用前景,如能实现工业上的产业化检测,将有高额的经济收益。本文侧重对PCB中的四类较为关键、常见的缺陷进行检测、分析、识别、判定,并且仅搭建了较为简单的PCB缺陷自动检测系统的实验平台,即通过复杂算法对采集到的图像进行处理、配准、对比,从而得出PCB缺陷类型及对其进行标识。如图1所示。
1 硬件设计方案
PCB缺陷检测的总体系统设计方案主要是基于自动光学检测技术来搭建PCB缺陷检测系统,硬件设计是使用CNC-T程控光源高精度影像测试系统操作台,对待测电路板进行图像采集,再通过VS2010软件所编写程序处理,得出待测电路板的缺陷种类。整个系统主要分为运动控制、光源、图像采集、图像处理四个模块,分模块简要阐述了实验过程、所需设备以及软件算法,搭建了一个相对完整的系统工作平台。
图2 CNC-T程控光源影像操作台
该设备具有测量元素种类齐全、手动测量、自动对焦等多种功能,使用该设备采集图像进行二维检测,测量软体为YR-CNC,将图像储存至电脑后便由VS软件进行图像处理。实验组成如图3所示:
图3 实验系统框图
1.1 运动控制模块
本系统运动流程为:被检测的PCB在检测台上,通过步进电机XY轴运动到摄像机拍摄区域,CCD摄像机固定在工作台上方(Z轴),通过Z轴的运动实现聚焦。如图4所示:
图4 平台运动示意图
设备工作台台面尺寸为746mm×506mm,承载玻璃面尺寸为452mm×354mm,有效测量行程为400×300×200。本装置既可通过软件驱动自动采集图像,也可以通过手动控制,移动并聚焦采集待测PCB的图像。
1.2 光源模块
辅助光照――采用的是正向和背向光源这两种辅助光照。其中正光源和摄像头同侧,均位于Z轴上,正光源主要用于检测待测物体的表面特征。背光源位于检测台面下方,与正光源处于同轴反向关系,背光源能突出待测物体的轮廓特征,常用于检测物体轮廓尺寸。
图像采集:分别利用正光源突出PCB表面如走线、过孔和焊盘等主要特征,而下光源主要使PCB的轮廓尺寸和过孔产生强烈的轮廓对比。
光源:使用的是高度集中照明光源中心的LDR系列,由于该光源的伞状结构紧密排列着LED且采用了CCS独创的柔性板,使之成为LED照明系统的标准模式。照明系统如图5所示:
图5 照明系统
1.3 图像采集模块
图像采集模块是由图像采集卡、相机和镜头组成的,该模块是图像配准阶段的硬件基础。计算机采集图像的媒介就是相机,而相机按照不同原理又分为多种,常见的有CCD(Charge Coupled Device)和CMOS(Complementary Metal Oxide Semiconductor)两类。本系统采用的是CCD 1/2英寸43万像素彩色摄像头和高清晰度0.7~4.5X变焦倍率镜头,显示分辨率为0.001mm。
1.4 图像处理模块
通常获得的图像将受到工业现场环境、光照等条件的干扰,计算机所获得的图像质量多数参差不齐,图像的清晰度不一致,大大增加了PCB缺陷检测的难度,所以在利用复杂算法检测、识别PCB缺陷前要先对图像进行预处理。
本图像处理模块主要通过VS软件在OpenCV计算机视觉库的基础上,通过一系列算法对图像进行处理对比。
2 系统软件设计
2.1 OpenCV
OpenCV(Open Source Computer Vision Library)是一个跨平台的可以运行在Linux、Windows和Mac OS操作系统上的基于(开源)发行的计算机视觉库。它重量轻而高效,开放了多种接口如MATLAB、Ruby和Python等,并且在计算机视觉和图像处理中大多数通用的算法都是被允许的。OpenCV可用于开发实时图像处理、计算机视觉和模式识别方案,它提供了多种函数,实现了大量的计算机视觉算法,算法涵盖了从最基础的滤波至以高级的物体检测。OpenCV实际上是一堆C和C++语言源代码文件,许多常见的计算机视觉算法由这些源代码文件实现。如C接口函数cvCanny()实现Canny边缘检测算法。它可直接加入到我们自己的软件项目编程中,而无需去编写自己的Canny算子代码,就是没有必要重复“造轮子”。
根据OpenCV中源代码文件巨多的特点,以算法的功能为基准,将这些源文件分到多个模块中,如core、imgproc、highgui等。将每个模块中的源文件编译成一个库文件(如opencv_core.lib、opencv_imgproc.lib、opencv_highgui.lib等),用户在使用时,仅需在自己的项目中添加要用的库文件,与自己的源文件一起连接成可执行程序即可。
OpenCV计算机视觉库的出现,是为了使人们利用方便快捷的计算机视觉框架,在计算机视觉领域可以更加轻松地设计出更为复杂的应用程序。OpenCV涵盖了多种计算机视觉应用区域,如用户界面、信息安全、医学影像学、工厂产品检验、立体视觉、机器人和摄像机标定等,约有500多个函数。因为计算机视觉与机器学习是相辅相成的,所以OpenCV也开放了MLL(Machine Learning Library)机器学习库。MLL除了在视觉任务相关中使用,也可以很容易地应用到其他机器学习中。
2.2 Microsoft Visual Studio2010
Visual Studio是微软公司推出的开发环境,是同行业中目前最流行的Windows平台应用程序开发环境。Visual Studio 2010于2010年4月12日,其集成开发环境(IDE)已被重新设计和组织,变得更简单了。
Visual Studio 2010同时带来了NET Framework 4.0、Microsoft Visual Studio 2010 CTP(Community Technology Preview――CTP),并且支持开发面向Windows 7的应用程序。除了Microsoft SQL Server外,它还支持IBM DB2和Oracle数据库。目前有专业版、高级版、旗舰版、学习版和测试版五个版本。Visual Studio的用处十分广泛,不仅可被用来基于Windows平台创建Windows应用程序和Web应用程序,还可被用来创建智能设备、Office插件和Web服务等应用程序。微软的Visual Studio 2010将成为一个版本的经典,这是相当于6.0版本。该版本可以自定义开始页,新功能还包括:(1)C# 4.0中的动态类型和动态编程;(2)多显示器支持;(3)使用Visual Studio 2010的特性支持TDD;(4)支持Office;(5)Quick Search特性;(6)C++ 0x新特性;(7)IDE增强;(8)使用Visual C++ 2010创建Ribbon界面;(9)新增基于.NET平台的语言F#。本课题将基于OpenCV计算机视觉库使用Microsoft Visual Studio2010开发环境,通过编辑算法实现PCB缺陷检测。
3 图像预处理
要使用计算机对图像进行处理,所得到的连续图像就必须被转换为离散的数据集,这是因为计算机只能处理离散度数据,这一过程我们称之为图像采集。图像采集由图像采集系统实现,如图6所示。图像采集系统的三个主要模块是成像系统、采样系统和量化器。
图6
将整理出的字符图像交予识别模块来识别,被称为图像的预处理。PCB的图像预处理包括灰度化、增强、滤波、二值化、配准等,处理后的PCB输出的图像质量将得到改善,在很大程度上使得该图像特征更直观,方便计算机分析和处理。PCB的图像预处理为整个PCB缺陷检测系统的核心部件,很大程度上决定了检测的准确性。图像预处理流程如图7所示:
图7 图像预处理流程图
4 PCB缺陷检测
本文针对四种常见缺陷:断路、短路、毛刺(凸起)、缺损(凹陷)进行检测研究。在这四种缺陷中,最为严重的缺陷类型是断路和短路,它们将会使整块板子失去本来的功能;而凸起、凹陷也可能影响到PCB在使用过程中的稳定性能。如图8所示为几种常见的缺陷:
图8 常见电路板缺陷
4.1 PCB缺陷的检测方法
常用的PCB缺陷检测方法有参考法和非参考法两种。要是从概念理解和电路难易程度看,参考法明显更加具有概念直观、电路简单的优势;要是从检测所需要的条件来看,非参考法则在不需要待测PCB与标准PCB进行准确对准这一点上优于参考法。
本课题采用参考法进行PCB缺陷检测。
使用参考法对PCB缺陷进行检测的流程为:(1)确定标准的PCB图像并放入参考库;(2)通过成像设备采集待测PCB图像,进行图像预处理之后,再二值化PCB待测图像,并对其进行连通域提取;(3)然后将处理结果与标准图像进行对比,利用图像相减来判断PCB可能存在的缺陷;(4)进行分类,确定缺陷类型。
4.2 图像连通域
像素是图像中最小的单位,每个像素周围有8个邻接像素,常见的邻接关系有两种:4邻接与8邻接。4邻接一共4个点,即上下左右。包括对角线位置的点,8邻接的点一共有8个,如图9所示:
图9 领域示图
如果像素点A与B邻接,我们称A与B连通,即有如下的结论:
如果A与B连通、B与C连通,则A与C连通。在视觉上看来,点与点相互连通,形成一个区域,而不是连通的点形成不同的区域。这种相互立体的所有的点,我们称为连通区域。连通区域标记常用的方法有Two-Pass(两遍扫描法)和Seed Filling(种子填充法)两种方法,本课题主要介绍第二种。
Seed Filling来源于计算机图形学,通常应用在填充图形上。思路:以一个前景像素当作种子,而后在处于同一像素值且位置相邻的连通区域,把和种子相邻的前景像素融合到同一组像素中,结果将是获得一个像素集,即连通区域。接下来介绍使用种子填充法实现的连通区域分析法:
第一,重复扫描图像,当得到当前像素点B(x,y)=1时停止:(1)赋予B(x,y)一个label,并将像素位置作为种子,接着将所有位于该种子周围的前景像素都压入栈中;(2)将栈顶像素赋以相同的label值并弹出,接着将全部位于栈顶像素周边的前景像素都压入栈中;(3)重复(2)步骤,直到栈为空。此时,图像B中的一个像素值被标记为label的连通区域便被找到了。
第二,在扫描结束前,重复第一个步骤,由此可以获得图像B中所有的连通区域在扫描结束后。
扫描所得的连通域如图10所示:
图10 图像连通域提取
4.3 缺陷识别
缺陷识别具体特征如表1所示:
表1 缺陷特征
缺陷种类 二值图像面积 连通区域数
断路 减少 增加
短路 增加 减少
凸起 增加 不变
凹陷 减少 不变
第一,短路和断路。在出现短路缺陷时,待测图像与标准图像相比,其所包含的连通区域数将会减少。同理可得,在出现断路缺陷时,待测图像与标准图像相比,其所包含的连通区域数将会增多。因此,断路和短路缺陷便可利用比较连通区域数来判定和识别。
第二,凸起和凹陷。凸起缺陷将导致导线和导线、导线和其他导体间的间隙变小,而凹陷缺陷将导致导线和导线、导线和其他导体间的间隙变大,二者均会导致PCB使用过程中出现不稳定状态。而观察可知,这两种缺陷的连通区域相同,差别在于各自二值化面积的大小,所以可以通过计算该待测图像的连通区域面积来识别凸起、凹陷缺陷。
识别过程:将经过图像预处理的待测PCB图像与标准图像进行对比后,通过算法找出缺陷。比较二者的连通区域数,若前者大于后者,则标定该缺陷点为断路,反之则为短路;若二者连通区域数相同,则比较二值化图像面积,若前者大于后者,则标定该缺陷点为凸起,反之则为凹陷。检测流程如图11所示:
图11 PCB缺陷检测流程图
5 系统实验
本文使用CNC-T程控光源高精度影像测试系统操作台,结合VS2010软件基于OpenCV计算机视觉库的算法编程来实现PCB的缺陷检测。整体实验过程为:手动控制操作台捕捉、聚焦、采集待测PCB的图像,采集到的图像与标准图像进行对比、识别,得出缺陷种类并显示结果。
本课题一共就所研究缺陷类型,做了40组实验,通过实验结果计算正确率。如表2所示:
表2 实验结果统计
缺陷类型 实验次数 正确率
断路 10 100%
短路 10 100%
凸起 10 100%
凹陷 10 100%
针对不同电路板图中出现的同种断路类型进行检测,效果如图12a、图12b、图12c所示,可准确检测出缺陷存在。
图12
针对不同电路板图中出现的同种短路类型进行检测,效果如图13a、图13b、图13c所示,可准确检测出缺陷存在。
图13
针对不同电路板图中出现的同种凸起类型进行检测,效果如图14a、图14b、图14c所示,可准确检测出缺陷存在。
图14
针对不同电路板图中出现的同种凹陷类型进行检测,效果如图15a、图15b、图15c所示,可准确检测出缺陷存在。
图15
6 结语
PCB板面向体积越来越小、密度越来越高的方向发展。在检测产品价格方面,国外AOI检测产品价格普遍偏高,而由于经济原因,在国内PCB板生产制造商多数仍采用人工目测等传统检测方法检测。随着经济的发展,数字图像处理研究的深入,自动光学检测系统也开始频繁活跃在人们视线中,但在PCB缺陷检测方面的应用却还有待完善。因此,本论文建立在深入掌握工控系统结构并从PCB板的质量标准、图像特点、缺陷特征及检测要求的分析基础上,对以图像处理为基础的PCB缺陷检测技术进行了深入研究。由于PCB缺陷自动检测系统的研究涉及多个领域的知识,其研究过程十分耗时、繁琐,由此,本论文仅仅对PCB缺陷检测中较为常见的问题进行了较深入研究,并且仅搭建了较为简单的PCB缺陷自动检测系统的实验平台,对PCB中的四类较为关键、常见的缺陷进行检测、分析、识别、判定。虽然还未实现真正实现工业上产业化检测,但是在未来几十年中,研究推广的PCB缺陷自动检测系统将有十分良好的应用前景,也将有高额的经济收益。
参考文献
[1] 陈胜勇,刘盛,等.基于OpenCV的计算机视觉技术实现[M].北京:科学出版社,2008.
[2] Gary Bradski,Adrian Kaebler,于仕琪,等.学习OpenCV[M].北京:清华大学出版社,2009.
[3] 周长发.精通Visual C++图像处理编程(第3版)
[M].北京:电子工业出版社,2006.
[4] 党振.中国大陆PCB产业的现状与未来[J].印制电路信息,2006,32(1).
[5] 胡跃明,谭颖.自动光学检测在中国的应用现状和发展[J].微计算机信息,2006,(4).
[6] 李汉,何星,等.印刷电路板的自动光学检测系统
[J].无损检测,2004,26(6).
[7] 张利,高永英,等.PCB板检测中的定位研究[J].中国图像图形学,1999,4(8).
[8] 姚立新,张武学,等.AOI系统在PCB中的应用[J].电子工业专用备,2004,(5).
[9] 范小涛,夏雨人.一种基于图像处理的PCB检测算法研究[J].计算机工程与应用,2004,(13).
[10] 傅莉.印制电路板的发展及前景[J].电脑与电信,2010,(5).
[11] 张明轩.基于视频序列的人脸检测与跟踪算法研究[D].中北大学,2011.
[12] 张驰.基于机器视觉的智能控制与图像识别问题研究[D].兰州理工大学,2009.
[13] 谢飞.基于计算机视觉的自动光学检测关键技术与应用研究[D].南京大学,2013.
[14] 张静.PCB表观缺陷的自动光学检测理论与技术
[D].电子科技大学,2013.
[15] 俞玮.AOI技术在PCB缺陷检测中的应用研究[D].电子科技大学,2007.
如何学习计算机视觉范文3
因为太多的交流是非语言性的,这就很容易理解为什么人与计算机交互会有障碍。我们经历了从打孔卡到键盘的发展,随着诸如Siri等APP的兴起,我们可以进行语音输入,但是仅仅通过语言,机器还是不能理解我们。
这就是为什么最近机器情绪识别的发展会如火如荼的原因。由于照相机技术和计算机视觉算法的发展,计算机通过面部表情、眼动方式、肢体语言、说话方式甚至抬头等理解我们的能力显著提高。
想象一下:一位虚拟心理医生在临床诊断时可以通过分析患者的面部表情来确诊抑郁症,甚至可以随着病情的变化来量化情绪变化。销售人员能更好地分析客户对其产品和广告的反应,老师们能知道课程计划是否适用于全体学生,智能手机如果感觉到我们不安或困惑,会改变方式并提出建议。
换句话说,冷静的设备会通过我们的面部表情来得知我们的情绪。
计算机视觉研究者已经致力于这项研究几十年了。在这几十年中发生了哪些改变?照相机技术是一个改变。为了理解面部表情,通常需要对表情的微妙变化进行检测,比如脸颊肌肉、嘴部的变化以及挑眉。然而,直到最近,在许多网络相机中人脸看起来还是像一大团粉红色的物质。但是现在即使最原始的智能手机都具有高质量的照相机,能捕捉到诸多显示面部情绪和意图的面部动作。
另一个变化是常规可用计算能力与内存的提高,从而可以运行更加复杂的情绪感知算法。由于有大量训练面部表情算法的视频数据库可用,计算机视觉算法变得越来越正确、有效,还能实时工作。
卡耐基梅隆大学机器人研究所的Fernando De la Torre发明了特别强大的面部识别软件,被称作IntraFace。他的团队采用机器学习的方法来教IntraFace如何以一种适用于大多数面孔的方式来识别和追踪面部表情。然后他们创建了个性化算法能够让软件对个人进行情感表达分析。不仅准确,而且高效,该软件甚至能在手机上运行。
De la Torre和匹兹堡大学心理学家Jeffrey Cohn已经在临床检测抑郁症上获得了令人鼓舞的结果。在自然环境下检测抑郁症要求能够捕捉微妙的面部表情,这就是他们正在做的事。
当然,这并不是万无一失的。演员可能会成功地伪造情感表达。但是,由于真假情绪在表达时间上的不一致,因此关注时间的算法不会轻易上当。此外,面部表情是嵌入到其他非语言行为中的。Cohn和其同事发现严重抑郁症和轻微抑郁症之间在声音的时间上有细微的差别。
另一位成员,语言技术研究所的Louis-Philipe Morency使用多模式机器学习来评估病人的非语言行为来帮助医生更好地评估抑郁症和焦虑。他设想这项技术不仅能帮助诊断疾病,还能在某种程度上量化情感反应,可以帮助医生追踪精神疾病,就像血液检测和X射线能够帮助医生监测身体疾病一样。
如果机器能理解我们的情绪,我们与机器的交互就会变得更加丰富。卡耐基梅隆大学的Justine Cassell研究虚拟同伴在教育行业的应用,她发现当虚拟同伴能对学生们的情绪状态做出适当反应,甚至在某些场合嘲笑他们时,学生们会更积极地参与也会学得更多。
如何学习计算机视觉范文4
在1998年第三次高校本科专业目录修订调整前,测绘学科本科有4个专业:摄影测量与遥感、工程测量、大地测量、地图制图,虽然都要学习摄影测量学,但是各个专业间差异较大,如原武汉测绘科技大学(武测)对摄影测量与遥感专业学生有关摄影测量方面的教学内容包括:基础摄影测量、解析摄影测量、数字摄影测量、摄影技术、航空与航天摄影技术、非地形摄影测量;实践环节包括:航测实验、航测外业实习、航测内业实习。而原测绘学院摄影测量与遥感专业有关摄影测量方面的教学内容包括:摄影与空中摄影、航空摄影测量、航天摄影测量、解析摄影测量、航测自动化、像片判绘(包括实习)、像片转绘,实践环节还包括航测外业实习。由于当时摄影测量教学中实验或实习内容涉及很多价格昂贵的专业摄影测量仪器,一些院校受限于办学条件,当时只开设有工程测量专业。原武测工程测量专业在摄影测量学方面主要的课程有:摄影技术(一学期)、摄影测量学(一学期),但没有相关实习;而同济大学工程测量专业,在20世纪90年代中期开设的摄影测量学相关课程有:摄影测量与遥感(上、下两个学期)、工程摄影测量,实践环节包括:摄影测量实验、遥感实习;相较一些院校的工程测量专业,其摄影测量方面的学时数已经偏多。1998年第三次高校本科专业目录修订后,以一级学科设置本科教学专业,现在本科阶段只有测绘工程专业,摄影测量学作为测绘工程专业的主干课程及方向之一,与原来工程测量专业比,摄影测量学在教学中所占的比重增加,但是该比重远低于在摄影测量与遥感专业中的比重,并且由于总课时呈压缩态势,因此实际授课时间实际是在减少。随着空间技术、传感器技术和计算机技术的发展,近20年来摄影测量学内容发生了很大变化;在经历模拟、解析、数字3个阶段发展后,摄影测量快速进入了航空摄影测量与航天摄影测量并存的发展阶段;航空摄影发展到了模拟航空摄影和数码航空成像并存阶段,航天摄影(测绘卫星)完全实现了数字成像;摄影测量数据处理则实现了全数字化。为了适应摄影测量快速发展的情况,同济大学测量系在2005—2006学年开设了摄影测量学的双语教学[9],其他院校也对摄影测量学教学进行了有益的改革与尝试[10-11]。摄影测量的快速发展使得一方面涌现大量新知识点,现在本科教学中摄影测量方面涉及的很多内容实际上是20世纪90年代以来人们的研究结果,因此需要教授的内容大量增加;另一方面,以一级学科设置本科专业,测绘学科的各个二级学科的内容都要涉及,而通识教育本身又需要挪出相当的学时进行通识类课程学习,造成的结果是在摄影测量方面,现在同济本科教学中相关的课程只有:摄影测量基础、数字摄影测量及实践环节———摄影测量实习,并且其中作为专业主干课的“摄影测量基础”课时缩减为一周4课时(将来还将缩减为3课时),在这种背景下,摄影测量方面的教学应如何开展,特别是主干课摄影测量基础教学如何开展,教学中应该包括哪些内容?过去的模拟摄影测量内容是否要涉及?怎样涉及?这些都须考虑。
二、通识教育下同济大学测绘专业“摄影测量基础”教学探索
作为一门主干专业基础课,摄影测量学在数学上具有完整的理论基础,与其他测绘基础课程如测量学、大地测量学有较大的差异,也是一门非大众化的学科课程;但作为测绘技术中的一个分支,其具有广泛的应用,是后续学习数字摄影测量、近景摄影测量及遥感等专业课程的基础。随着近、现代摄影测量理论研究和技术的发展,相关内容更新非常快,而且与计算机视觉的结合日趋紧密,因此现阶段摄影测量学的教学内容也有较大的变化,一是内容增多,二是内容改变多特别是涉及应用方面。而通识教育背景下,造成课时数紧缩,因此在摄影测量基础教学中须兼顾两者,在教学内容安排中尤其要注意基础部分、拓展部分的比例安排,统筹考虑一般学生的需求和感兴趣且学有余力同学进一步深入的要求。结合摄影测量方面课程的教学经验,确定了“摄影测量基础”课程教学的指导思想。
1.“摄影测量基础”课程教学的指导思想
摄影测量学基础作为一门基础性专业课程,在现在学时大大压缩的情况下,整个教学内容应强调基础性,为学生将来可能的进一步学习打好基础。测绘工程专业的学生将来会从事各种不同的行业应用,同济大学测绘工程专业的学生毕业后单纯从事摄影测量与遥感方面研究与实际工作的并不多,比较多的从事工程测量,但现在工程测量这方面的仪器不少涉及近景摄影测量原理的应用,如工业场景监测等;另一方面还有不少学生从事GIS数据处理的工作,其中会涉及不少航空、航天影像的处理。针对这些不同的学生,项目组成员认为“摄影测量基础”课教学的目的是在有限的学时下,传授摄影测量最基本的概念方法,建立摄影测量学基本框架;为将来进一步学习相关后续课程及将来工作中有关知识学习作准备。考虑到同济大学测绘工程专业摄影测量学方面课程分为摄影测量基础和数字摄影测量学两部分,而卫星影像几何处理集中在后续的遥感课程中讲授,且课时数有限,因此现在“摄影测量学基础”课的教学,其指导思想应是:对摄影测量学的讲授内容侧重于摄影测量基本原理、基本过程,使学生建立起摄影测量的基本思想,保证学生对摄影测量整体过程的理解;在此基础上适当加强摄影测量实际应用部分的教学,提升学生的学习兴趣,同时通过双语教学实践来提高学生的专业外语能力,为今后进一步学习做准备。
2.构建科学的“摄影测量基础”课程教学的目标体系
从上述“摄影测量基础”教学指导思想出发,构建了通识教育下“摄影测量基础”课程教学的目标体系。总体上,“摄影测量基础”教学目的是为满足宽口径人才的培养,满足不同部门对于摄影测量和影像空间信息获取人才的要求,为学生将来的对摄影测量学相关内容的进一步学习、自主学习打好基础,为这一目标,将教学中涉及的内容分成4类:需熟练掌握的、需掌握的、需了解的及兴趣拓展部分。有关数字影像匹配方法的基本计算过程,数字高程模型的建立及其应用,数字微分纠正的原理及正射影像图的制作;全部放到数字摄影测量课中讲授,不在摄影测量基础课上做要求。这样通过本课程教学,使学生系统地学习摄影测量学的基本理论与方法,着重使学生掌握摄影测量学的基本知识(包括空间解析定位和图像解译)及利用摄影测量方法获取空间几何位置信息的基本操作过程;了解摄影测量学与遥感、GIS的密切关系,空间定位技术(GPS)的关系,在摄影测量影像信息处理中的应用及摄影测量学的最新发展及其在国民经济建设中的主要应用。一些感兴趣的学生可以进一步拓展了解其历史发展知识及与计算机视觉的关系。
3.优化教学内容,为学生进一步的学习打好基础
合理选择、组织的教学内容是满足在课时较少情况下学生仍能够较好掌握摄影测量基本知识的重要保证。摄影测量学教学中既包括有大量的摄影几何原理,又涉及很多数据处理的方法及相关应用方面的知识,在现有的教学中各门相关课程的讲授内容各有侧重。而传统的教学方法中沿着摄影测量的发展脉络,从模拟—解析—数字来介绍,其最大的好处是:对摄影测量的发展历史、相关概念演变的关系学生能比较清晰的掌握,但这是建立在过去专业细分的基础上的、需要大量课时,并且最好有一定模拟仪器的支持,这在现有情况下无法满足,而且其中部分知识内容已属于比较陈旧过时的内容,也没有必要讲授,而其中历史部分,虽应涉及,但不同学生对各部分内容的兴趣并不一样。由于将“摄影测量基础”课程的教学内容分成了4部分,因此,摄影测量历史部分知识属于学生只需了解的内容,而模拟摄影测量部分的绝大多数内容则属于兴趣拓展部分的内容。在教学中重点放在学生需要掌握或熟练掌握的内容;同时考虑到计算机视觉研究对摄影测量的冲击与促进,在教学内容中增加了相关内容的介绍,其中部分如计算机视觉方向如何表示像点、物点的关系,它与摄影测量表示方法的关系,是学生应了解或兴趣拓展的内容。目前对摄影测量基础的教学内容及教学顺序作了较大调整:①考虑到学生在先前阶段并没有课程专门讲授摄影测量中的影像获取及其要求,在内容中增加影像获取部分,介绍过去胶面影像的获取(简要介绍)和数字影像的获取,并对相机检校简要介绍;②由于将数字摄影测量部分内容独立在专门的课程介绍,在摄影测量基础部分重点介绍像片解析基础、强化解析空中三角测量部分内容,特别是光束法平差、增加直接线性变换内容;③讲授内容去掉了模拟测图部分内容的介绍,这些内容只作为学生兴趣阅读的材料;④考虑到整个航测成图的整体性,在内容中增加了航测外业部分介绍,包括坐标框架选取、像控点获取,以及影像的调绘。现有的一些摄影测量教材中模拟摄影测量的内容已经完全去掉,只在绪论的历史回顾中出现。由于现在摄影测量中一些名词、概念、处理方法中还留有模拟测图的痕迹,将模拟部分完全去掉是否会影响学生对这些问题理解?一些摄影测量还留有不少模拟的痕迹,完全去掉对学生理解是否有利?从这一角度出发,在讲授过程中仍然将模拟测图内容作适当介绍,作为学生拓展了解的内容。而对于影像解析及解析空三的内容,因其是摄影测量的基础,对进一步学习很重要,因此在授课中强化了这方面的内容。
4.加强与创新项目的结合、与实践的结合
摄影测量是一门应用性很强的学科,为调动学生的学习兴趣,在教学过程中,增加了一些摄影测量知识应用的小实验。如利用规则格网板进行控制,利用普通相机(如手机自带相机)进行面状物体的摄影和基于影像的面状物体形状测量;结合网上大量的影像信息(特别是卫星影像信息,如百度地图、GoogleEarth上的影像信息),与实地相对照,引导学生理解影像调绘、外业控制、像片控制点的概念,并结合学生自己的日常生活进行有针对性的调绘。现在大学本科教育中,非常重视学生创新能力的培养,有各种学校和国家的创新项目。有些学生提出的一些项目申请想法就涉及影像的几何处理、摄影测量的相关知识,因为是学生自己提出的想法,所以学生的兴趣高、学习主动性强,并且很多想法更为新颖、有趣,为此在摄影测量基础教学过程中加强了和创新项目的结合。现在测绘工程三、四年级学生正在进行的创新项目中,有2~3个项目是与摄影测量学相关的。通过加强课程教学与实践和创新项目的结合,原本抽象的概念内容变得具体、实在,与日常生活中应用相结合,调动了学生的学习兴趣,同时为完成这些项目和实践活动,还会涉及一些教学中未授内容,这样可以进一步促进学生深入、主动地学习,能激发学生去思考该学科的更广泛应用,而不是仅局限于测图方面,这也与现在通识教育背景下进行通才培养的理念相一致。
三、结束语
如何学习计算机视觉范文5
关键词:动态纹理;网格;三维模型;动态景物;基于图像的绘制
0引言
近几年,随着虚拟场景建模技术的发展,客户对虚拟场景的真实感和实时性要求越来越高。在大部分虚拟场景中,尤其是自然环境和战场环境中,火焰、烟雾、硝烟以及干扰云等景物是必不可少的一部分。真实地模拟这些动态景物是影响场景绘制速度的一个重要因素,也是计算机图形图像研究的一个重点和难点。用更少的运算和内存空间,更加逼真地模拟它们的状态一直是人们努力的目标。目前已经有很多关于这方面的研究。Lamorletter和Foster对火焰的各个不同部分分别建立模型[1],然后分别计算不同部分的状态,从而体现整个火焰的运动状态。首先建立火焰的外轮廓线模型,然后对火焰进行上下分段,对不同段的粒子采用不同函数描述,从而体现火焰不同部分的亮度,通过各个部分亮度的变化展现火焰的动态效果。Beaudoin则是建立三维的火焰骨架[2],并在三维骨架内建立速度场。火焰的粒子以当前所处位置的速度运动,实现动态效果。同时,他把火焰由内及外分成不同的层,不同的层用不同的亮度计算函数,体现了火焰由内及外的亮度变化。Ngu-yen则是从燃料入手[3],考察固体燃料由固体变成气体燃烧然后再慢慢冷却的过程。在燃烧的过程中,燃料颗粒以气态在空气中运动并且相互作用,产生火焰的动态效果。同时,燃料颗粒经历温度由低到高的过程,亮度也相应由弱到强地变化,使火焰在不同的段,亮度也不同。Schodl提出一种由少量动态火焰产生无限动态火焰序列的算法[4]。Fedkiw通过跟踪点的运动,利用涡流思路成功模拟了烟的运动[5]。Wijk就如何体现流体纹理随机性和不确定性,并保持纹理一致性和连续性提出了很好的思路[6]。
1α-体建模思想
在以上提出的各种建模方法中,出于真实性、随机性和实时性的考虑,在实际建模过程中常用的方法主要有基于粒子系统的建模和分形[7]建模以及依赖于已有的图像序列的基于计算机视觉的建模。这类动态现象包含的共同特性是产生它们的物理机制十分复杂,一般很难通过物理分析的方法对它们建模。而现有的建模算法多数都是基于粒子系统[7~9],既要考虑其复杂的物理模型,又要利用流体力学的知识计算场景的运动状态。其主要缺点是运算量大,很难达到实时绘制的要求。另一方面,可以很容易收集这类动态序列的样本。于是,产生了图像与几何相结合的建模思想:首先从得到的原始图像序列样本恢复几何信息,然后将纹理映射到几何体表面。但是这种方法要用到计算机视觉理论,不可避免地要从图像中精确地恢复对象的几何模型。这是一个非常复杂的过程,尤其是对于这些没有固定形状的动态景物而言。大部分的火焰合成系统都是动态地展现纹理效果,使其在二维平面上展现出栩栩如生的逼真效果,目前在这方面已有很多研究成果[10,11]。在虚拟空间中,需要从各个视角对这种现象进行观察,只靠纹理的方法是不行的;同时,还要求必须能实时地生成。由于景物在运动过程中,纹理状态具有不确定性,用传统的基于粒子的和分形的建模方法,不仅需要大量内存空间来保持它们的连续性和一致性,还要通过大量的运算来求得它们的下一个状态。这会大大降低绘制的速度,不能满足实时性要求。
基于这种状况,本文提出了一种利用已有图像序列的实时建模方法,即α-体建模思想。这种方法既避免了物理建模的复杂性,又省去了用计算机视觉恢复复杂几何模型的过程。首先运用动态纹理合成思想从原始图像集产生动态纹理序列;其次对动态纹理序列进行背景消隐,得到没有噪声的动态纹理序列;然后再对这个纹理序列中的每一张图像进行边界合成,找出不同的颜色区域边界并计算边界的α值;最后根据α值生成α-体集合。在算法中,主要解决了如何利用合成的区域边界勾勒出纹理的轮廓线以及如何从轮廓线计算α值,并生成α体的问题。
2算法设计
2.1产生纹理的动态序列
动态纹理是一种基于图像的绘制方法,通过对输入图像序列进行学习,生成新的图像序列。它与原序列在视觉上十分相似,不但具有很强的真实感,还具有一定的可编辑性。下面首先定义一个动态纹理,然后分别对动态纹理进行学习、识别和合成。
2.2图像的边界合成
为了建立α-体集,必须找出不同区域的边界。在火焰图像中,不同颜色的区域之间的边界都是曲线。这里用Alpha估计技术,通过以不同的比例混合两种颜色产生边界颜色,而且不需要知道边界的详细信息。
在实际图片中,边界的颜色往往受多个区域的影响,有多个区域的图像可以被分解为只有两个邻接区域的图像。因此,这里主要处理有两个区域的图像。本文用分割两个区域的像素链形成区域边界。像素链用边缘监测器发现的边缘创建,而边界使用区域分割算法或边界寻找工具(如智能截取器IntelligentScissors[13])发现。事实上的困难在于纹理可能有噪声和其他数据源。本文采用如下的方法:
(2)计算Alpha和非混合颜色
两个信号集X和Y是每个对象区域颜色的离散表达。现在必须在两个分布之间建立关系和确定颜色空间的任意一个像素Q,只要将颜色信号转换为连续的分布,这种关系可以很容易建立。这里使用一个均匀的高斯混合来确保在颜色空间所有的点有一个非空对应和简化方程。在Q点比较这两个方程是一个估计Q点Alpha值αQ的方式。当假设Q是X和Y的颜色混合时,Q就不可能是这两个分布中的任何一个。因为要估计混合量,传统的决策理论方法是没有用的。这时要真正地从X分布的颜色穿过边界变形到Y分布的颜色绘制Q点。这种变形通过在两个分布之间线性插值实现。这样估计Alpha就变成一个最大化可能的估计问题,即发现最大化Q点值可能值的密度。
3实验结果和算法复杂度分析
摘要:提出了一种α-体建模方法:对实拍图像的学习生成动态纹理之后,再对纹理进行边界合成得到划分了颜色区域的图像;通过对图像区域边界的扫描勾勒出图像的轮廓线网格,并根据其到中心的距离为每个网格边界赋予标准的颜色值;最后根据网格的颜色值生成三维模型。实验证明这种动态景物的建模方法能够满足虚拟场景实时绘制的要求,而且具有很好的鲁棒性和连续性。
关键词:动态纹理;网格;三维模型;动态景物;基于图像的绘制
0引言
近几年,随着虚拟场景建模技术的发展,客户对虚拟场景的真实感和实时性要求越来越高。在大部分虚拟场景中,尤其是自然环境和战场环境中,火焰、烟雾、硝烟以及干扰云等景物是必不可少的一部分。真实地模拟这些动态景物是影响场景绘制速度的一个重要因素,也是计算机图形图像研究的一个重点和难点。用更少的运算和内存空间,更加逼真地模拟它们的状态一直是人们努力的目标。目前已经有很多关于这方面的研究。Lamorletter和Foster对火焰的各个不同部分分别建立模型[1],然后分别计算不同部分的状态,从而体现整个火焰的运动状态。首先建立火焰的外轮廓线模型,然后对火焰进行上下分段,对不同段的粒子采用不同函数描述,从而体现火焰不同部分的亮度,通过各个部分亮度的变化展现火焰的动态效果。Beaudoin则是建立三维的火焰骨架[2],并在三维骨架内建立速度场。火焰的粒子以当前所处位置的速度运动,实现动态效果。同时,他把火焰由内及外分成不同的层,不同的层用不同的亮度计算函数,体现了火焰由内及外的亮度变化。Ngu-yen则是从燃料入手[3],考察固体燃料由固体变成气体燃烧然后再慢慢冷却的过程。在燃烧的过程中,燃料颗粒以气态在空气中运动并且相互作用,产生火焰的动态效果。同时,燃料颗粒经历温度由低到高的过程,亮度也相应由弱到强地变化,使火焰在不同的段,亮度也不同。Schodl提出一种由少量动态火焰产生无限动态火焰序列的算法[4]。Fedkiw通过跟踪点的运动,利用涡流思路成功模拟了烟的运动[5]。Wijk就如何体现流体纹理随机性和不确定性,并保持纹理一致性和连续性提出了很好的思路[6]。
1α-体建模思想
在以上提出的各种建模方法中,出于真实性、随机性和实时性的考虑,在实际建模过程中常用的方法主要有基于粒子系统的建模和分形[7]建模以及依赖于已有的图像序列的基于计算机视觉的建模。这类动态现象包含的共同特性是产生它们的物理机制十分复杂,一般很难通过物理分析的方法对它们建模。而现有的建模算法多数都是基于粒子系统[7~9],既要考虑其复杂的物理模型,又要利用流体力学的知识计算场景的运动状态。其主要缺点是运算量大,很难达到实时绘制的要求。另一方面,可以很容易收集这类动态序列的样本。于是,产生了图像与几何相结合的建模思想:首先从得到的原始图像序列样本恢复几何信息,然后将纹理映射到几何体表面。但是这种方法要用到计算机视觉理论,不可避免地要从图像中精确地恢复对象的几何模型。这是一个非常复杂的过程,尤其是对于这些没有固定形状的动态景物而言。大部分的火焰合成系统都是动态地展现纹理效果,使其在二维平面上展现出栩栩如生的逼真效果,目前在这方面已有很多研究成果[10,11]。在虚拟空间中,需要从各个视角对这种现象进行观察,只靠纹理的方法是不行的;同时,还要求必须能实时地生成。由于景物在运动过程中,纹理状态具有不确定性,用传统的基于粒子的和分形的建模方法,不仅需要大量内存空间来保持它们的连续性和一致性,还要通过大量的运算来求得它们的下一个状态。这会大大降低绘制的速度,不能满足实时性要求。
基于这种状况,本文提出了一种利用已有图像序列的实时建模方法,即α-体建模思想。这种方法既避免了物理建模的复杂性,又省去了用计算机视觉恢复复杂几何模型的过程。首先运用动态纹理合成思想从原始图像集产生动态纹理序列;其次对动态纹理序列进行背景消隐,得到没有噪声的动态纹理序列;然后再对这个纹理序列中的每一张图像进行边界合成,找出不同的颜色区域边界并计算边界的α值;最后根据α值生成α-体集合。在算法中,主要解决了如何利用合成的区域边界勾勒出纹理的轮廓线以及如何从轮廓线计算α值,并生成α体的问题。
2算法设计
2.1产生纹理的动态序列
动态纹理是一种基于图像的绘制方法,通过对输入图像序列进行学习,生成新的图像序列。它与原序列在视觉上十分相似,不但具有很强的真实感,还具有一定的可编辑性。下面首先定义一个动态纹理,然后分别对动态纹理进行学习、识别和合成。
2.2图像的边界合成
为了建立α-体集,必须找出不同区域的边界。在火焰图像中,不同颜色的区域之间的边界都是曲线。这里用Alpha估计技术,通过以不同的比例混合两种颜色产生边界颜色,而且不需要知道边界的详细信息。
在实际图片中,边界的颜色往往受多个区域的影响,有多个区域的图像可以被分解为只有两个邻接区域的图像。因此,这里主要处理有两个区域的图像。本文用分割两个区域的像素链形成区域边界。像素链用边缘监测器发现的边缘创建,而边界使用区域分割算法或边界寻找工具(如智能截取器IntelligentScissors[13])发现。事实上的困难在于纹理可能有噪声和其他数据源。本文采用如下的方法:
(2)计算Alpha和非混合颜色
两个信号集X和Y是每个对象区域颜色的离散表达。现在必须在两个分布之间建立关系和确定颜色空间的任意一个像素Q,只要将颜色信号转换为连续的分布,这种关系可以很容易建立。这里使用一个均匀的高斯混合来确保在颜色空间所有的点有一个非空对应和简化方程。在Q点比较这两个方程是一个估计Q点Alpha值αQ的方式。当假设Q是X和Y的颜色混合时,Q就不可能是这两个分布中的任何一个。因为要估计混合量,传统的决策理论方法是没有用的。这时要真正地从X分布的颜色穿过边界变形到Y分布的颜色绘制Q点。这种变形通过在两个分布之间线性插值实现。这样估计Alpha就变成一个最大化可能的估计问题,即发现最大化Q点值可能值的密度。
3实验结果和算法复杂度分析
3.1复杂性分析
对于一个基于粒子的绘制系统而言,其算法的复杂度与粒子的属性和实现过程有关。在任何系统中,粒子都有以下的属性:粒子的数量、大小、颜色、亮度、透明度、形状、运动速度和方向、生存期;它都要经历粒子状态初始化、依照运动规则运动和属性变化三个实现过程。粒子系统的具体实现过程如下:①在燃点处产生初始火焰粒子集;②赋予火焰粒子属性;③绘制初始火焰;④重新选择火焰粒子集;⑤粒子场中粒子运动、变换;⑥粒子生存期减1;⑦部分火焰粒子消亡;⑧产生新的火焰粒子;⑨绘制火焰粒子集。其中对于每一帧都要重复执行④~⑨。而在本章提出的α-体建模方法中,第一步是初始化过程,是在程序运行之前就必须准备好的动态纹理,这个过程远比粒子系统中①~③要简单得多;其次,在执行过程中对每一帧都要划分边界和计算α值并生成α-体,这个过程也远比粒子系统的④~⑨计算量要小很多,因此该算法的复杂性与基于粒子系统相比要小很多。用粒子系统在SGI图形工作站生成100fps这样的火焰序列,而用本文的建模方法在下面普通的试验环境中也能生成约100fps的序列,性能有明显改善。
3.2效果图
试验环境:PentiumⅢ600MHz的PC机,GeForce2MX显示卡,256MB内存,编程环境为VC++6.0,运行在WindowsXP下,底层图形绘制采用三维图形标准软件Direct3D,每个项目包含120幅图像。
在该环境中,用上面的算法对图1(a)的火焰进行处理。图2分别为三维模型绕轴旋转90°的四个不同视角观察的结果。由图2结果可以看出,本文方法生成的视图没有人工痕迹,几乎达到了与图1(a)的真实图片相媲美的效果。
4结束语
本文以火焰为例,介绍了一种在三维空间重建场景特效的方法。与传统基于粒子系统的方法相比,该算法复杂度低、真实感强;与动态纹理方法相比,该算法能够满足自由变换视点的需要。通过对实时生成的纹理分割,提取了纹理的边界,并利用其边界属性生成几何体,使得用户在场景中,能从不同的视角和视点进行观察。实验证明这种方法不但满足了特效在三维空间视点变换的需要,而且克服了传统建模方法占用存储空间大和运算复杂的缺点,实现了动态景物的实时绘制,提高了绘制速度。
在本文对虚拟火焰的模拟中,不同层的火焰亮度是用颜色和Alpha值确定的,Alpha值用来确定该层火焰的透明程度。在这里Alpha值的计算只是依据边界到中心线的距离,而每一层的实际亮度并不是完全按照这种模式分布的,这将可能导致图形因亮度因素而部分失真。如何准确地再现特效的实际亮度是今后的努力方向。
参考文献:
[1]LAMORLETTEA,FOSTERN.Structuralmodelingofflamesforaproductionenvironment:proceedingsofthe29thAnnualConferenceonComputerGraphicsandInteractiveTechniques[C].NewYork:ACMPress,2002:729-735.
[2]BEAUDOINP,PAQUETS,POULINP.Realisticandcontrollablefiresimulation:proceedingsofGraphicsInterface[C].Ottawa:[s.n.],2001:159-166.
[3]NGUYENDQ,FEDKIWR,JENSENHW.Physicallybasedmode-lingandanimationoffire[J].ACMTransactionsonGraphics,2002,21(3):721-728.
[4]SCHODLA,SZELISKIR,SALESINDH,etal.Videotexture:proceedingsofACMSIGGRAPHConference[C].NewOrleans:ACMPress,2000:489-498.
[5]FEDKIWR,STAMJ,JENSENHW.Visualsimulationofsmoke:proceedingsofACMSIGGRAPHConference[C].NewYork:ACMPress,2001:15-22.
[6]WIJKJJV.Imagebasedflowvisualization:proceedingsofthe29thAnnualConferenceonComputerGraphicsandInteractiveTechniques[C].NewYork:ACMPress,2002.
[7]周丽琨.虚拟现实系统中不规则形体的几何表现[D].武汉:武汉理工大学,2003.
[8]彭艳莹.基于粒子系统的内燃机燃烧可视化研究[D].杭州:浙江大学,2003.
[9]孙丽娟.虚拟战场环境建模及兵力的运动控制研究[D].哈尔滨:哈尔滨工业大学,2002.
[10]林夕伟,于金辉.基于粒子和纹理绘制的火焰合成[J].计算机应用,2004,24(4):77-79.
[11]HASINOFFSW.3DReconstructionoffirefromimage[D].Toronto:GraduateDepartmentofComputerScience,UniversityofToronto,2002.
[12]SOATTOS,DORETTOG,WUYN.Dynamictextures:proceedingsofIEEEICCV[C].Vancouver:[s.n.],2001:439-446.
如何学习计算机视觉范文6
关键词:视觉导航;移动机器人;图像处理
中图分类号:TP242文献标识码:A文章编号:1009-3044(2008)09-11705-01
Robot Vision Navigation's Summarize
WU Lin
(Liaoning Finace Vocational College Information Technology Department, Shenyang 110122, China)
Abstract: Navigation's technique is the core of mobile robot. Mobile robot has many navigation methods. This thesis make a analysis and contrast among all kinds of navigation methods, it gives that because of the development of vision theory and method,and compare to laser, radar and ultrasonic, vision navigation has many advantages,so vision navigation are adopted in many fields. Mobile robot processes the picture in the process of navigation, the bad of real-time always is a very tough problem. The key of solving this problem based on designing a kind of fast picture treatment method.
Key words: vision navigation; mobile robot; picture treatment
移动机器人是一种在复杂的环境下工作的具有自规划、自组织、自适应能力的机器人。移动机器人集人工智能、智能控制、信息处理、图像处理、模式识别、检测与转换等专业技术为一体,跨计算机、自动控制、模式识别、智能控制等多学科,成为当前智能机器人研究的热点之一。
在移动机器人的运动过程中始终要解决的是自身的导航与定位问题,相关技术研究中,导航技术可以说是其核心技术,也是其实现真正的智能化和完全的自主移动的关键技术。也就是DurrantWhyte提出的三个问题:(1)“我现在何处?”;(2)“我要往何处去?”;(3)“要如何到该处去?”[1] 其中问题(1)是移动机器人导航系统中的定位及跟踪问题,问题(2)、(3)是移动机器人导航系统中路径规划问题。导航研究的目标就是没有人的干预下使机器人有目的地移动并完成特定任务,进行特定操作。机器人通过装配的信息获取手段,获得外部环境信息,实现自我定位,判定自身状态,规划并执行下一步的动作。
移动机器人的导航方式分为:基于环境信息的地图模型匹配导航;基于各种导航信号的路标导航、视觉导航和味觉导航等[2]。
环境地图模型匹配导航是机器人通过自身的各种传感器,探测周围环境,利用感知到的局部环境信息进行局部地图构造,并与其内部事先存储的完整地图进行匹配。如两模型相互匹配,机器人可确定自身的位置,并根据预先规划的一条全局路线,采用路径跟踪和避障技术,实现导航。它涉及环境地图模型建造和模型匹配两大问题。
路标导航是事先将环境中的一些特殊景物作为路标,机器人在知道这些路标在环境中的坐标、形状等特征的前提下,通过对路标的探测来确定自身的位置。同时将全局路线分解成为路标与路标间的片段,不断地对路标探测来完成导航。根据路标的不同,可分为人工路标导航和自然路标导航。人工路标导航是机器人通过对人为放置的特殊标志的识别实现导航,虽然比较容易实现,但它人为地改变了机器人工作的环境。自然路标导航不改变工作环境,是机器人通过对工作环境中的自然特征的识别完成导航,但路标探测的稳定性和鲁棒性是研究的主要问题[3]。
视觉导航,计算机视觉具有信息量丰富,智能化水平高等优点,近年来广泛应用于移动机器人的自主导航。视觉导航方式具有信号探测范围广,获取信息完整等优点,是移动机器人导航的一个主要发展方向[4]。目前国内外主要采用在移动机器人上安装车载摄像机的基于局部视觉的导航方式,如文献[4]中所提及的:D.L.Boley等研制的移动机器人利用车载摄像机和较少的传感器通过识别路标进行导航;A.Ohya等利用车载摄像机和超声波传感器研究了基于视觉导航系统中的避碰问题等。视觉导航中边缘锐化、特征提取等图像处理方法计算量大且实时性较差,解决该问题的关键在于设计一种快速的图像处理方法或采取组合导航方式[4-5]。
味觉导航是通过机器人配备的化学传感器感知气味的浓度,根据气味的浓度和气流的方向来控制机器人的运动。由于气味传感器具有灵敏度高、响应速度快以及鲁棒性好等优点,近年来许多研究人员在气味导航技术上做了许多研究工作。但该项技术能够真正应用到实际环境中的却很少,仍处于试验研究阶段。Figaro Engineering Inc.公司研制的氧化锡气味传感器,被广泛用于气味导航试验。石英晶体微平衡气味传感器、导电聚合物气味传感器和一种模仿哺乳动物鼻子功能的电子鼻等用于移动机器人味觉导航的传感器都处于试验阶段。目前的味觉导航试验多采用将机器人起始点和目标点之间用特殊的化学药品,如酒精和樟脑丸等,引导出一条无碰气味路径,机器人根据不同的道路跟踪算法,用气味传感器感知气味的浓淡和气味源的方向进行机器人导航试验。味觉导航的研究具有很好的研究价值,该种移动机器人可用来寻找化学药品泄露源。
由于计算机视觉理论及算法的发展,又由于和激光、雷达和超声在导航方面相比,视觉导航具有以下几个优点:首先,即使在丢弃了绝大部分的视觉信息后,所剩下的关于周围环境的信息仍然比激光雷达和超声更多更精确;其次,激光雷达和超声的原理都是通过主动发射脉冲和接受反射脉冲来测距的,因此当多个机器人同时工作时,相互之间可能产生干扰,而视觉由于是被动测量,因此多个机器人相互之间的干扰可以减少到最小;最后,激光雷达和超声数据的采样周期一般比摄像机长,不能及时对高速运动的机器人提供信息并作出规划,因此视觉传感器被大量地采用。目前移动机器人的导航大都采用基于视觉或有视觉参与的导航技术。最近二十年来,在未知或部分未知环境中,基于自然路标导航与定位技术的研究;视觉导航中路标的识别以及图像处理的新型快速算法的研究成为了计算机视觉的主要研究方向。
视觉导航主要完成障碍物和路标的探测及识别。国内外应用最多的是在机器人上安装车载摄像机的基于局部视觉的导航方式。P.I.Corke等对有车载摄像机的移动机器人视觉闭环系统的研究表明,这种控制方法可以提高路径跟踪精度。从视觉图像中识别道路是影响移动机器人导航性能的一个最重要因素。对于一般的图像边沿抽取而言,已有了许多方法,例如,局部数据的梯度法和二阶微分法。Trahanias利用视觉探测路标来完成机器人的导航。其中路标不是预先定义的人工路标,而是在学习阶段自动提取的自然路标。在视觉导航中边缘锐化、特征提取等图像处理方法的计算量大,移动机器人是在运动中对图像进行处理,实时性差始终是一个非常棘手的问题。解决该问题的关键在于设计一种快速图像处理方法。为了满足速度的要求,基于统计计算的预值法被应用于机器人的导航,但在实际应用中发现,它抑制噪声的能力差,特别是预值的选取极大地依赖于环境,要想获得理想的结果,仅在一幅图像中的不同区域就要设置不同的预值。近些年,由于人工智能的发展,有很多好的算法被应用到移动机器人的视觉导航中去。比如,根据导航图像的特点采用边缘提取结合HOUGH变换的方法和带滤波窗的区域扫描的方法,经过检验,这两种算法都具有较好的实时性,对于直线形态的各类导航线以及对于已知半径的弧形导航线具有较高的可靠性,以上算法目前对于分支较多的直线形态的导航线以及未知半径的弧形导航线的效果不佳,这是今后努力的方向。
Stanley还提出了基于神经网络的机器人视觉导航技术。该技术中估算逆雅可比矩阵,并将图像特征的变化与机器人的位置变化对应起来,通过神经网络训练来近似特征雅可比矩阵的逆阵。该技术,通过提取几何特征、平均压缩、向量量化和主成分提取来简化图像处理,实现实时视觉导航。
综上所述,移动机器人是在运动中对图像进行处理,实时性差始终是一个非常棘手的问题。解决该问题的关键在于设计一种快速图像处理方法。将室内地面作为机器人视觉导航的路标。依据地面的颜色信息,将地面上没有障碍物的区域识别并分割出来,机器人在可行走区域内行走,这样就可以实现机器人的自主导航。利用环境中地面的颜色特征,采用比较简单的图像处理算法分割彩色图像,经实验证明可提高机器人导航的实时性、准确性和鲁棒性。
参考文献:
[1] 郭戈,胡征峰,董江辉.移动机器人导航与定位技术[J].微计算机信息,2003,19(8):10-11.
[2] 吕永刚,谢存禧.移动机器人的导航与路径规划的研究[J].机电工程技术,2004,33(1):19-21.
[3] Kenneth D Harrisa.Absolute localization for a mobile robot using place cells[J].Robotics and Autonomous System,1997,(22):393-406.