前言:中文期刊网精心挑选了计算机视觉传达技术范文供你参考和学习,希望我们的参考范文能激发你的文章创作灵感,欢迎阅读。
计算机视觉传达技术范文1
关键词:手势识别;Zernike矩;傅里叶描绘子;多层感知器
中图分类号:TP391.41 文献标识码:A 文章编号:1674-7712 (2014) 02-0000-02
一、引言
人机交互(Human Computer Interaction)在日常生活中扮演重要角色。手势识别作为人机交互的一种方式,得到越来越多的研究。人们可以通过手的不同动作和不同形状,来传达丰富的信息。手势识别可用于游戏、遥控、手语翻译、虚拟现实等很多领域。
根据手势信息获取的方式,手势识别可分为基于数据手套(Data Glove)方式和基于计算机视觉(Computer Vision)方式。数据手套方式需要用户手戴一个传感设备,将人手指关节角度等信息传送给计算机,计算机通过这些信息识别手势,文献[1][2]研究了基于数据手套的手势识别;计算机视觉方式则是通过获取包含人手的数字图像,通过进行进一步运算识别手势。基于计算机视觉的方式在人机交互中有着天然的优势,然而所需要的技术也更复杂。本文研究基于计算机视觉方式的手势识别。
目前基于计算机视觉的静态手势识别方法,可分为基于3D建模的方法和基于表观的方法。文献[3]采用3D建模方式进行手势识别,介绍了基于表观的手势识别方法。基于3D建模方式的手势更能精确表示手势信息,但需要更大的计算量。基于表观手势建模方式计算复杂度低,易满足实时性要求。本文研究基于表观特征的手势识别。
本文其余内容安排如下,第2部分介绍如何提取表观特征,第3部分介绍如何采用多层感知器进行模式识别,第4部分给出实验结果,最后第5部分为本文结论。
二、手势特征提取
(一)基于肤色的手势分割
肤色检测在人脸识别、手势识别中扮演重要角色,近年来肤色检测技术得到了广泛研究。常用的5种色彩空间为RGB、HIS、HSL、YCbCr和YUV,研究肤色在不同光照条件下在上述色彩空间中的分布情况。结果显示YCbCr和HIS色彩空间比RGB色彩空间更适合肤色检测和分割。这里我们用基于YCbCr色彩空间进行肤色检测,RGB转换到YCbCr的公式如下,
将含有手势的图像阈值分割成二值图像,然后对分割后的图像进行中值滤波和形态学处理。本文的重点不在于肤色检测研究,因此在试验中选择背景相对简单和光照相对充分的环境进行肤色检测。手势分割结果如下,
(二)Zernike矩
常规矩被广泛应用于二维平面特征提取,常规矩定义如下,
mpq为连续图像f(x,y)的第p+q阶常规矩。对于离散数字图像,上式变为,
在此基础上Hu提出了7个对平移、缩放、旋转都不敏感的不变矩,Hu不变矩被应用于模式识别问题中。
计算机视觉传达技术范文2
设计时必须根据内容的需要,将这些图片和文字按照一定的次序组成一个有机的整体,展现给广大的观众,可以依据如下几条来做:主次分明,中心突出。在一个页面上,必然考虑视觉的中心,这个中心一般在屏幕的中央,或者在中间偏上的部位。因此,一些重要的文章和图片一般可以安排在这个部位,在视觉中心以外的地方就可以安排那些稍微次要的内容,这样在页面上就突出了重点,做到了主次有别。
大小搭配,相互呼应。较长的文章或标题不要编排在一起,要有一定的距离,同样,较短的文章也不能编排在一起。对待图片的安排也是这样,要互相错开,造成大小之间有一定的间隔,这样可以使页面错落有致,避免重心的偏离。图文并茂,相得益彰。文字和图片具有一种相互补充的视觉关系,页面上文字太多,就显得沉闷,缺乏生气。页面上图片太多,缺少文字,必然就会减少页面的信息容量。因此,最理想的效果是文字与图片的密切配合,互为衬托,既能活跃页面,又使主页有丰富的内容。
色彩表现
色彩设计在网站视觉传达设计中起到非常重要的作用。一个色彩设计好的页面不但能够加强信息内容的丰富性,而且能够提高浏览者的关注兴趣。一个具体的色彩设计方案要在多个页面中起到统一连贯的作用,当然,一个网站界面的色彩不能超过四种颜色,否则会让浏览者没有方向和重点。这就要求我们注意以下几点:要通过一个主色调选择来确定整个页面的色彩倾向性。这里的主色调要体现网站主题性质。在选择主色调同时也要考虑到辅助色选择,这样在页面设计中就不会造成色彩混乱现象。大多数网页以浅颜色为背景的居多,利于再配上深颜色的字,读时自然、流畅,也有突出页面的重点,有利于辅助色的运用,更容易为大多数浏览者认可。
在主色调与辅助色搭配上一定要注意不能有强烈的对比,特别是要注意尽量不使用互补色彩,避免造成色彩反差过大给浏览者视觉上的刺激。大面积颜色适宜采用低对比度,因为过于丰富的背景色彩会影响前景图片和文字的清晰度,严重时会使文字溶于背景中,不易辨识。所以,背景一般应以单纯为宜。实际上背景的作用主要在于统一整个网页的风格和情调,对视觉的主体起到一定的衬托和协调作用。主页色彩处理的好,可以锦上添花,达到事半功倍的效果。色彩总的应用原则是“总体协调,局部对比”,也就是:主页的整体色彩效果应该是和谐的,只有局部的小范围的地方可以有一些强烈色彩的对比。另外哪种因素占主导地位,是明度、纯度还是色相。
图形表现
图形带有醒目、吸引人以及传达信息的功能,好的图形应用会给网页增色不少,不当的图形会适得其反,,而其中又以大量使用无意义及大型的图形为网页界面设计的败笔。网页界面设计是一个兼具原创性、实用性和艺术性的领域,它不但需要奇妙的创意构想,也需要能具有迸发出激情和感染力的手段能量,而通过手绘直接创作出来的视觉设计作品与完全使用计算机技术进行创作的网页设计作品相比,其妙手偶得和无法复制的原创性决定了它是最有魅力、也是最有价值的。相比已经程式化、单一化和麻木化的计算机视觉作品,人们的内心世界也更容易被淳朴的东西所打动而备感亲切。
计算机视觉传达技术范文3
一、 新媒体与数字艺术的概念
1、何谓“新媒体”
清华大学熊澄宇教授认为:“所谓新媒体是一个相对的概念,‘新’相对‘旧’而言。从媒体发生和发展的过程当中,我们可以看到新媒体是伴随着媒体发生和发展在不断变化。广播相对报纸是新媒体,电视相对广播是新媒体,网络相对电视是新媒体。今天我们所说的新媒体通常是指在计算机信息处理技术基础之上出现和影响的媒体形态。”(熊澄宇《新媒体与文化产业》,载于人民网2005年2月1日)
新媒体是指依托于数字化、网络化信息处理技术和通信网络的新型信息媒介的总称。过去图书、报刊、电台、电视台是主流媒体,但是目前随着新媒体对主流媒体的介入,新媒体逐渐从配角变成主角,新媒体的传播速度快、覆盖面广、互动性强、影响力大。2008年我国移动媒体总收入是1053亿元,网络媒体总收入279亿美元,两者相加综合是1332亿元,占到我国传媒产业总产值的1/4,也就是说新媒体的收入增长幅度远远超过传统媒体。目前我国所有新媒体公司的收入是传统媒体的20%,新媒体上市公司比传统媒体要多一倍以上。
新媒体随着信息通信科技的发展而不断发展,目前新媒体主要包括:网络媒体、掌上媒体、数字互动媒体、车载移动媒体、户外媒体及新媒体艺术等等。
2、何谓“数字艺术”
从1946年计算机发明至今,“数字艺术”的概念是变化发展的,不同时期其称呼也有所区别,这也是使人混淆的地方,但如果将其放在一个历史发展的纹脉中理解就相对比较容易。1950年Ben laposky 用第一台电子计算机进行模拟绘画,并将其称之为“电子抽象”。1960年代中叶,美国UTAH大学开展计算机视觉技术的研究,产生了计算机图形最重要的理论和算法,包括渲染、材质、光效果、环境贴图、建模等。期间,还有很多艺术家、设计师和工程师一起合作,进行艺术探索,其中包括著名的当代艺术先锋,如Andy Warhol、Nan June Paik、John cage等,这一时期的使用计算机进行艺术可能性的尝试被称为“计算机艺术”(Computer Art)。
根据Glen Wilkins在2001年的《Painting with Pixels》一书中的阐述,数字艺术可以定义为:任何在创作过程中的全程,或某一阶段使用了计算机来处理素材,最后呈现图像全貌,都可称为“数字艺术”。
3、何谓“新媒体与数字艺术”
1974年,美国计算机研究所成立计算机图形实验室,开展计算机动画、分形、变形、图像合成、纹理映射等方面的大量研究,开发了一个名为Paint的程序,用于计算机动画的创作。1970―1980年代末,计算机开始从大型机向微型机发展,计算机硬件和计算机图形都有了长足的发展。通讯网络技术开始起步,计算机屏幕上不仅可以显示文本,还可以显示图形、图像,以及声音,因此为了区别于单一文字模式的计算机,这一时期的计算机被称为多媒体计算机。
这一时期出现了交互的多媒体光盘设计,这一设计形式真正突破了以往的线性设计,引入了非线性设计的概念,对人机界面设计的需要迫切。计算机动画、计算机特效开始步入大众视野,但成本非常昂贵。1986年,Quantel发表了世界上第一套非线形编辑系统Harry,用绘图板可以将单个图像按运动顺序组合起来,进行编辑、处理、组合,进行录像。自此,电脑数字化视觉应用技术为艺术与设计创作提供了宽大的平台,社会称其为“数码设计”和“数码艺术”,它的载体就是数码新媒体。
新媒体与数字艺术就是利用非线性编辑软件和非线性的编辑与合成技术,对数码图像、数码视频、数码文字进行创建、修改和艺术创作,并通过数字视频的编辑,产生艺术设计的视觉效果,如数字广告、数码动画、数字电影等等。新媒体与数字艺术就是泛指这一时代背景下跨学科的以计算机作为工具的艺术内容和形式。
二、新媒体与数字艺术的基本特征
从1990年代初开始,计算机和网络开始普及,“数字化的生存”成为一种生活方式。1995年的《玩具总动员》,使计算机动画路人皆知,电子游戏也成为新的产业。在这数字一体化的历史大背景下,新媒体与数字艺术跨越了技术、设计、艺术、科学的所有领域,并具有鲜明的时代特征:
1、受众变被动接受为主动参与
传统的大众传播中,所有的智慧都集中在信息的起始点,信息传播者决定一切。大量的信息推向受众,而受众一般只能被动接受。在数字世界里信息是按比特放置于计算机硬盘或光盘内的,由受众选取其需要的比特信息。这一功能的实现,是基于比特流中的超媒体可以为受众提供检索、导向和互动。所有的新媒体与数字艺术都包含有互动的功能,也就是说,艺术可以存在于信息的起点和终点两端。
2、交流的双向化、个性化
在数字媒体传播中,传播者和受众之间能进行适时的通讯和交换,而不仅仅是被动接收。这种适时的双向化首先使反馈信息变得轻而易举;同时每台计算机都可以是一个小电视台,信源和信宿的角色可以随时改变。数字化传播中点对点和点对面传播模式的共存,一方面可以使大众传播的覆盖面越来越大,另一方面可以越来越小,直至个人化传播。个性化是新媒体的一个本质特征。新媒体可以做到面向更加细分的受众,甚至可以面向个人。个人可以通过新媒体订制其需要的新闻。也就是说,每个新媒体受众最终接受到的信息内容组合可能是完全不同的。这与传统媒体受众只能被动地阅读无差别复制的内容不同。
3、可信度需读者自己判断
新媒体信息如果从实用角度来检验,可信度往往较低,但读者可辨别(仅指新媒体自身原创的或整合加工的信息);纸媒中,报纸新闻信息因时间限制可信度比较高 。但报纸评论的可信度并不高,这是信息不对称及报纸利用客观因素加固信息壁垒获得商业利益造成的。相对而言,杂志书籍的可信度更高一些。
4、媒体无时间制
与报纸、广播、电视相比,只有新媒体才真正具备随时信息的可能。新媒反馈系统健全,纸媒体和电视媒体反馈渠道单一。传统媒体有明确的时效、时段,定时定量。这种传播时效,决定受众的关注也有时段性:每天一次性的关注。而新媒体24小时在滚动,每天必须N次关注,才不会漏掉重要新闻。滚动新闻这种形式,对于习惯了每天一次性关注的受众来说,很可能会漏掉重要新闻。新媒体网络的立体性和非线性传播特点使其受众完全没有这种担心。一句话,新媒体可以以更强的时效性反馈信息。
5、维护成本较高
新媒体技术高,更新快,维护成本较高,需要持续检查更新,以维持其24小时不间断的服务;相对而言,报刊、广播电视技术发展了上百年,已经非常成熟,加上信息传送的周期性,虽然一次性投入成本较高,而动态成本是较低的。管理机制相对模糊,新媒体的老大往往是总经理而不是总编。对技术的重视也有区别,在新媒体决策层中技术人员的分量重。
6、技术、人文、艺术的融合
熟练掌握数字媒体技术是新媒体与数字艺术的基础。就像从事传统绘画创作的画家那样,首先要熟练运用构图、透视、笔墨等,只不过今天从事新媒体与数字艺术创作的艺术家首先要面对的是计算机和互联网而已。此外,新媒体与数字艺术具有图、文、声、像并茂的立体化、综合性等特征,就要求艺术家兼具人文、艺术等多方面的素养。如何利用数字媒体的各种表现手段,使之综合、立体地,有针对性地、最有效地传达信息,就日趋成为每一个新媒体与数字艺术家值得研究的课题。因此,新媒体与数字艺术是一个技术、人文、艺术高度融合的全新领域,需要不断研究才能达到良好的艺术效果。
三、新媒体与数字艺术带给我们的启示
近几年来,新媒体与数字艺术不断地体现出自身的魅力,带给人们眼花缭乱的精彩。杰?尼尔(Jakob Nielsen)曾在《传统媒体的终结》里预言:“未来的五到十年间,大多数现行的媒体样式将寿终正寝,它们将被以综合为特征的网络媒体所取代。”(转引自吴洁《从超越到机遇――德国柏林国际媒体艺术节观感》,载于《设计新潮》2001年第2期)那么,数字新媒体的设计究竟能给我们带来什么呢?
首先,从新、传统媒体关系的对比来看,二者的确存在某种程度的互相替代性,但绝不是简单的新替代老,而是一种“你中有我,我中有你,互相融合,共谋发展”的关系。但是我们必须承认,新媒体和传统媒体具有受众选择的替代性。美国一家公司的抽样调查表明,新媒体出现后,23%的人看电视少了,20%的人看杂志少了,9%的人听广播少了,11%的人看报纸少了……这说明数字媒体的受众对象正在不断地扩大。但是,目前新媒体的主导内容在很大的分量上却是传统媒体的电子翻版,它的新闻来源于传统的报纸、杂志和电视以及通讯社等。新浪网的新闻中心是全球第一家24小时滚动播出的中文网站。目前,该网站在全国已有50多个合作对象,包括报纸、杂志、电台、电视台、通讯社等,每日编发新闻数以万计。美国在线(AOL)的新闻主要靠路透社与美联社这两家通讯社撑腰。
传统媒体由比较单一的媒体结构发展到今天的多种媒体大联合,各种媒体又吸收、借用了其他媒体的优势,不断形成新的媒体。各种媒体各种技术的相互融合与渗透,不断涌现出各种新的媒体形式,媒体环境变得多样化、多媒体化、多频道化。“三网融合” (指电信网、计算机通信网和有线电视网三大网络通过技术改造,能够提供包括语音、数据、图像等综合多媒体的通信业务)是传播科技发展的最终趋势,这对传统媒体而言意味着多了一个新的、广阔的内容传播渠道。应该看到,在媒体多元化的嬗变中,谁也挡不住技术前进的步伐,新媒体与传统媒体之间的界限将被永久性打破。未来无论是新媒体,还是传统媒体,要生存下去,都需要拥有双重身份。受众从传统媒体走向新媒体,又从新媒体回到传统媒体,从在线到下线,从下线到在线,新老媒体之间的界限变得越来越模糊。
计算机视觉传达技术范文4
关键词:数字媒体 增强现实技术 媒体融合
中图分类号:TP37
文献标识码:A
文章编号:1003-0069(2015)10-0084-02
增强现实是以虚拟现实技术为基础发展形成的重要分支,增强现实可以通过将计算机产生的文本、图像甚至视频或场景实时嵌入到用户所处的真实世界,从而建立虚拟与真实之间的联系,实现增强现实世界信息的目的,提高用户的感知能力。虚拟现实技术产生于上世纪六、七十年代,并对扩展人类认识世界,提高适应世界的能力起到了重要作用,特别是在仿真训练、工业设计以及交互体验等领域得到了广泛应用。但由于虚拟技术建模工作量大以及现实世界匹配程度等问题一直得不到有效解决,因此刺激出现了多种虚拟现实增强技术,其中将虚拟对象嵌入到真实世界的增强现实技术有效降低了建模工作量,促进了虚拟现实技术的进一步发展。
1增强现实的特点
增强现实技术是连接现实与虚拟的媒介,作为现实世界的有效延伸,也体现出对虚拟世界的必要补充,因此增强现实具有虚实结合、实时交互和三维注册的特点。
1.1虚实结合
由于增强现实和虚拟现实具有本质区别,增强现实的出发点并不是要完全取代现实环境,同时还体现出对现实世界的突出依赖,可以说增强现实的目的就是为现实服务的。其主要特征是将虚拟信息与真实世界相互融合并叠加成一个画面,同时展示出真实世界与虚拟世界的双重信息,实现这两种信息的补充、叠加,从而体现出虚实结合的特点。
1.2实时交互
实时交互是指用户可以依靠对现实世界的信息的获取,从而实时得到反馈信息。因为增强现实需要通过对现实事物的迅速识别,然后在设备中合成,才能将混合信息准确传达给用户,从而实现了虚拟与真实信息的同步传播。
1.3三维注册
增强现实技术的实现依赖于摄像机姿态的实时跟踪,并得到摄像机影像位置及角度的实时信息。在上述基础上才可以实现虚拟图像在真实场景中的位置注册,并最终实现虚拟和真实世界的自然的融合。因此增强现进行识别的前提是三维注册,如果不经过三维注册是绝对不能实现增强的。
2媒体融合增强现实技术的技术基础
2.1相机跟踪注册技术
虚拟技术通过人机交互,可以带给用户身临其境的真实体验,但是这一切都需要大量而精细的建模渲染计算。媒体融合增强现实技术中摄像机所采集图像真是生活场景的真实反映,可以大幅减少建模与渲染工作量,从而提供了一种轻量级的增强技术,但是也给拍摄中的相机跟踪注册提出了新的要求。相机跟踪注册的内涵是指将相机观测的二维图像与虚拟的三维场景之间建立空间投影关系,这就需要对相机的位置与姿态实时进行参数估计。由于传统的特殊标识相机跟踪方式需要依靠场景中的标识物,因此限制了该技术的应用范围。所以相关学者经过研究提出了基于自然特征的注册技术,以有效突破相机跟踪中标示物的限制和约束,该技术自产生以来就被迅速应用于增强现实领域。
在视觉跟踪技术运用帧一模型的匹配方法要比帧一帧匹配方法更具可信性,尤其是适应连续帧重建问题。然而存在主要问题是由于计算量大容易造成实时性不佳的问题。在大场景定位方面,基于微软的Kinect深度相机的有效深度一般可以控制在10 m以内,如果是基于可见光的双目立体相机在科学调整基线长度的情况下,则能够获得更远的深度估计。所以因此将微软Kinect深度相机、立体相机以及惯性导航单元等传感器有机结合在一起,是提高三维注册技术精度的有效解决办法,基于这一方式可以实现高精度的增强现实技术。
2.2视频目标的跟踪与可见性计算
视频目标的跟踪是实现媒体融合增强现实技术的关键。其中关于动态目标的跟踪以及可见性计算则是实现虚拟与真实融合的主要关键,而虚拟角色的可见性计算不仅是一项难度极高的任务,同时要考虑到视频分层的实时处理,因此在计算方法的选择上也有极高的要求。从目前的研究成果来看,通用的方法是将动态目标跟踪与可见性计算两个主要问题进行同步处理,一揽子解决问题,也就是通过视频分割来提高算法的效率。但是基于目前普遍采用的二元分层方式,在遇到多个前景目标的情况下,前景分割将和目标跟踪不仅会变得极为复杂,同时判定和计算的速度与精度也难以保证。因此在此次研究中提出了一种将虚拟角色实时融入真实视频场景的算法。该算法的基本思虑是首先对虚拟人群进行约束式行为建模,然后通过背景剔除与局部约束分割并行的方式,对动态目标进行实时的多目标跟踪与分割,最后利用自适应卡尔曼滤波方法,做出目标的稳定运动的准确估计,并收到了良好效果。
2.3视频融合
视频融合是实现媒体融合增强现实技术下虚拟环境真实显示的关键性步骤,但目前使用的图形绘制方法主要是在融合静态三维模型情况下的真实感渲染。例如Debevec曾经提出利用手工方式进行三维拓扑以及图像内容的映射,以达到非相机视点的效果,但鉴于在当时的情况下并未实现三维空间标定关系的真实体现,这种方式下纹理坐标与三角形顶点关联,必须在渲染之前进行指定。与之相对的是AVE系统下由模型到图像的方法。这种方法下,视频投影并不需要依靠相机所在的位置以及相机图像以外的更多信息,即对模型上诸顶点的坐标进行实时计算获取,因此这种方式的好处是随着相机位置以及视频内容的变化,可以便捷地计算出图像的映射关系。虽然该方法在图像渲染与三维可视化领域得到广泛应用,但是由于图像只能在相机可见的区域映射,所以需要对图像投影过程中的所有可见性信息进行获取。此外在AVE系统中,由于某个区域会被多个相机同时可见,因此就不可避免地产生了纹理重叠的问题,这种情况下可以通过对虚拟空间进行区域划分,将每个相机对与相应的区域进行对应,就可以有效避免这一问题。
3媒体融合增强现实技术的未来发展与面临的问题
3.1媒体融合增强现实技术的未来发展
不久的将来.随着高清晰数字摄像设备大大普及,视频信息的获取将变得更为容易,人们可以更加简捷轻松地使用DV、摄像头和手机等获得数字视频。与此同时,随着数字媒体的不断发展以及媒体融合的不断深入,未来数字特效应用的需求将迅速增加,这也将进一步促进动画与视频交互处理技术的迅速普及。上述两方面的发展,也必将进一步促进媒体融合增强现实技术的发展与普及。以电影领域为例,随着数字技术的迅速进步,以实时视频融合技术为基础的“沉浸式电影”在不久的将来就可能成为现实,而这种呈现出电影观众与电影本身完美互动的电影形式将促进电影艺术样式的本质变革。再如,媒体融合增强现实技术的发展使得电视直播中的角色替代成为可能。在目前的技术条件下,当电视直播中出现故障时,只能采用暂停的方式予以补救。而依靠媒体融合增强现实技术,就能够将指定目标替代进行替换,从而保证直播的顺利进行。
3.2媒体融合增强现实技术面临的问题
媒体融合增强现实技术的出现,为传统媒体利用新媒体技术,进一步创新传播模式,实现媒体融合提供了重要途径。但目前媒体融合增强现实技术在国内传统媒体领域的应用并不理想,其原因主要有以下两个方面:首先是媒体融合增强现实技术的应用需要持续的技术和资金投入,这势必会增加生产成本。有关人士指出,媒体融合增强现实技术的实现,不仅需要专门的业务团队,同时还需要持续稳定的资金投入以及购置高质量的设备,所有这些因素都会影响传统媒体对技术革新的热情。其次是在市场经济条件下,要进行技术创新,就必须要考虑经济效益问题。如何借助媒体融合增强现实技术创新盈利模式需要进一步探索。例如电视节目采用媒体融合增强现实技术,在增加现场感和互动感方面不是传统的编播技术所能比拟的,这对于提高收视率、赢得稳定的观众群体极为重要。
计算机视觉传达技术范文5
关键词: 人体动作姿态识别; 人工智能; 隐马尔可夫模型; 动态贝叶斯网络; 模板匹配
中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2013)01-0133-03
人体动作姿态识别是计算机视觉研究领域中最具挑战的研究方向,是当前的研究热点。对人体动作姿态进行自动识别将带来一种全新的交互方式,通过身体语言即人体的姿态和动作来传达用户的意思,如在机场、工厂等喧闹的环境下,采用手势、动作姿态识别等人机交互技术能够提供比语音识别更加准确的信息输入。总之,在智能监控、虚拟现实、感知用户接口以及基于内容的视频检索等领域,人体动作姿态的识别均具有广泛的应用前景。该文首先简单介绍了人体动作姿态的分类,然后对人体动作姿态识别的方法进行了分类介绍,并对每种识别方法的研究进展情况及其优缺点进行了重点介绍,最后阐述了人体动作姿态识别当前的研究难点问题以及未来的发展趋势,希望能对相关领域的研究人员有所裨益。
1 人体动作姿态的分类
人体的运动涉及很多部位,包括人整个身体的运动或某个部位的运动,如手部运动、腿部运动或者头部运动,甚至人的表情、手势等。这些运动分别具有自己不同的特点和不同的复杂度,所用的研究方法也都不同。而针对人体简单动作姿态的识别是当前研究的一个热点,也是本文讨论的重点。人体运动的识别可分为两类:姿态识别和动作过程识别。
姿态识别的对象是静态系统,主要是识别人体整体或者某一部位的姿势。根据识别对象的不同,可分为手形识别、体势识别、头部姿态识别等。
动作过程识别是识别人体运动的动态过程,比如人体的动作识别、步法识别以及手势识别等。
2 人体动作姿态识别的方法
人体动作姿态的识别方法可分为三类:基于统计的方法、基于模板的方法和基于语法的方法。具体如图1示。
2.1 基于统计的方法
基于统计的方法是动态识别系统中效果最好的方法,目前主要是隐马尔可夫模型(HMMs)和动态贝叶斯网络(DBN)两种方法。
2.1.1 隐马尔可夫模型
隐马尔可夫模型是目前应用最广的一种方法。HMMs由状态和观测两部分组成,是一种基于转移概率和传输概率的随机模型,系统当前所处状态的概率只与前一个时刻的状态有关,与其它历史状态条件无关。在HMMs的识别过程中,首先提取出特征向量序列,然后通过学习算法进行模型参数训练,最后对未知的运动序列进行识别分类。
Yamato等人[1]首次用HMMs进行人体动作姿态的识别,之后又出现了HMMs的各种改进模型并成为人体动作姿态识别的主流方法[2-4]。Brand等人[2]提出了耦合隐马尔可夫模型(CHMM),并对手语进行了识别。Nguyen[3]提出了分层隐马尔可夫模型(HHMMs),HHMMs具有多层隐马尔可夫模型的结构,能够清楚地表达出人体运动中的行为细节。Duong等人[4]提出了S-HSMM(Switching Hidden-semi Markov Model)模型,S-HSMM的识别性能高于HHMMs,但是算法复杂度较高。
上述各种隐马尔可夫模型有两个缺点:第一,由于HMMs只适合于描述单个运动物体的系统,随着运动物体数目的增加,系统的状态数目以及HMM模型中的状态转移矩阵和观测模型的参数都呈指数增长,极大地增加了系统的计算复杂度,这样,HMMs的应用范围就有很大的局限性;第二,HMMs模型无法进行信息的有效融合,由此导致参数误差的相互叠加,进而无法保证模型参数的精确度。
2.1.2 动态贝叶斯网络
动态贝叶斯网络(DBN)是近年发展起来的统计模型,能够学习变量间的概率依存关系及其随时间变化的规律,具有很好的可扩展性和可解释性,对于多信息融合推理、多物体动态系统识别非常有效,是人体动作姿态识别今后发展的方向。
在动态识别过程中,DBN可以针对具体问题设计出相应的网络结构,而且可以将各种信息进行融合推理,同时为了使信息的配置更加优化,还可以对各种不同信息根据其来源、置信度等设置不同的权重。因此不少学者已经开始了这个方向的研究,将其用于人体动作姿态的识别,并取得了一定的成就[5-6]。而且,也有部分学者将HMM和动态贝叶斯网络两者结合起来,高效地进行人体动作姿态的建模和识别[7-8]。
但是,目前动态贝叶斯网络在人体动作姿态识别中的应用并不是很多,也还不够深入,主要原因有:
1)动态贝叶斯网络主要应用于识别多个物体的动态系统,而这样的系统需要大量的特征参数,所以动态贝叶斯网络的方法计算量较大,复杂度较高。
2)对目前主流的简单环境中人体规范动作姿态的识别,HMMs等方法已经可以胜任,达到较好的效果。
2.2 基于模板的方法
基于模板的方法主要是模板匹配法、动态时空规整法和动态规划法。
模板匹配法的思想是首先对人体动作姿态进行训练建立模板库,然后将待识别的动作姿态与模板进行匹配,计算二者之间的相似度,如文献[9]。模板匹配法的优点是实现起来比较简单、计算复杂度较低,缺点是对噪声和动作姿态持续时间的变化比较敏感。
动态时空规整法是一种非线性时间规整方法,它是将待识别的人体动作姿态模板的时间轴非线性地映射到训练模板的时间轴上,从而能够使两者的距离最小,如文献[10]。动态时空规整法较好地解决了人体动作姿态在时间尺度上的不确定性。
在动态规划算法的识别过程中,待识别样本模板中的每个时刻特征可以与特征模板中的任意时刻特征进行匹配,二者都无须进行时间规整,但要求必须顺序进行,如文献[11]。动态规划算法的主要缺点是计算量会随着训练样本数目的增加而增加。
2.3 基于语法的方法
基于语法的方法主要是有限状态机 [12]以及上下文无关的文法 [13]等。当前已有不少学者开始了这个方面的研究,用自然语言对人体动作姿态进行描述是未来的发展趋势。
但是,对图像序列中的人体动作姿态进行描述是非常复杂的,而且对事件、行为、状态这些概念还存在着不同的理解,如何对场景内容进行充分有效的表达还是非常困难的。目前对人体动作姿态的描述还仅限于简单的语义解释,对复杂场景中人体动作姿态的语义描述工作还相当的艰巨。
3 难点与发展趋势
近年来,人体动作姿态的识别研究已经取得了非常重要的成果,展现出了良好的发展前景。但下述几个方面仍是今后研究的难点问题:
人体动作类别的限制。目前人体动作姿态识别的研究主要还是集中在简单的人体动作姿态上,如人的某些标准姿势和一些简单的动作行为,如走、跑、蹲、站等简单规范的动作,而且,识别的对象通常是针对单个人体的运动。所以,如何针对在复杂场景下的多个人之间的交互动作行为进行识别,是未来的一个发展趋势。
特征选择的困难。特征向量的选择非常关键,直接影响到所采用的识别方法以及识别性能。如果选取过多的特征,特征向量维数就会过大,相应地就会增加计算的复杂度,相反,如果选取的特征过少,又可能无法获取较高的识别准确率。因此必须在选取合适的特征和获取较高的识别准确率之间进行折中权衡。
机器学习的局限性。利用机器学习工具进行人体动作行为的识别取得了一定的进展,但仍然还处于初级阶段,在识别过程中对人体运动的模型需要增加约束条件来减少歧义性,而这些约束条件与一般的现实情形通常是不吻合的。而且,机器学习的方法要求广泛的训练,即每个动作姿态都需要经过大量的训练才能识别,因此,机器学习方法只能识别一些预先定义的动作集,没有学习新动作的能力。因此机器学习仍是人体动作行为识别的一个难点问题。
识别算法的性能评价。鲁棒性、实时性以及准确率是衡量一个算法性能的三个重要指标。在当前研究工作中,准确率是最受关注的,而另外两个指标关注较少,特别是算法的鲁棒性。但算法的鲁棒性和实时性是实际应用中必须考虑的问题,因此,在衡量一个算法的性能时,必须对这个三个方面进行综合考虑。因此,在考虑某个具体应用时,需要开发新技术既能提高识别的性能,同时又可以降低算法的计算复杂度。
4 结束语
人体动作姿态识别本质上是一个人工智能问题,在智能监控、虚拟现实以及感知用户接口等领域具有广泛的应用前景。该文简单介绍了人体动作姿态的分类和人体动作姿态识别的方法,并对各种识别方法的研究进展情况以及优缺点进行了详细介绍,最后对当前的研究难点和未来的发展趋势做了详细阐述,希望能对相关领域的研究人员有所裨益。
参考文献:
[1] Yamato J,Ohya J,Ishii K.Recognizing human action in time sequential images using Hidden Markov model [A].In Proc CVPR[C],IEEE,1992:379-385.
[2] Brand M,Oliver N, Pentland A. Coupled hidden markov models for complex action recognition [A].In Proc CVPR [C] .USA :IEEE Computer Society Press,1997:994-999.
[3] Nguyen N T,Phung D Q,Venkatesh S,et al. Learning and detecting activities from movement trajectories using the hierachical hidden Markov model [A]. In Proc CVPR[C]. San Diego: IEEE Computer Society Press,2005:955-960.
[4] Duong T V,Bui H H, Phung D Q, et al. Activity recognition and abnormality detection with the switching hidden semi-Markov model [A]. In Proc CVPR[C].San Diego: IEEE Computer Society Press,2005:838-845.
[5] Luo Y,Wu T D, Hwang J N. Object-based analysis and interpretation of human motion in sports video sequences by dynamic Bayesian networks[J].CVIU,2003,92(2):196-216.
[6] Gong S,Xiang T.Recognition of group activities using dynamic probabilistic networks [A]. In Proc ICCV [C].Washington: IEEE Computer Society Press,2003:742-749.
[7]Oliver N, Horvitz E. A comparison of HMMs and dynamic Bayesian networks for recognizing office activities [J] . Lecture Notes in Artificial Intelligence, 2005: 199-209
[8] N. Robertson, I. Reid. Behaviour understanding in video: a combined method. In: Internatinal Conference on Computer Vision, 2005:15-21.
[9] 谢林海,刘相滨.基于不变矩特征和神经网络的步态识别[J].微计算机信息,2007,23(7-1):279-281.
[10] Bobick A F, Wilson A D. A state-based approach to the representation and recognition of gesture [J] .IEEE Trans PAMI,1997,19(12):1325-1337.
[11] Bobick A F, Andy Wilson. Using configuration states for the representation and recognition of gestures. MIT Media Lab Perceptual Computing Section Technical Report, No. 308, 1995.