前言:中文期刊网精心挑选了计算机视觉与应用范文供你参考和学习,希望我们的参考范文能激发你的文章创作灵感,欢迎阅读。
计算机视觉与应用范文1
关键词:双目计算机视觉 深度信息 自适应 光照变化 视频监控
1 引 言
面对日益复杂的社会和政治环境,国家安全、社会安全、个人人生安全和财产安全等都面临着不同程度的威胁,都需要各种安全保护措施,在众多场所建立切实有效的安保措施,成为一个迫切的课题。本文提出了一种基于双目计算机视觉的自适应识别算法,将该算法应用于现有的监控系统,并赋予监控终端智能性,不仅使其脱离人而具有独立智能、自主判断的能力,而且使得视频监控系统在安防方面的作用大大提高。
在现有的背景建模方法中,大多对于背景象素点的亮度值,例如最小亮度值、最大亮度值和最大亮度差值[ 1 ] ,或是对颜色信息进行建模[ 2 ] 。对于背景的更新,一般使用自适应滤波器对像素的统计特性进行递归更新,为了考虑到噪声的影响,文献[ 3 ]提出了Kalman滤波器的方法,该文认为系统的最优信息可通过估计获得。考虑到环境的动态缓慢改变,文献[ 4 ]利用统计模型给背景建模,即由一个时域滤波器保留着一个序列均值和一个标准偏差,并通过滤波过程统计值随时间改变来反映环境的动态特性。另外有一些方法解决了光照渐变等影响[ 5~7 ] ,但计算较复杂。
2双目计算机视觉深度算法
基于实际应用考虑,摄像头的数量关系着成本和计算量,所以选择支持双摄像头(双目视觉)的算法是最合适的。在支持双目视觉的算法中,Princeton NEC research institute 基于最大流算法(maximum2flow)的计算机视觉算法( Stereo2MF)在深度效果平滑性上做得较好[ 8, 9 ] ,适用于监控区域深度计算的应用背景。但原有算法所需的计算量和计算过程中的暂存数据量是较大的,虽然支持计算量的削减,但只是机械地在一块区域中选择中心点来进行计算,这样计算的结果会因选择的机械性,而出现大量的“伪点”,这些伪点错误地表现了该区域的平均深度信息。本文采用统计平均值选取计算点,通过距离因子的Gauss分布将块内其他点的值融合计算,从而使得计算出的值较准确的代表了这一块内的大致深度分布。
m, n分别是图像的长和宽所包含的像素点个数,M、N 表示像素点的横纵坐标, .d 是块内深度统计平均值, dM, N为计算点的深度值, q为距离因子, dB是计算所得的块深度代表值。图1为改进后双目视觉深度算法与原算法识别效果比较。由图1可以明显看出,修改后的算法效果在细节表现、平滑性、伪点减少上均有明显改善,而且深度计算精确度能够完全满足视频
图1 改进后双目视觉深度算法与原算法识别效果比较Fig. 1Effect comparison after algorithm modification
度计算精确度能够完全满足视频监控应用的需要。
3 自适应识别算法
对于一个固定的场景,场景各像素点的深度值是符合一个随机概率分布。以某一均值为基线,在其附近做不超过某一偏差的随机振荡,这种情况下的场景称之为背景。而场景环境往往是动态变化的,如环境自然光的缓变,灯光的突然熄灭或点亮,以及运动对象的出现、运动和消失等。如果能识别出场景中的动态变化,就能自适应的更新背景值,将光照的改变融合到背景值中。本文采取了用统计模型的方式给每个像素点建模,而以像素点变化的分布情况来确定光照突变引起的深度突变,并结合深度计算本身特性,解决光照缓变突变引起的误判问题,以及判别场景中对象的主次性。
3. 1 背景象素点的深度值建模
由于双目计算机视觉算法得到的深度值,已经是块融合的,可以根据精度要求,来加大块面积, 减少数据量。本文获得的数据量只有原像素点的( k, l分别是块的长和宽所包含的像素点个数) 。以统计的方法给每个像素点的深度值建模, 设为第u帧图像的某个像素点的深度值, 其中u代表第u帧图像, i, j分别代表像素点的横坐标和纵坐标。由一个时间滤波器来保持该像素点深度值的序列均值和时间偏差
其中,α是一个可调增益参数, 其与采样频率有关。通过滤波过程,来得到每个像素点的深度值基于时间的统计特性,由于这些统计特性反映了环境的动态特性,据此可以了解到是环境的光照发生了突变,还是有运动对象的运动。
3. 2 背景更新与场景识别
通过上述滤波过程,就可以将光照缓变融入到背景中去,实现背景的自适应更新。而对于光照突变,此时几乎所有的象素点的亮度值会同时增大或减小,但根据最大流算法的特性,同方向的变化对流量差不会引起太大变化, 而对深度计算结果只会引起较小的同方向变化。这种全局的等量变化, 可以认为是光照突变引起的。
其中, a、b和c是3个可调节系数,他们的取值可依据场景的情况及检测光照突变的速度与误差来进行选取。s, t分别是深度图像的长和宽所包含的像素点个数。Q是符合式( 9)的像素点个数。一旦检测到环境光照发生了突变, 就把背景点像素的深度序列均值,全部以当前帧像素点的深度值的测量
值代替,而j以0取代,从而实现背景的及时更新。
如果式(10)式(12)中任意一个不成立的话,则认为像素块深度值的变化并非由光照突变引起, 而是场景中有运动对象出现。
4 算法分析与实验
4. 1 算法复杂度
对于光照突变检测,若有突变的话,则会立即检测出来,当有运动对象出现时, 并且式( 10)式( 12)都接近满足时,处理会较慢,因为需要处理突变检测和运动对象两个过程。当b取25% s ×t时的处理速度与变化点比例关系如图2所示。
相对于一般的光强、灰度的识别检测算法,本算法的优势在于不仅可以利用深度特性更容易地检测到光照的渐变与突变, 而且可以判断出现的多个运动对象的主次性。
4. 2 算法误检率
由于光照直接对于像素点的光强、灰度等产生影响,所以深度算法的噪声容限更大,这样可降低了误检率,多组实验后得到的误检率对比图如图3所示。但是由于深度算法本身对于反光或者阴暗面会产生伪点,所以,某些时候由于光照突变中光源的位置变化而会误检为运动对象,为此算法还需进一步改进能判别伪点的出现, 除去它在光照突变检测中的影响。另外,公式中可调系数a, b, c的选取也会对不同场景产生影响。
笔者在实验室环境下做了不同光照角度、不同环境光强度、不同运动物体的多组实验,发现在反光面或是阴暗面较多的情况下,光照突变检测不是很灵敏,而且会出错,但是在增加系数a, c的值后, 误检率有所降低(如图3所示) 。
5 基于算法的监控系统
我们利用该算法实现了视频监控原型系统。计算机视觉算法对于摄像头的同步曝光要求很高,所以本系统终端用一块单独的MCU (micro control unit)控制同步曝光。核心算法用DSP处理。系统结构如图4所示。实际系统原型图如图5所示。
6 结 论
利用深度信息做智能场景识别,是一种新的尝试,有其优势。将这种方法应用到智能视频监控中,能起到很好的效果,克服了其他方法较难处理的光照渐变和突变等问题。对比单摄像头监控系统,该系统可应用于更多场合。后续研发准备在系统上加上更多功能,以适用于更多的环境,并与其他保安类监控系统互联,以组成一整套功能强大、达到国内外一流水平的安防系统。
参考文献( References)
1Ude A, Riley M. Prediction of body configurations and appearance for model-based estimation of articulated human motions [A ]. In: IEEE SMC’99 Conference Proceeding [ C ] , Tokyo, Japan, 1999: 687~691.
2Ricquebourg Y, Bouthemy P. Real-time tracking of moving persons by exp loiting spatio2tempp ral image slices[ J ]. IEEE Transactions on Pattern Analysis andMachine Intelligence, 2000, 22 (8) : 797~808.
3Tsap L V, Goldof D B, Sarkar S. Nonrigid motion analysis based on dynamic refinement of finite elementmodelsp [ J ]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2000, 22 ( 5 ) : 526~543.
4Haritaoglu I, Harwood D, Davis L. A real time system for detecting and tracking peop le [ A ]. In: Third International Conference on Automatic Face and Gesture[ C ] , Nara, Japan, Ap ril 1998.
5Wren C, AzarbayejaniA, Darrell T. Real-time tracking of the human body [ J ]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1997, 19 (7) : 780~785.
6Ridder C, Munkelt O, Kirchner H. Adap tive background estimation and foreground detection using Kalman filtering[A ]. In: Proceedings International Conference. Recent Advances in Mechatronics, ICRAM’95, Istanbul, Turkey, 1995: 193~199.
7Fujiyoshi H, Lip ton A J. Real-time human motion analysis by image skeletonization[A ]. In: Proceedings of theWorkshop on App lication of ComputerVision, Freiburg, Germany, October 1998.
计算机视觉与应用范文2
【关键词】:“云计算”;会计信息化
【中图分类号】G202 【文献标识码】A 【文章编号】1672-5158(2013)01―0187-01
随着社会主义市场经济的不断发展,在企事业管理中,人们越来越意识到信息技术对于会计的影响。近年来,“云计算”这个概念火热,已经渗透到普通人的生活,都因为“云计算”的到来和发展而产生着改变。如今,会计信息化正在取代会计电算化成为会计发展的方向。“云计算”的出现势必会对会计信息化的过渡带来深远影响。
一、“云计算”对会计信息化带来影响
1.成本优势“云计算”出现,会计系统可以以软件服务的方式提供,企事业使用者按照自己的需要购买,按照实际使用的账号和实际使用的时间付费。
2.而“云计算”技术的应用之后,企事业采用租赁的方式,不再需要专业的维护人员,从而不需要为了这些专业人员支付额外的费用,最大程度地减少了企事业为了会计信息化所花费的开支。供应商提供的服务的专业化和规划化,使得企事业能够及时得到最新的技术应用,能够更好时满足企事业对会计信息化不断发展的要求。从而,大大降低了企事业实现会计信息化的门槛和风险,企事业也能更加专注于会计工作本身,提高工作效率。
3.在“云计算”时代,企事业采用租赁的方式接受服务,只要会计工作者能够连接到网络,即使下班在家也可以进入系统,并及时处理会计工作,会计信鼠随时可用,从而更好地保证了会计信息的实效性。并且由于网络互联和供应商的专业团队的保证,企事业可以及时得到最新的技术应用,会计工作可以更加的便捷、有效。
4.安全优势基于“云计算”的会计服务提供商所提与MSCS相关的信号通路的研究进展供的基础实施包括互联网连接使用的大量服务器、存放会计信息化软件和数据的大型数据库等等,他们集中于一处或分布多个地万,并由专业的团队来管理和保证数据中心的安全。
5.协同优势。会计工作的协同包括内部协同和外部协同。云端不仅协同了企事业内部的资源,还需要建立一个统一的平台,将客户、供应商和其他合作伙伴也纳入这个信息系统平台中,使得网上报税、银行对账、审计、交易、企事业与上下游企事业和用户之间的会计信息系统集成成为可能,从而提升了会计信息的附加价值,实现信息的高效共享。
二、“云计算”在企事业财务会计应用中遇到的问题
1.云计算平台自主建设和应用方面
由于云计算平台建设的技术及资金起点较高,研发的风险较大,开发周期较长,国内自主研发财务会计信息化云计算平台尚处于起步阶段,不成熟且建设与应用推广力度均不够,知名的云计算平台几乎都来自美国,如谷歌、亚马逊和Facebook等美国互联网先行者,微软、IBM、富士通和SAP等IT成熟公司都建有自己的云计算平台。而国内企事业则仍处在努力进入云市场并树立信誉的初级阶段。对云计算平台的建设和应用力度都不够。
2.云计算软件及服务方面
基于中国国情,目前国内云计算相关功能和服务主要集中于低端市场,以求以低成本创新切入市场,因此,国内的云计算服务运营商提供的基于云计算的企事业财务会计软件服务主要停留在一些较为基本的、单一的财务功能层面上,如国内知名的在线B2B互联网公司阿里巴巴集团旗下子公司阿里软件目前正在面向型企事业推广的“钱掌柜”会计和财务管理在线服务,就主要是围绕企事业日常基本财务会计工作需求提供云计算服务的。
3.云计算安全性方面
安全问题是当前全球对云计算最大的质疑。这种担忧在中国尤为突出,这是导致云计算在国内企事业财务会计信息化工作中应用缓陧的重要原因之一。由于云计算模式有可能会导致一个云服务器上存储多家企事业数据的情况,相当多的企事业会担心企事业最为机密的核心财务会计数据遭黑客盗窃,或是被意外泄露给同一云供应商的其他用户或本企事业的非授权员工,而这对企事业无疑是致命的。因此实现企事业基于云计算的财务会计信息化必须解决其安全性问题。
4.云计算认同度方面
目前在我国众多的企事业中仅有不足10%的企事业应用云计算在线开展相关业务,其中应用云计算处理企事业财务会计数据的更是少之又少。大部分的企事业由于政府对云计算政策不够明朗,国内尚未明确制定云计算的相关标准,尚未规范云计算产业等各种原因,对云计算技术及服务持谨慎态度,导致云计算应用认同度较低。
三、云计算在企事业财务会计中应用
从如下几个方面入手加以改进和完善:
1.加快国内云计算平台的自主建设
由于国内的一些IT厂商在资金、技术力量等方面较为薄弱,可以考虑通过由政府牵头,实现跨行业整合各相关企事业的资金资源、管理资源、技木资源、人力资源及上下游资源等,形成优势互补,集众家之所长联合开发云计算平台。以此间接降低云计算平台开发难度及开发风险,节约开发时间。另外,政府有关职能部门还可以通过建立“云计算平台示范工程”。设立国内自主建设云计算平台的样板,供各IT厂商研发时参考借鉴。
2.完善云计算的财务会计软件功能与服务
丰富与完善,具体如下:①以企事业的财务会计工作需求为核心,打破现有的职能为企事业提供在线记账、代账、现金管理等功能的局限,将基于云计算的财务会计信息化软件功能与服务向更为深入、更为广泛的层次发展。②进一步增强云计算软件快速开发的功能,积极发展企事业私有云服务,即允许企事业根据自己的需要通过向云计算服务运营商付费租赁平台等方式,运用云计算服务运营商支持的编程语言和工具编写好自己的应用程序,然后放到云计算平台上运行。满足企事业个性化业务需求。③提供在线定制服务。使企事业能根据自己的业务需求变化随时调整基于云计算的财务会信息化软件功能与服务,以满足企事业的成长需求。
3.加强云计集应用的安全性建设
可从如下途径加强云计算应用安全:①通过身份认证,区分使用者权限,加强访问控制;②通过密钥管理技术,对企事业存放于云中的数据进行加密处理,由企事业掌管密钥,防止云计算服务运营商及其他不相关的人看到数据。③利用虚拟机进行防护,由网络安全解决方案提供商对云计算服务运营商基于虚拟机的服务器提供黑客和恶意软件入侵检测和防御服务,构建虚拟化安全网关。
4.加快相关标准及法规的制定
政府态度的明朗化及云计算相关标准和法规的尽快出台将有利于提高云计算在企事业中的认同度。不妨借鉴美国政府的做法,由政府参与或主持制定云计算应用标准、云计算产业规范及云计算相关法规。可先对国内的云计算市场进行摸底调查,在此基础上尽快制定云计算相关标准。
5.加强对云计算服务运营商的监管力度
应用云计算处理企事业日常财务会计数据后,企事业的核心数据就都存放于云计算服务运营商的“云”中。因此必须进一步加强对云计算服务运营商的监管。首先,应严格审核云计算服务运营商的资质,如谷歌(Google)公司在与美国联邦政府合作前就先通过了美国政府联邦信息安全管理法的审核,获得了相应的资质,才能有资格与政府合作云计算相关项目。
结束语
“云计算”对于会计电算化的发展具有深远的影响。“云计算”能够减少企事业在会计信息化方面的投资和使用等成本,降低了企事业实现会计信息化的门槛,从而越来越多的企事业会选择在”云”上实现会计信息化,使得会计电算化向会计信息化的过度更加顷利。
参考文献
[1]叶晓勇.简述云计算[J],黑龙江科技信息,2009(8)
计算机视觉与应用范文3
以下为报告详细内容:
2017年计算机视觉技术在更多的领域有所落地应用,自动驾驶领域、高考、政务等领域更多的场景开始应用计算机视觉技术。艾媒咨询分析师认为,计算机视觉行业技术是核心基础,随着技术成熟度提高,未来将有更多的场景能够应用计算机视觉技术,计算机视觉企业应在强化技术打造的前提下,发掘更多新的应用领域,提高商业落地应用。
2017年人脸识别技术在智能手机终端应用开始普及。9月苹果新品会上,iPhone X宣布引入Face ID高精度人脸识别技术,引来人们高度关注。而除了iPhone X,华为、小米、OPPO、vivo等手机厂商都推出了带人脸识别功能的智能手机。艾媒咨询分析师认为,计算机视觉领域内人脸识别功能可应用场景广泛,商业化落地能力强,除了计算机视觉创业企业,互联网巨头和硬件巨头企业也纷纷关注布局人脸识别领域。但目前人脸识别技术仍然存在一定缺陷,艾媒大数据舆情管控系统数据显示,“手机人脸识别”热词言值数据为48.5,整体舆情偏负向。现阶段人脸识别技术在智能手机终端上的应用仍处于起步发展阶段,技术和安全性仍有待提高,未来随着各计算机视觉企业加强技术研发,人脸识别技术有望进一步改善,成为智能手机标配。
iiMedia Research(艾媒咨询)数据显示,2017年中国计算机视觉市场规模为68亿元,预计2020年市场规模达到780亿元,年均复合增长率达125.5%。艾媒咨询分析师认为,人们安全和效率需求不断提升,计算机视觉技术在各行业应用能有效满足人们需求,市场发展空间巨大。国家政策对人工智能行业的支持也为计算机视觉的发展提供了有利的环境。随着计算机视觉技术日渐成熟,企业商业化落地能力不断提高,未来计算机视觉市场规模将迎来突破性发展。
iiMedia Research(艾媒咨询)数据显示,商汤科技以24.3%的企业知名度排名各计算机视觉企业首位,旷视科技与云从科技则分别以23.1%以及21.7%的知名度分列二三位。艾媒咨询分析师认为,商汤科技计算机视觉技术及算法能力在行业内较为出色,同时在安防、金融、商业、手机端等多个领域均有商业落地应用,在企业认知和品牌推广方面具有优势。
iiMedia Research(艾媒咨询)显示,61.7%的受访网民通过手机APP应用接触计算机视觉应用,另外有50.9%的受访网民接触途径为通过智能手机终端。艾媒咨询分析师认为,计算机视觉企业主要服务B端用户及政府机构,相比于其他途径,移动端更适合应用计算机视觉技术的产品推广。计算机视觉技术日趋成熟,在移动终端和APP上均有落地应用,也进一步为计算机视觉企业在大众中奠定基础。未来企业可通过线上渠道开发挖掘C端用户市场。
iiMedia Research(艾媒咨询)显示,半数受访网民认为智能手机及APP加入人脸识别技术功能方便了二者的使用,另有48.8%的受访网民认为人脸识别技术在手机及APP上的应用是未来技术发展的趋势。艾媒咨询分析师认为,人脸识别技术在手机及APP端的应用满足人们智能化和便捷化的需求,随着越来越多的手机及APP产品加入人脸识别功能,未来其普及和认可程度将得到进一步提高。
iiMedia Research(艾媒咨询)显示,41.8%的受访网民表示未来愿意使用人脸识别技术进行手机及APP解锁,同时有41.4%的受访网民虽持观望态度,但愿意尝试。此外,47.4%的受访网民认为人脸识别将取代其他手机及APP解锁技术成为未来主流。艾媒咨询分析师认为,近期智能手机纷纷应用人脸识别技术解锁推动该功能技术的普及,便捷性的优势使该功能技术前景受看好。但目前人脸识别解锁技术的准确性仍然受到质疑,随着未来技术进一步成熟,该技术有望成为智能手机设备标配。
iiMedia Research(艾媒咨询)显示,33.9%的受访网民曾使用过人证比对功能进行业务办理。在使用过该功能的人群中,54.6%认为其方便了业务办理,提供了效率,且有47.3%该部分人群认为其识别准确程度高。艾媒咨询分析师认为,政府、银行等机构业务办理效率以往常遭诟病,人证识别技术的应用提高了办事效率,在提高人们满意度的同时,加强了计算机视觉技术的认可度。未来计算机视觉技术在政府、银行等机构的落地应用将进一步扩展,但其中涉及到个人信息保护等问题需要企业及相关机构合力解决。
iiMedia Research(艾媒咨询)显示,34.1%的受访网民认为公安办案为最有必要应用人脸识别技术的安防情景。而关于网民对人脸识别技术在安防监控领域应用看法调查中,56.1%的受访网民认为其能有力保护人们人身财产安全。艾媒咨询分析师认为,计算机视觉技术,尤其是人脸识别技术在安防领域应用意义重大,在刑侦破案、身份认证、公共安全保护等情景具有重要应用价值。未来安防领域将成为计算机视觉技术重点应用领域,而安防的重要性也对相关企业技术实力有严格的要求,未来安防领域市场或由少数技术实力较强的企业占据。
商汤科技是专注计算机视觉与深度学习原创技术的人工智能创业企业,拥有强大的技术能力和人才资源储备支撑发展。商汤科技在计算机视觉领域综合实力较强,获资本方青睐,B轮融资4.1亿美元,同时与国内外知名企业展开合作。艾媒咨询分析师认为,商汤科技在商业营收上同样处于行业领先水平,但其本质专注于技术发展,强大的技术基础能较好支撑商汤科技在上层应用场景的扩展。商汤科技在技术驱动商业应用的同时,积累商业应用经验,提高企业知名度,拓展应用至更多领域。
艾媒咨询分析师认为,商业化落地能力欠缺是目前计算机视觉行业大部分企业的痛点,商汤科技在商业落地应用方面处于行业领先位置。这一方面源于商汤科技技术能力往专业化发展,以专业技术和研发基础实现场景差异化应用。另一方面,纯计算机视觉技术或算法由于其专业性,需求方在使用时需要具备专业能力,而商汤科技技术产品往标准化方向打造,打包成行业解决方案,能适应更多企业使用需求,也有利于商汤科技技术进一步落地应用。未来坚持技术为基础,继续提高商业落地能力,商汤科技有望继续保持良好发展态势。
旷视科技成立于2011年,2017年10月完成巨额C轮融资,专注于人脸识别、图像识别和深度学习技术自主研发和商业化落地,深耕于金融安全、城市安防、商业物联、工业机器人等领域,同时打造人工智能开放云平台。艾媒咨询分析师认为,旷视科技利用云平台为开发者提供技术支撑,有利于计算机视觉技术进一步结合产品运营,同时可以收集海量图片数据,通过进行深度学习,旷视科技图像识别技术又能进一步得到提升,有利于其强化自身核心技术能力。
艾媒咨询分析师认为,人脸识别技术对于金融行业业务办理及风控等流程具有重要应用价值,旷视科技在人脸识别技术上的优势也助其有效开展金融领域的服务应用。未来随着旷视科技利用云开放平台相关图片数据进行深度学习强化人脸识别技术,以及在金融领域积累的渠道资源,其有望在金融领域继续强化技术服务,成为该领域市场有力的竞争者。
艾媒咨询分析师认为,自动驾驶为人工智能和汽车行业未来发展方向,计算机视觉技术在自动驾驶汽车实现路况感知、高精度定位等方面发挥重要作用,自动驾驶为计算机视觉技术未来重要应用领域。图森未来的计算机视觉技术和算法在自动驾驶领域实现专业化发展,未来有望在此细分领域成长为领先企业。
2017-2018中国计算机视觉行业发展趋势
需求驱使计算机视觉行业发展潜力巨大应用场景拓展渗透各行业
艾媒咨询分析师认为,人们对生活安全以及生产效率追求两大需求的提升,决定计算机视觉行业具有巨大发展空间。而计算机视觉技术场景应用具有广泛性,有望发展成为下一个智能时代的标配。目前计算机视觉技术主要应用在B端领域,短期内行业发展趋势也是集中于B端领域。未来随着技术成熟,计算机视觉有望拓展更多新的应用场景,实现场景落地,渗透至各行各业,形成AI+,开拓更多C端业务。此外,计算机视觉技术可以跟其他技术,如AR、VR、无人驾驶等结合发展,创造新的应用领域。
技术应用由点及面行业解决方案及软硬件结合成商业产品出路
对于计算机视觉技术使用者来说,由于技术的学习应用需要花费较多时间和精力,硬件产品及行业解决方案往往更受青睐。未来计算机视觉企业需要将软硬件结合,如打造嵌入式芯片等。此外,计算机视觉企业应将技术应用由点及面,将技术应用发展成针对各行业的解决方案。未来市场将出现更多基于计算机视觉技术应用的行业解决方案和软硬一体化产品,只有打造方便用户使用的商业产品,才能有效适应其需求,帮助计算机视觉企业迅速占领行业市场,在市场竞争中取得领先优势。
计算机视觉行业发展对企业综合实力要求高
艾媒咨询分析师认为,计算机视觉行业巨大的发展前景决定其具有高成长性特点,未来将涌现更多人工智能领域优秀企业。但行业发展同时伴随高风险性,行业竞争需要比拼企业技术算法能力、资金能力、以及人才资源,同时考验企业能否实现技术迅速落地,对企业综合实力要求高,综合实力不具备优势的企业在行业内将难以生存。
计算机视觉与应用范文4
1.1计算机在和艺术融合时
有效结合图像、文本、声音、动画等因素,在丰富艺术语言表现形式时,也使作品更具有感染力。当计算机视觉艺术与数字媒体结合在一起时,使人们在观看画面时,不仅是欣赏画面,也能够感受到声、色等。数字媒体通过计算机视觉艺术利用高度仿真的视觉、触觉和听觉,使大众在观看电影或玩游戏时,能够真实感受到虚拟世界,同时还可以通过肢体语言、动作以及视线的转移,与计算机进行有效交流。比如在2010年开展的上海世博会上,德国馆所开展的动力之源”金属球表演1.3吨重、装有40万根LED发光二极管的互动金属球。在互动开始时,观众被分成两批跟着解说员的指令呼喊,金属球自动找到声音最响亮的那个方向。然后,哪边的呼喊声大,互动球向那一边的摇摆也更为剧烈,同时,球体表面上,亦不断展现出一幅幅城市的美好愿景。使大众不仅是单独欣赏电影,而是可以参与到视觉艺术表演中。数字媒体通过计算机视觉艺术,在最大程度上满足艺术创作对感受的表现。
1.2计算机视觉艺术在数字媒体中的应用
丰富了艺术的表达形式。交互技术的发展与成熟,使计算机视觉艺术的领域得到很好的拓展,并在各种数字媒体艺术中得到广泛应用。比如在网页、游戏等内容。交互技术的应用,使人们不再是被动的欣赏,而是参与到视觉艺术中,让大众去参与、选择和判断,而且可以通过不同的选择将过程和结局进行不同的呈现,调动观众的兴趣,提高大众的参与度。
1.3计算机视觉艺术在电子游戏中的应用
首先是大型电子游戏应用的计算机视觉艺术。比如日本科乐美公司在推出警匪枪战射击《警察官2》游戏时,就受到许多玩家的欢迎。在游戏中,玩家不再只是使用鼠标和键盘来进行游戏,而是玩家可以通过身体行动,比如“蹲、闪及侧身等行为以此进行移动。机器通过摄像机部捕捉到玩家的身体动作,玩家可以有效操作与机器相连的手枪,将屏幕中的对象进行射中。其次是手机上的小型电子游戏,比如在《神庙逃亡》,玩家只需要用手指向左、向右滑动屏幕,可以人物向左或向右转向;而向上、向下滑动则可以让人物跳跃或下滑过各种障碍。另外在需要游戏人物在左侧或右侧奔跑时,只需要侧一下手机就可以,并且游戏画面有着充足的声光效果,可进行互动,有着极高的震撼力,对提高大众的参与度有着积极的促进作用。
1.4计算机视觉艺术在数字媒体中的应用
使数字媒体技术将艺术进行有效表现,并在纯艺术和实用艺术中应用到数字媒体,而数字媒体技术可以将单纯的个人视觉进行有效的创造,并将艺术转化为社会性视觉产品,并可以获得经济效益。而大众可以利用拷贝、剪切等方式将数字媒体中的视觉艺术进行获取,然后将艺术资源进行转化,为个人视觉艺术的创作奠定了坚实的基础。随着大众对独特性以及个性化的艺术要求越来越高,在追求独特的视觉艺术时,追求刺激的视觉艺术时,也提高了对视觉艺术作品的评价标准。计算机视觉艺术在数字媒体中的应用,给大众带来美的享受,使大众在观看视觉艺术时可以怀着愉悦、舒适的感觉进行欣赏,也可以获得相应的审美评价,在潜移默化中改变着人的精神追求。计算机视觉艺术在数字媒体中应用时,没有掺杂其他因素,使计算机视觉因素只是追求视觉形式和视觉美感,能够在最大程度上体现艺术的本质。并且数字媒体本身就具有美的品格,与计算机视觉艺术相结合,使数字媒体艺术在具备了美时,也可以体现真。因此,计算机视觉艺术在数字媒体中的应用,提高了审美价值,大众通过感受、体悟数字媒体所体现出的视觉艺术,领悟到视觉艺术中的美,能够在很大程度上满足大众对美的追求。
2总结
计算机视觉与应用范文5
关键词:数字摄影测量 计算机视觉 多目立体视觉 影像匹配
引言
摄影测量学是一门古老的学科,若从1839年摄影术的发明算起,摄影测量学已有170多年的历史,而被普遍认为摄影测量学真正起点的是1851―1859年“交会摄影测量”的提出。在这漫长的发展过程中,摄影测量学经历了模拟法、解析法和数字化三个阶段。模拟摄影测量和解析摄影测量分别是以立体摄影测量的发明和计算机的发明为标志,因此很大程度上,计算机的发展决定了摄影测量学的发展。在解析摄影测量中,计算机用于大规模的空中三角测量、区域网平差、数字测图,还用于计算共线方程,在解析测图仪中起着控制相片盘的实时运动,交会空间点位的作用。而出现在数字摄影测量阶段的数字摄影测量工作站(digital photogrammetry workstation,DPW)就是一台计算机+各种功能的摄影测量软件。如果说从模拟摄影测量到解析摄影测量的发展是一次技术的进步,那么从解析摄影测量到数字摄影测量的发展则是一场技术的革命。数字摄影测量与模拟、解析摄影测量的最大区别在于:它处理的是数字影像而不再是模拟相片,更为重要的是它开始并将不断深入地利用计算机替代作业员的眼睛。[1-2]毫无疑问,摄影测量进入数字摄影测量时代已经与计算机视觉紧密联系在一起了[2]。
计算机视觉是一个相对年轻而又发展迅速的领域。其目标是使计算机具有通过二维图像认知三维环境信息的能力,这种能力将不仅使机器能感知三维环境中物体的几何信息,包括它的形状、位置、姿态、运动等,而且能对它们进行描述、存储、识别与理解[3]。数字摄影测量具有类似的目标,也面临着相同的基本问题。数字摄影测量学涉及多个学科,如图像处理、模式识别以及计算机图形学等。由于它与计算机视觉的联系十分紧密,有些专家将其看做是计算机视觉的分支。
数字摄影测量的发展已经借鉴了许多计算机视觉的研究成果[4]。数字摄影测量发展导致了实时摄影测量的出现,所谓实时摄影测量是指利用多台CCD数字摄影机对目标进行影像获取,并直接输入计算机系统中,在实时软件的帮助下,立刻获得和提取需要的信息,并用来控制对目标的操作[1]。在立体观测的过程中,其主要利用计算机视觉方法实现计算机代替人眼。随着数码相机技术的发展和应用,数字近景摄影测量已经成为必然趋势。近景摄影测量是利用近距离摄影取得的影像信息,研究物体大小形状和时空位置的一门新技术,它是一种基于数字信息和数字影像技术的数据获取手段。量测型的计算机视觉与数字近景摄影测量的学科交叉将会在计算机视觉中形成一个新的分支――摄影测量的计算机视觉,但是它不应仅仅局限于地学信息[2]。
1. 计算机视觉与数字摄影测量的差异
1.1 目的不同导致二者的坐标系和基本公式不同
摄影测量的基本任务是严格建立相片获取瞬间所存在的像点与对应物点之间的几何关系,最终实现利用摄影片上的影像信息测制各种比例尺地形图,建立地形数据库,为各种地理信息系统建立或更新提供基础数据。因此,它是在测绘领域内发展起来的一门学科。
而计算机视觉领域的突出特点是其多样性与不完善性。计算机视觉的主要任务是通过对采集的图片或视频进行处理以获得相应场景的三维信息,因此直到计算机的性能提高到足以处理大规模数据时它才得到正式的关注和发展,而这些发展往往起源于其他不同领域的需要。比如在一些不适合于人工作业的危险工作环境或人工视觉难以满足要求的场合,常用计算机来替代人工视觉。
由于摄影测量是测绘地形图的重要手段之一,为了测绘某一地区而摄影的所有影像,必须建立统一的坐标系。而计算机视觉是研究怎样用计算机模拟人的眼睛,因此它是以眼睛(摄影机中心)与光轴构成的坐标系为准。因此,摄影测量与计算机视觉目的不同,导致它们对物体与影像之间关系的描述也不同。
1.2 二者处理流程不同
2. 可用于数字摄影测量领域的计算机视觉理论――立体视觉
2.1 立体视觉
立体视觉是计算机视觉中的一个重要分支,一直是计算机视觉研究的重点和热点之一,在20多年的发展过程中,逐渐形成了自己的方法和理论。立体视觉的基本原理是从两个(或多个)视点观察同一景物,以获取在不同视角下的感知图像,通过三角测量原理计算像像素间的位置偏差(即视差)来获取景物的三维信息,这一过程与人类视觉的立体感知过程是类似的。一个完整的立体视觉系统通常可分为图像获取、摄像机定标、特征提取、影像匹配、深度确定及内插等6个大部分[5]。其中影像匹配是立体视觉中最重要也是最困难的问题,也是计算机视觉和数字摄影测量的核心问题。
2.2 影像匹配
立体视觉的最终目的是为了恢复景物可视表面的完整信息。当空间三维场景被投影为二维图像时,同一景物在不同视点下的图像会有很大不同,而且场景中的诸多因素,如光照条件,景物几何形状和物理特性、噪声干扰和畸变以及摄像机特性等,都被综合成单一的图像中的灰度值。因此,要准确地对包含了如此之多不利因素的图像进行无歧义的匹配,显然是十分困难的。
在摄影测量中最基本的过程之一就是在两幅或者更多幅的重叠影像中识别并定位同名点,以产生立体影像。在模拟摄影测量和解析摄影测量中,同名点的识别是通过人工操作方式完成的;而在数字摄影测量中则利用计算机代替人工解决同名点识别的问题,即采用影像匹配的方法。
2.3 多目立体视觉
根据单张相片只能确定地面某个点的方向,不能确定地面点的三维空间位置,而有了立体像对则可构成与地面相似的立体模型,解求地面点的空间位置。双目立体视觉由不同位置的两台或者一台摄像机(CCD)经过移动或旋转拍摄同一幅场景,就像人有了两只眼睛,才能看三维立体景观一样,然后通过计算空间点在两幅图像中的视差,获得该点的三维坐标值。现在的数字摄影测量中的立体像对技术通常是在一条基线上进行的,但是由于采用计算机匹配替代人眼测定影像同名像对时存在大量的误匹配,使自动匹配的结果很不可靠。其存在的问题主要是,对存在特殊结构的景物,如平坦、缺乏纹理细节、周期性的重复特征等易产生假匹配;在摄像机基线距离增大时,遮挡严重,能重建的空间点减少。为了解决这些问题,降低双目匹配的难度,自1986年以来出现了三目立体视觉系统,即采用3个摄像机同时摄取空间景物,通过利用第三目图像提供的信息来消除匹配的歧义性[5]。采用“多目立体视觉技术”可以利用摄影测量的空中三角测量原理,对多度重叠点进行“多方向的前方交会”,既能较有效地解决随机的误匹配问题,同时又能增加交会角,提高高程测量的精度[2]。这项技术的应用,将很大程度地解决自动匹配结果的不可靠性,提高数字摄影测量系统的准确性。
计算机视觉与应用范文6
关键词:计算机视觉;教学应用;教学改革
计算机视觉是人工智能学科中的一门重要课程。随着相关应用在多个领域中的出现,越来越多的学生开始对这门课产生了浓厚的兴趣。如何让学生能够在整个课程中保持盎然的兴趣,并为有志于深入研究计算机视觉的学生指明方向,成为我们教师首先应注重的问题。
在实际的教学工作中,通过不断摸索总结,我们认为,以实际应用引导学生的学习兴趣,既满足了学生想了解计算机视觉实际应用的需求,又加深了学生对于算法的理解,把算法放在一个实际应用中,学生可以理解怎么用,为什么这么用。在这样的目标导引下,我们从选择教材开始,准备教学内容(包括合理的应用实例的选择)、制作PPT、探索教学方法,形成了目前以实际应用为主导的创新教学体系,非常受学生欢迎。在此,我们对这期间遇到的问题,解决方法、心得体会做一个总结和思考,希望能对同行有些许参考作用。
1选择教材
在我们这个专业,每年的上研率基本都保持在50%左右。在本专业的研究生阶段,也开设了双语教学的计算机视觉课程。另外,毕业后选择参加工作的同学也基本都进入和本专业非常相关的一些单位,所从事的工作,都是和在学校学习的知识密切相关。
因此,如何让这门课程的教学既兼顾本科毕业就参加工作的那部分同学,又兼顾继续深造的学生的需求,也是在这门课程讲授的过程中,需要特别注意的一个问题。对于本科毕业就要参加工作的同学而言,需要“广度”,需要了解计算机视觉这门课在各个领域中的应用,在实际中接触到相关的项目或工作时,能够知道去哪里可以找到自己需要的参考资料;而对于要进一步深造的同学而言,则需要一定的“深度”,为研究生阶段的研究打下基础。
全盘考虑到这些学生毕业之后的去向,我们选择了两本教材。一本是贾云得教授编著,科学出版社于 2000年出版的《机器学习》[2],这是一部顺应了时代与教学发展要求的教材,对计算机视觉中的基本概念、基本算法、基本算法的应用、经典应用进行了由浅入深的介绍。内容涵盖了所有经典的数字图像处理与机器视觉方法,也对一些已经得到非常好实际应用的方法,如光流法等作了简要介绍。另外还选择了一本英文原版的计算机视觉的经典著作,Ramesh Jain 教授等所著的《Machine Vision》[3],机械工业出版社于2003年出版。这是国内外非常推崇的一本计算机视觉著作,该教材条理清晰,深入浅出,对计算机视觉的基本原理、算法、应用的介绍非常详尽。
在教学中,我们采用了英文的PPT,但主要用的教材是贾云得教授的《机器视觉》,这样中英文对照讲解,一方面加深学生对教学内容的理解,另一方面也为学生今后阅读专业的英文论了相应准备。
2教学内容和工程实例的选取
2.1选取教学内容
本课程之前,大学二年级的本科生已开设数字图像处理课程,但所讲的基本原理和算法都非常浅显,所以在教学内容的安排上,分为两大部分:数字图像处理部分和视觉部分。数字信号处理部分主要讲解在视觉部分会用到的一些基本算法,为后面进入计算机视觉部分打基础。这部分约占总课时的1/3。视觉部分的课时也分为两部分:算法讲解与实例讲解。在算法讲解部分,对计算机视觉的基本算法、经典算法都做了深入浅出的讲解。实例部分则选择了经典的工业应用,让学生能够对所学算法进一步加以理解。
2.2选取适当的工程实例
就计算机视觉的教学内容而言,各个孤立的算法和方法对本科生来讲,有些抽象不好理解。如果在教学上仅仅通过老师在课堂上的讲解,很难让学生深入地理解相关的教学内容,而选择一个触手可及且简单好理解的工程实例往往就会达到意想不到的教学结果,学生可以把课堂上所学的枯燥理论与现实中活生生的事物联系起来,从而加深对教学内容的理解。
通过反复比对、反复论证,我们选择了在讲解基本原理和算法之后,在课程结束前,专门留出课时讲解手机制造这个例子。手机现在是人手一部,是这些年青学子再熟悉不过的事物了,通过对手机主板、手机键盘的制造过程的讲解,把所学的算法都融合进来,学生在觉得有趣的同时,不知不觉就加深了对所学算法的理解。
另外,在教学的过程中,我们还不断穿插其他学生耳熟能详的实例,如数码相机原理中的一些算法的讲解,我们和学生一起探讨应该怎么选择数码相机。再有,滤波器算法、在课堂上对Photoshop功能的演示,与所学算法关联起来,学生都很容易理解接受。
3教学点滴
3.1点睛之笔
在第一节课的讲述中,我们的重点不在于Marr理论,而是告诉学生:
人工智能就是要让计算机像人一样,能够会听、会看……
我们这门课程就是要让计算机“会看”,要像人一样会看。进而展示给学生一些我们精心挑选的图片,让学生自己判断,是不是自己的眼睛“骗了”自己,人眼和计算机看到的到底有什么不一样。
每次讲到这里,学生都会进行热烈的讨论,每个人都有不同的看法,每个人都有自己的坚持,不知不觉中,对这门课就产生了浓厚的兴趣,有了继续深入学习下去的愿望。在课堂讨论的最后,比较人眼对图片的判断以及计算机的判断后,让学生自己总结归纳,我们这门课到底要研究些什么,都有可能应用在哪些方面,然后对争议比较大的提议一一探讨。每到这个时候,大家的积极性就都被激发出来,在不断的争论与思想碰撞中找出正确的结论。
3.2拿身边的事物说“事”
计算机视觉课程的前半部分,多涉及到图像处理的一些常见算法。在讲授各种各样的滤波器和算子时,并没有针对各个滤波器和算子摆出一堆示例图片,让学生比较滤波前后的差异,从而很生硬地理解滤波器与算子的功能。取而代之的,我们首先以现在人手一台的数码相机为例提出问题,你为什么要选择你手里的这台数码相机?当初选这个品牌和型号时,你的考虑是什么?历年学生的回答几乎都是看网上测评,或者在网上看别人怎么说。这时列出我们收集到的各个品牌相机的测评报告,列出它们的优缺点,然后引导学生去思考,例如这个品牌的相机的缺点是照片发灰,不是很鲜亮,而另一个品牌的相机则绿的特别绿,红的特别红,为什么?那么有可能是哪部分的算法不够完善,为什么?
通过如此简单的对比,学生的积极性被完全激发。原来,数码相机这个几乎人人都有,大家都熟悉的“玩具”竟然和自己在课堂上学到的知识这么密切相关。
再有,就是利用学生们都熟悉的PS(Photoshop),演示现在所谓的“完美证件照”是怎么来的。为什么可以把疙疙瘩瘩的脸部皮肤变得光滑?在PS中,你就是点了一下鼠标,其实在后台,是加入了一个滤波器进行了滤波。各种这样的演示,学生都非常喜闻乐见。因为他们突然发现,原来那些事物,和我自己接触到这些看似枯燥的理论之间,还有这么深刻的联系。
还有一个很受学生欢迎的例子就是对于“鼓形失真”的讲解。我们的老师每次讲到这里,都不会简单告诉学生“鼓形失真”发生的原因是什么,应该怎么解决?老师都会问学生,明星为什么都一窝蜂去减肥?现在的女明星为什么都要去弄个“锥子脸”?课堂上就会出现一个小,男同学和女同学的看法各异,彼此之间开始争论不休。此时再趁热打铁地问学生,如果拿着相机,离自己的鼻子一公分,会拍出什么样的效果?有学生开始拿出手机对着自己和别人开拍,有的学生开始头头是道地分析。每到这种学生都开始热烈讨论的时候,就可以适时引导学生往正确的方向去,让他们自己找到正确的分析解决方法,往往这个时候,学生都会颇有成就感,对于问题的理解也会特别的深刻。
3.3选择合适的实际应用
在所有理论讲解结束后,我们会留出2~4次课讲述计算机视觉在工业上的应用。这些年来,对于手机制造这样一个工业应用,非常受学生欢迎。正如“数码相机”这个例子一样,现在学生都是人手一部手机,是大家再熟悉不过的东西。这个例子涉及到了在前面理论讲述中的大部分算法,如二值图像的处理、模板匹配、高斯滤波器等。学生通过对这个工业应用的理解,更进一步加深了对算法的理解。
以讲解手机键盘的制造过程为例,向学生提出和前面所讲内容相关的问题,引导学生自发思考,如为什么选择模板匹配法,而不是采用其他更复杂更精确的方法等等。每到这个时候,课堂气氛总是分外热烈,学生各抒己见,在不断争论中,更进一步加深对课本上枯燥理论的认识。
在这里需要注意的问题是一定要一步一步提出问题,循循善诱,引导学生一层一层地深入思考。如果问题的答案过于“深藏不露”,则有可能触发学生的抵触情绪,无法继续深入地思考。
4结语
通过多年的教学摸索,我们认为,在计算机视觉课程的讲述中,以实际应用引导学生这样的教学方法非常可取,而且也收到了很好的效果。另外,除了制定好的教学大纲,并选择合适的教材外,根据学校现在的时间情况,我们选择了多媒体手段辅助教学,充分利用Matlab和大屏幕投影等方方面面的优势,结合多种方法进行教学,对讲好计算机视觉这门课,非常有益。
参考文献:
[1] 林尧瑞,马少萍. 人工智能导论[M]. 北京:清华大学出版社,1989.
[2] 贾云得. 机器视觉[M]. 北京:科学出版社,2000.
[3] Ramesh Jain. Machine Vision[M]. 北京:机械工业出版社,2003.
[4] 蔡自兴. 智能控制原理与应用[M]. 北京:清华大学出版社,2007.
Innovation in the Course of Computer Vision
HAN Hong, JIAO Li-cheng
(School of Electronic Engineering, Xidian University, Xi’an 710071, China)