计算机视觉的研究方向范例6篇

前言:中文期刊网精心挑选了计算机视觉的研究方向范文供你参考和学习,希望我们的参考范文能激发你的文章创作灵感,欢迎阅读。

计算机视觉的研究方向

计算机视觉的研究方向范文1

【关键词】农产品 计算机视觉技术 品质检测

农产品品质检测工作中除了采取人工检测法以外,还可以采取半自动或自动检测法,如在水果分级检测工作中的质量分级检测法、光电分选法以及大小分级法等。然而农产品品质会受到自然生长环境或人为因素等方面的影响,农产品的色泽、大小及形状等并不相同,无法采取单一指标进行检测。因此充分应用计算机视觉技术,对农产品的品质进行检测,极为重要。

1 计算机视觉技术

计算机视觉技术又被称为机器视觉技术,指的是通过人类设计,在计算机环境下,达到再现或模拟人类视觉相关的职能行为的一种技术,包括了印刷和手写文字的识别技术,图像模式识别技术,物体三维表面形状识别技术、距离识别以及速度感知等技术。该技术是诸多学科的结合与交叉,涉及到数学、生理学、信息处理、物理学、光学以及计算机等多种学科。探究计算机视觉技术的目的在于实验人类视觉的再现及延伸,即再现高等动物的视觉系统,并对物体形状以及类别进行识别。

此外,计算机视觉技术处理的原始资料多是图像,所以该技术和图像处理以及模拟识别等有着紧密的联系。现阶段,计算机视觉技术在诸多领域有着较为广泛的运用,包括了医学辅助诊断、资源调查、卫星图像解释、军事指导、灾害监测、气象以及工业产品的外观筛选及检测等。同时研究该技术在农业工程领域中的应用,也成为了热门话题。

2 在农产品品质检测中,计算机视觉技术的具体应用

笔者在查阅相关文献资料的基础上,探究在农产品品质检测工作中,计算机视觉技术在产品表面缺陷以及损伤识别工作中的具体应用;果形识别工作中的具体应用;农产品尺寸以及面积检测工作中的具体应用。

2.1 在产品表面缺陷以及损伤识别工作中的具体应用

在对农产品进行分级的过程中,依然存在着一大问题,即农产品表面缺损以及损伤识别。而早在1984年就已经出现了采取线扫描和模拟摄像机针对苹果表面损伤进行检测的实验报道,实验结果显示,采取数据技术能够检测出苹果表面损伤,其检测结果完全能够达到人工分级的精度。与此同时,还出现了一种机器视觉系统,该系统将不规则的图像信息与正常的图像信息区分开来,在去除蔬菜内的杂物以及检测农产品的污点等方面能够取得较好的应用效果。此外,在1989年,国外出现了一种全新的计算方法,即运用红外线扫描摄像机,处理苹果表面的灰度图像,既能够确定苹果表面的损伤面积,还能够区分不同损伤区。然而还技术是以机械装置的设定为基础,需要消耗2s的时间,对一个苹果进行检测,苹果表面缺陷分级精度以及损伤分级进度并不高。

我国在1997年,出现了运用计算机图像处理技术对苹果损坏自动化检测的试验研究,该试验结果显示,该技术的损坏检出率较高,能够规避果梗区以及花萼区对于坏损区域识别的具体影响,且该检测技术的鲁棒性较强。

2.2 在果形识别工作中的具体应用

果形识别是影响水果质量的重要因素之一,对于水果品质检测有着重大意义。当水果成熟后,水果的外形将会发生巨大的改变,且无法采取数学方法进行鉴别,采取其他方式进行果形识别极为重要。

在1981年,有研究人员就针对形状识别中的图像特征进行了探讨,提倡采取结构分析法以及外形轮廓曲线检测法,针对水果外形进行识别。并在1985年,以数字图像分析技术以及模式识别技术为依据,针对番茄定向、番茄形状、表面缺陷以及尺寸进行分类的特殊算法,运用灰度梯度曲线,明确番茄表面缺陷以及花萼位置等。而我国则在2000年,按照果实形状分析,通过连续性指标、半径指标、连续指标对称性、半径指标对称性等特征参数,表示果形,并首次采取参数形状分析法。

2.3 在农产品尺寸以及面积检测工作中的具体应用

农产品分级中,以农产品外形尺寸为依据。在1987年,国外就已经开始研究机械视觉技术在牡蛎肉分级以及尺寸检测工作中的具体应用。并在1992年,针对人工检测以及机器视觉检测进行进行了对比分析,试验结果显示,和人工检测技术相比,采取视觉检测技术,能够提高检测的精确度,减少检测消耗时间;同时在评价以及推广种质资源中,准确的测量以及详细的记录种质形态的指标,有着极为重要的意义。为了能够精确、快速地计算出玉米种质尺度,在1995年,有研究人员就提出了自动化选择技术,该技术在处理玉米种质图像中,其辨别精度极高。

而我国在2002年,有研究人员就针对水果品质进行动态、实时监测的智能化分级生产线进行了研究,该生产线,首先通过水果输送翻转系统,利用滚筒式输送翻转装置,将水果往前输送,在输送过程中,以水平轴为中心,保证水果表面能够被系统检测到,以此获得图像信息。然后利用计算机视觉识别系统,对水果等级进行判断,明确图像信息。该系统具备了视觉识别功能。最终通过分级系统,完成水果分级工作。

3 结语

在二十世纪七十年代以后,计算机视觉技术就已经得到了较为迅速的发展,在我国,该技术在农产品品质检测中的具体应用也得到了人们的高度关注,同时也取得了一定的成效。计算机视觉技术作为人眼的延伸技术之一,其具备了人脑功能,运用该技术代替以往的人工操作技术,已经成为了农产品品质检测工作的必然发展趋势。

参考文献

[1]朱从容.计算机视觉技术在水产养殖中的应用[J].浙江海洋学院学报(自然科学版),2008,10(04):191-192.

[2]王勃,徐静.计算机视觉技术在苹果叶片营养诊断上的应用[J].农机化研究,2008,(03):887-888.

[3]李朝东,崔国贤,盛畅,等.计算机视觉技术在农业领域的应用[J].农机化研究,2009,10(12):667-668.

作者简介

陈超(1995-),男,福建省福州市人。现为北京交通大学在校学生。研究方向为电子科学与技术。

计算机视觉的研究方向范文2

关键词:计算机视觉技术 铁路检测 应用

中图分类号:TP391 文献标识码:A 文章编号:1007-3973(2012)002-075-03

1 前言

自1825年世界第一条铁路在英国出现以来,铁路已经成为人们不可或缺的交通工具,越来越多的人在使用铁路出行,由于近年来铁路事故频频发生,促使了计算机视觉技术在铁路检测上的广泛使用并大力发展。

传统的铁路检测一直是靠人工和静态检测,这种检测缺乏实时性和准确性,并且效率低下,根本无法满足铁路的发展。这就要求研究一种新的检测方法来适应环境的发展,人们就试图将计算机视觉技术应用于铁路检测上,并取得了很好的效果。将计算机视觉技术应用在铁路检测上显著提高了铁路检测的实时性、准确性,有效的减轻了人工检测中工作条件恶劣,工作量大等缺点。它能在列车行驶的过程中就能对铁路和列车状况进行检测,并及时的做出预警,防止安全事故的发生。目前有关铁路检测主要集中在铁路信号检测、轨道检测、接触网检测、电力机车检测及站台环境监测等五个方面。

2 计算机视觉技术

计算机视觉,也称机器视觉。它是利用一个代替人眼的图像传感器获取物体的图像,将图像转换成数字图像,并利用计算机模拟人的判别准则去理解和识别图像,达到分析图像和作出结论的目的。

计算机视觉是多学科的交叉和结合,涉及到数学、光学、人工智能、神经生物学、心理物理学、计算机科学、图像处理、图像理解、模式识别等多个领域。计算机视觉已有多年的发展历程。随着计算机、控制理论、模式识别、人工智能和生物技术的发展,计算机视觉在机器人、工业检测、物体识别的应用越来越广,研究方向也从二维到三维,从串行到并行,从直接依赖于输入信号的低层处理到依赖于特征、结构、关系和知识的高层处理。

一般的计算机视觉系统是有CCD(电荷耦合器件)摄像机、装备有图像采集板的计算机、光照系统以及专用图像处理软件等组成。CCD摄像机将所要研究的对象和背景以图像的形式记录下来,这其实是一个光电传感器,将光学信号转成电信号,图像采集板把采集的电信号转为数字信号,即数字化,一般情况下在摄取图像时都需要一个照明系统提供光照,然后再用专用的图像处理软件对图像进行处理,输出分析结果。

3 计算机视觉技术在铁路信号中的应用

铁路信号灯和现在的交通公路上的红绿灯是一个功能,但铁路和公路不同,铁路有限定的道路,列车必须在限定的股道上行驶,所以一旦与其他车辆相遇的话根本没有办法避让,如果发生车祸将会对国家和人民的生命和财产造成严重的损失,因此列车必须严格按照信号灯的指示行驶。

铁路信号灯识别主要是利用了信号灯在不同情况下会发出特定色彩光的特点。文献[1]在HSV空间中对S分量图像边缘检测和膨胀等,结合各种信号灯色调H分量的取值范围得到信号灯区域,然后多次腐蚀直到消除孤立点得到信号灯的边缘,最后填充信号灯区域,从而实现了信号灯的识别。在文献[2]也与此类似。文献[3]将彩色图像由RGB模式转化为HSI模式,用彩色特征聚类分析法来对图像进行分割,文中提出了基于颜色和形状相结合的复杂环境中目标检测与识别方法,用Hough变化来提取目标边界,从而提取出特定目标,而后得到指示灯区域所有像素的H,S统计值确定信号灯的颜色。在文献[4]提出一种基于改进的Hough变化的吊车信号灯识别算法。Roberto将摄取的图片转换到HIS颜色空间,用基于形状特征和模板匹配的方法探测到相关的铁路标志而放弃无关的基础设施。

为了部分消除因为光照条件、背景和拍摄角度对目标识别的影响,文献[5]提出使用一种利用sift特征的方法,它首先建立已知样本模型的特征集,然后将视频流每帧灰度图像的sift特征与之比较,从而实现对目标的检测或跟踪。实验表明该方法不仅能避免目标的错误识别,而且也明显优于基于边缘检测的算法,在识别准确率上达到了90%。

4 计算机视觉技术在轨道检测中的应用

随着世界铁路运营速度的不断提高,列车在行驶时对轨道的撞击、摩擦加剧,这就会造成轨道的变形、零件松动、磨损乃至缺失等,这些都会对列车的安全性造成严重影响,极有可能会造成铁路安全事故的发生。因此轨道设备具备良好的状态是铁路运输安全的重要保证。

随着电子技术和检测技术的发展,轨道检测技术也经历了翻天覆地的变化,其中也有不少研究机构将计算机视觉技术应用于轨道检测上,且取得了若干有效的检测方法。

轨道表面缺陷对列车行驶的质量和铁路系统的安全性会造成严重的影响,文献[7]提出了一种轨道表面缺陷检测的实时视觉检测系统。利用跟踪提取算法分割出轨道的灰度图像,然后用局部归一化法增强轨道图像的对比度,最后用基于投影轮廓的缺陷定位法检测缺陷。该算法对噪声有较强的鲁棒性和计算速度快,在一定程度上克服了光照不均和轨道表面反射性质不同对图像的影响,但对局部归一化过程中参数的选择有待进一步研究,以使该系统有更强的鲁棒性。该系统在216km/h速度下能进行实时检测,但随着检测速度的提高检测的准确度会明显下降且缺乏实时性。

文献[8]利用一排结构光视觉传感器,将钢轨轮廓的大圆周和小圆周的中心作为检查点。首先结构光视觉传感器拍摄铁轨侧面并且将其标记 在参考坐标帧中,最后通过比较测量的钢轨轮廓与参考轮廓的比较计算出铁轨磨损程度。该方法简单快速精确且不需要特殊的图像处理设备,在列车较高速度时仍然能达到良好效果。

5 计算机视觉技术在接触网检测中的应用

接触网是沿铁路线上空架设的向电力机车供电的特殊形式的输电线路。其由接触悬挂、支持装置、定位装置、支柱与基础几部分组成。它是轨道交通的主要组成部分,主要为机车提供动力,接触网的连接件由于受外界因素的影响容易产生过热现象,严重时会导致供电中断,引发列车停运事故。

我国的计算机视觉技术的接触网检测系统是基于德国相关技术而建立起来的,目前基于计算机视觉技术的接触网磨耗检测主要有两种方案:(1)基于镜面反射,激光照射接触线,线性CCD照相机捕获反射图像;(2)基于漫反射原理和CMOS(互补金属氧化物半导体)照相机。由于长期的频繁摩擦,接触网与受电弓接触部分很少被空气氧化,所以用光进行照射时该部分光反射率明显高于其他部分,因此这也为计算机视觉技术用于接触网检测提供了可能。

基于机器视觉的接触网检测系统主要是建立在图像识别和图像处理等视觉技术基础之上的,检测的内容涵盖接触网的所有基本几何参数。随着铁路的发展,原有的检测系统已经暴露出了一些问题,已无法满足需求,所以研究人员在系统硬件设备不变的情况下提出了许多改进的算法,如文献[9]针对现行的接触网定位器倾斜度检测方法效率低下、精确度不高的缺点,提出了一种基于计算机视觉的接触网定位器倾斜度自动测量装置,应用图像分割、剔除干扰线、图像细化等算法,对采集的图像进行处理,然后利用改进的霍夫(Hough)变换检测细化后的图像,对相邻的特征像素点进行聚类并感知编组,最后用随机Hough变换使感知编组后的每条线段更接近直线,进而计算装置中定位器的倾斜度,实验证明该算法精度高、速度快。

6 计算机视觉技术在电力机车检测中的应用

在列车的行进过程中,机车车轮与钢轨接触面不断发生摩擦,也就是轮缘与踏面的摩擦。从而会造成踏面的擦伤或剥离,而剥离会严重影响列车运行的安全性和平稳性以及轨道设施的使用寿命,因此需要对轮缘进行定期的检测和维修。

传统的检测方法需要人工逐项检测,存在费时费力、工作量大、工作环境差、效率低等缺点,所以人们就提出了一种基于计算机视觉技术的检测技术,该技术是一种非接触式检测方法,它能检测出所有关于火车轮缘轮廓的几何参数,从而计算出火车轮缘的磨损情况。这种检测方法检测速度快、准确率高且大大减轻了劳动强度,在实验中取得了满意的效果,并且在实际检测中也得到了广泛的应用。

文献[10]中研发设计了一种利用CCD成像测量技术、图像处理理论和计算机控制等相关技术,提出了一种非接触式的在线测量系统。采用二元多项式方法对由于硬件装置引起的误差的图像进行几何校正,用统计均值法对图像进行分割,从而求出车轮踏面的各项参数,通过在实验室对标准物进行测试实验而得到的测量数据结果进行分析而得出。此系统能够完成对火车轮对几何参数的测量,并且可得到相对准确的测量结果。

为了解决检测轮缘高度和宽度存在精度难以保证及稳定性不高的问题,文献[11]提出了一种基于三角法测量的在线监测系统,该系统由CCD高速摄像机和结构光发射器完成数据的采集,然后利用三角测量原理导出测量模型和计算模型,根据轮缘高度和宽度的定义完成对高度和宽度的测量,最终对轮缘磨损程度进行量化,实验表明该算法测量精度高,结果稳定可靠。

7 计算机视觉技术在站台环境监测中的应用

近年来铁路交通事业发展迅速,铁路客流量也不断增大,如中国每年的春运期间都有上亿人次通过火车返乡,各种危害乘客安全的事故也时有发生,因此世界各国特别是中国站台监控就显得越来越重要,目前的站台监控主要是依靠安装在各个角落的闭路电视或专业技术人员,这不仅需要专业技术知识还需要大量的人力物力。随着计算机、图像处理等技术的快速发展,对站台的自动监控也逐渐成为发展趋势。

近年来人们做了许多关于站台人群检测的研究,这些研究大都使用铁路站台中的闭路电视(CCTV)系统,在现代的CCTV系统中基本上使用的是数字化图像,在人群监测过程中大量使用了数字图像处理技术,如边缘检测、细化、像素计算等,通过图像的处理可以轻易的得到想要的结果。

文献[12]仍采用原有的CCTV监控系统拍摄的灰度图像作为处理对象,利用基于视觉的经过最小二乘法和全局搜索的混合算法训练的工业的额神经网络来估算站台的拥挤程度,该系统在实际的运行中获得了较高的精确度,虽然不能计算人数但却能实时的预测人群的密度。

文献[13]所设计的系统就较为复杂,它利用多台摄像头对站台进行检测。首先判断站台上列车的四种状态,如:没有列车、有列车、列车正在出站、列车正在入站等,然后对物体或行人检测及跟踪,最后对所检测的结果综合分析,做出合理的预警或警告。

8 计算机视觉技术在铁路检测上的发展趋势

随着计算机视觉技术的铁路检测中的应用越来越广泛和深入,并且随着计算机视觉技术等关键技术的不断发展,计算机视觉技术在铁路检测上应用发挥更大的作用,它就目前而言在铁路检测的应用上仍然存在技术难题需要研究:

计算机视觉的研究方向范文3

近年来,计算机视觉在安防领域的应用正备受关注,身份识别是核心问题。人脸识别是一种基于脸部特征信息进行身份识别的技术,人脸检测是其中的基础和关键部分。介绍了四种不同的人脸检测技术,分析了相关的算法和理论,概述了各自的优缺点。最后,讨论了人脸检测技术今后的研究方向及发展趋势。

【关键词】计算机视觉 身份识别 人脸检测

1 人脸检测问题综述

在国土安全和社会安全问题日益突显的背景下,世界各国家都对安防领域进行不遗余力地投入。随着计算机视觉技术的不断发展,基于生物特征识别的身份识别技术受到人们的广泛关注,在未来一段时间内生物识别技术将成为信息产业的一次革命。其中人脸识别技术作为一种极具潜力的生物识别方式,以其识别速度快,主动性强,性价比高等显著的技术优势,在各个领域都体现出了巨大的商业价值和社会价值。

人脸检测是人脸识别的前提和关键,一般采用相机实时采集含有人脸的图像或视频流,并自动在图像中对人脸进行检测和跟踪。人脸的自动检测是一项颇有难度的工作,主要体现在:(1)不同族群年龄等问题导致人脸的差异性。(2)人脸上的胡须等附属物对检测造成的干扰。(3)人体姿态变化和遮挡物存在对检测的影响。(4)环境和硬件条件对图像采集效果的影响。针对这些问题,国内外著名高校和科研机构进行了很多相关的研究,致力于解决在复杂背景下如何准确高效地进行人脸检测的问题。

2 实现人脸检测的相关技术

根据近年来计算机视觉领域人脸检测问题的研究进展,本文在这里进行总结性综述,目前人脸检测的方法可以分为基于知识和统计两类,有以下四种常用的检测算法。

2.1 模板匹配

模板匹配可以分成固定模板和变形模板。固定模板指的是根据先验数据归纳出一个统一的模板,然后根据一个能量函数确定被检测区域中和模板相关程度较高的位置,即人脸位置。由于不同人物之间脸部的差异性很大,加上环境等因素的影响,此方法并不具有很强的实用性。变形模板原理上和固定模板的操作方式相同,不过变形模板自身的参数模型在一定范围内具有可变性,因此检测的动态范围更大,检测效果相对较好一些。

2.2 样本学习

由于人脸的复杂性,显式描述十分困难,因此基于统计模式的检测方法受到了人们的广泛关注。此方法将人脸看做一种模式,通过对大量样本图像的机器学习完成分类器的构造,利用分类器实现对人脸的检测判别,在这里问题被转化为模式识别中的二分类的形式。

首先,需要建立一个样本空间,其中包括“人脸”和“非人脸”的正负两种样本,对样本图片归一化处理后,顺序展开后进行主分量分解,在大量样本形成的高维矩阵中计算其特征值和特征向量,然后采用一定的学习机制在特征空间中建立分类,以此可得到用来检测样本图片是否为人脸的正负判别规则式,二者为互斥关系。此检测方法具有较高的准确度,但是需要大量的正负样本图片,MIT等一些高校和研究机构建立了开放的人脸库。

2.3 人工神经网络

人工神经网络(ANN )是将模式的统计特性包含在ANN的结构和参数中,对于人脸这类复杂的、难以显式描述的抽象型模式,这一检测方法具有其自身特别的优势。

神经网络方法本质上也是基于样本学习,首先使用经过预处理的“人脸”样本以及采用“自举”方法收集分类器错分的样本作为正负样本训练各个ANN,然后根据结果进一步对分类器进行修正,构造多层感知器(MLP)网络作为分类器对人脸进行检测。人工神经网络是并行分布式系统,采用了与传统人工智能和信息处理技术不同的原理,模拟大脑神经网络处理、记忆信息的方式进行目标检测。神经网络模型克服了传统的基于算数逻辑符号的人工智能在处理直觉、非结构化信息方面的缺陷,具有自适应、自组织和实时学习的特点,应用在人脸检测问题中性能表现突出。

2.4 基于隐马尔可夫模型

隐马尔可夫模型(HMM)是一种双重随机过程,一种是有限状态的马尔可夫链,另一种是序列的观察值。由于只能通过观察值得到马尔可夫链的状态,因此称之为隐马尔可夫模型。对于人脸而言,可以把它分为前额、眼睛、鼻子、嘴巴、下巴五个部分来检测。根据这五个区域位置顺序不变性,可以分别用相应的观察向量序列检测每一个部分,使用一个包含五个状态的一维连续HMM来表示人脸。接着对各块进行KL变换,提取每块一些最大的特征向量作为观察值对HMM进行训练。此后,还提出了一种嵌入式隐马尔可夫模型,该方法除了将人脸划分为五块外,还在每块中从左至右嵌入了一个HMM。接着进行二维DCT变换,把变换后得到的系数作为训练值。

3 结束语

人脸检测是个发展很快的研究方向,人脸检测技术的发展趋势是利用多特征,多种分类方式进行启发式知识与统计学习方法的结合,未来对人脸检测的研究将会更注重其实时的应用,这就对检测算法的效率提出了更高的要求。另外,可以消除光照对人脸成像影响的红外人脸识别技术,加入相互对比机制的包含正脸、侧脸三维信息的人脸三维模型重建检测技术也正在研究当中。随着技术的不断进步和市场逐渐的规范化,人脸检测识别技术会越来越多地应用于社会的各个领域,在促进社会发展的同时方便人们的生活。

参考文献

[1]许燕,王维兰.基于视觉运动人脸检测技术的研究[J].计算机仿真, 2014(1):434-437.

[2]孙宁,邹采荣,赵力.人脸检测综述[J].电路与系统学报,2006,11(6):101-108.

作者简介

姚坤(1990-),男,现为聊城大学物理科学与信息工程学院硕士研究生,主要研究方向为机器视觉。

计算机视觉的研究方向范文4

关键词:图像处理 教学改革 研究生教学

中图分类号:G642.4 文献标识码:C DOI:10.3969/j.issn.1672-8181.2014.05.098

《数字图像处理》课程是计算机应用技术专业研究生的重要基础课程,对于研究生综合能力的培养及学术思维的训练具有关键性意义。作为一个经典研究方向,数字图像处理已经有较为悠久的研究历史[1,2],因此作为一门研究生课程,《数字图像处理》有众多关键性重要内容可以教授,是培养研究生科研能力的重要基石。

作为一个重要的科研方向乃至领域,数字图像处理已经与模式识别、计算机视觉以及机器学习等学科建立起密不可分的联系,因此该门课程可以极大地拓宽学生的学术视野,为学生将来的学习和科研铺设道路。同时,数字图像处理方向相关的人脸识别[3]、图像拼接[4, 5]、轮廓提取[6]等课题,已成为计算机学科中最为热门的科研课题之一,充分反映了该研究方向的关键性地位。

在本科阶段相应课程的基础上,除讲授相关基础知识之外,研究生阶段的《数字图像处理》课程应更加注重学生专业能力的培养和科研能力的积淀,以指导科研作为该门学科的灵魂。本文对如何在研究生阶段的《数字图像处理》课程中增加对科研内容的强调进行了初步研究和探索,并将相关具体实施措施总结如下。

1 对顶级期刊和会议进行介绍

在研究生的各项科研综合能力中,具备一定科学文献阅读能力是不可或缺的一环,而进行文献阅读的前提是必须首先学会辨别文献的质量。在各种文献肆意泛滥的今天,缺乏这项能力,学生将很容易陷入垃圾文献的陷阱,从而影响其对科学研究的理解,甚至彻底歪曲学生的科研精神。因此我们认为,在研究生阶段的《数字图像处理》课程中,必须对IEEE Transactions on Pattern Analysis and Machine Intelligence、IEEE Transactions on Image Processing、International Conference on Computer Vision等相关的顶级科研期刊和会议进行适当介绍和说明,使学生明白真正的科研巅峰在何处。

2 介绍经典算法

数字图像处理学科中,拥有众多以Adaboost[7]为代表的经典算法,它们是构成整个学科的关键性支柱,也是学科发展中每个阶段的里程碑。仅仅注重表面基础知识,而忽略经典算法的讲解,是舍本逐末的短视行为。

3 强调与相关学科的关联

数字图像处理学科发展到今天,已经与模式识别、计算机视觉、机器学习、概率统计等学科建立起了密不可分的内在联系。在解决某一个具体任务时,已经不再是单一学科知识可以应对的,而往往需要多学科知识的综合发挥。因此,为切合实际应用,在讲解《数字图像处理》课程时,必须同时对相关学科进行介绍。使得学生明白在何时、可以从何种学科,获得相应帮助。

4 相关专业工具的介绍

工欲善其事必先利器,数字图像处理是计算机学科中的上层次内容,必须依托在相关专业工具基础上才能开展研究。如若缺乏对相关工具的了解,往往会事倍功半。以读取图像为例,依托相关工具可能只需要编写一行代码,而如果自行编写代码,可能需要数百行之多。因此,我们认为,必须在《数字图像处理》课程中,对Matlab、Opencv等专业工具进行专门介绍。从而节省学生在进行相关研究时,在摸索基础工具方面所花费的时间。

5 突出最新技术进展

发展迅速是信息学科的突出特点,作为研究热点的数字图像处理学科的更新更是日新月异。为相关科学研究服务,必须时时关注最新的科研热点,使学生随时了解最新的科研动向,为他们在将来进行科研方向选择时,提供更多的指引和选择。

参考文献:

[1]Gonzalez R.C., Richard E. W. Digital Image Processing [M]. Prentice Hall, 2007.

[2]Szeliski R. Computer Vision: Algorithms and Applications [M]. Springer, 2010.

[3]Li S.Z., Jain A.K. Handbook of Face Recognition [M]. Springer, 2011.

[4]李月龙,封举富.基于最小扭曲变换的正面人脸图像合成[J].计算机辅助设计与图形学学报,2011,23(6):1085-1090.

[5]Li Y., Feng J. Frontal face synthesizing according to multiple non-frontal inputs and its application in face recognition [J]. Neurocomputing, 2012,(91):77-85.

[6]Li Y., Feng J. Sparse representation shape model. 17th IEEE International Conference on Image Processing (ICIP) [C]. 2010:2733-2736.

计算机视觉的研究方向范文5

AlphaGo的出现加速了人们对人工智能(Artificial Intelligence以下简称AI)的理解,但AI极客们的野心远非19行的棋盘可以局囿,他们拥有酷炫的技术和非凡自信,并想以此来改变世界。

美国畅销书作者、发明家雷.库兹韦尔(Ray.Kurzweil)在《奇点临近》一书中为人工智能的出现设定了三个条件:强大的计算能力、海量的知识储备,最后还需要教会计算机拥有认知能力,通过机器学习技术让计算机不断的自行进化。

前两者已经实现。第三点,如何让机器拥有认知能力是AI极客们关注的重点。

机器学习是人工智能的核心。机器学习将教会计算机认识现实世界,知道自然界的日升日落、阴晴圆缺,并能理解人类的行为和语言。机器学习的常用领域包括数据挖掘、视觉理解、语音识别和自然语言处理等方面。我们采访了数位科技公司高层、新锐创业者,他们有一个共同的身份―国内从事机器学习的应用和研发的专家。他们讲述了中国人工智能发展的现状,而一旦科技出现新突破,也预示着新一轮的商业变革。 先知

坐在记者对面,脸庞消瘦的陈运文笑得有些腼腆,言语却充满自信,“很多事情都是可以预测的”。

陈运文是国内大数据方面的专家,曾任百度核心技术研发工程师和盛大文学首席数据官。现在他是个创业者,达观数据创始人兼CEO。他为公司新入职的同事下发了一套题――如何预测泰坦尼克号上的幸存者。整套题通过获取泰坦尼克号上所有乘客的真实信息,包括性别、年龄、职业、票价、舱位等,然后编写程序来预测这2000余名乘员中哪些人最终得以生还。

在陈运文眼里,将所有信息加以综合挖掘,就能够推演出最终的答案―“705名生还者都可以准确预测。”

预测这样的事件只是数据挖掘的一个案例,对于极客而言,只要给他们足够的信息,这个世界就没有意外和偶然。

现在,陈运文用自己的技术帮助企业进行商业决策。虽然只成立不到半年,但这个隐藏在张江天之骄子公寓里的创业公司已经获得真格基金和盛大网络创始人陈大年的投资。

陈运文将第一批客户瞄准为自媒体人,通过数据分析,为自媒体提供可以引发热议的话题,并告诉这些作者,什么人喜爱看他们的文章、会关注什么话题。

让机器自己学会分析信息早就在商业行为中广泛存在。在百度工作期间,陈运文负责搜索引擎的核心算法研究,主要“为用户提供最有价值的信息”。 工作的难点不在于搜索信息,而在于让机器认知用户的搜索意图。

用户经常会在搜索框中输入“口语词汇或者模糊的语句”,服务器要从人们的搜索语句中判断真正的需求。陈运文就需要设计算法让搜索引擎理解用户的语义,从数百亿的网页中迅速找到对用户最有价值的结果。这种“算法”就属于人工智能。百度每天的搜索有数十亿次,每当陈运文改进了算法都能看到用户点击的满意度在上升。

今天这种依靠数据挖掘技术来提高企业运作效率的方法变得更常见,业内将其称为“商业智能”(Business Intelligence)技术。陈运文计划将这种技术在云端运用,另一些同类公司则将这种技术直接运用在软件上。2010年在美国纳斯达克上市的Qlik公司就是商业智能软件的代表企业。他们的QlikView软件为用户提供“可视化”的大数据服务。

“我们的软件可以理解数据,挖掘数据并将其用更直观的方式展现给客户,以帮助管理层做出决策。” Qlik亚太区制造业和高科技市场开发总监Jeremy Sim对《财经天下》周刊表述。

这些带有“预测”功能的软件已经在服务并改变人们的生活,比如根据顾客的购买信息QlikView会提示便利店店长,售货架上的麦片不应该和面包摆在一起,虽然它们都是早餐食品,但如果将麦片和酸奶摆在一起,销售数字会更好看。此类预测还进一步提醒物流部门,尽量地在头天晚上补足麦片和酸奶货源。这类商业智能的应用渗入所有人的生活,以这家公司为例,他们已经在全球100多个国家招徕了3.8万企业客户,间接服务人群上千万。

未来这些带有“智力”的系统将会更多的出现在电商、医疗、教育、金融等领域。“比如随着智能手环的增加,会有更多的健康数据被采集,那么我们会提供健康预警、治疗方案推荐等服务。”陈运文说。现在只是大数据挖掘的初级阶段,人工智能时代也才刚刚开启。 视觉理解,打造机器之目

2014年6月,比尔・盖茨访华,除了见政商要员外,他还专门造访了一家刚成立一年的创业公司―格灵深瞳。对于这家初创公司,比尔盖茨留下了两句后来被广泛引用的评语“This is very cool”和“IT界的下一个大事件是计算机视觉(computer vision)与深度学习(deep learning) 的结合”。

格灵深瞳就是这样一个结合了计算机视觉和深度学习为一身的酷公司。创始人赵勇是致力于视觉理解的知名极客,虽然他本人并不喜欢这个称谓。

“极客(Geek)在英文里形容书呆子,只会做技术不通世事,但我觉得我是一个懂技术的正常人。”他对《财经天下》周刊说。

赵勇专攻计算机视觉和运算影像学,2009年入职谷歌总部研究院任资深研究员,是谷歌眼镜项目的骨干。“我们团队负责谷歌眼镜的场景识别技术,利用谷歌街景来判断使用者所处的位置。”简单地说就是将谷歌眼镜捕获的图像和谷歌街景做比对,然后快速地定位用户所处位置和周边信息。谷歌眼镜可以在500毫米之内将用户的位置精确到米级别。赵勇说谷歌眼镜并不是“进化的产品,而是从无到有的突破”。

2013年初,赵勇回国创业成立格灵深瞳,并在三个月后拿到真格基金和联创策源的联合天使投资,同年6月格灵深瞳又拿到红杉资本 A 轮高达数千万美元的投资。

业内传播着投资人争论其未来估值的段子,据说某次饭局上真格基金的徐小平、红杉资本的沈南鹏和联创策源的冯波讨论格灵深瞳的未来估值,徐小平认为起码5000亿美元,而沈南鹏认为1000亿美元,最后冯波折中地认为3000亿美元。而现在中国电商巨头阿里巴巴的市值还不到1900亿美元。

受到比尔・盖茨和投资人如此追捧的原因在于赵勇的研究方向―计算机视觉,这是机器学习中极为复杂的领域。

将赵勇和陈运一个对比就可以看出他们研究方向的不同。赵勇认为数据挖掘是让计算机理解“结构化信息”,结构化指那些人工制作的成型的信息数据,例如一句话一段文字或者一份表格。但计算机视觉需要让机器理解飘过镜头的一片树叶,或者悄悄走过的一只猫。

陈运文对此也做了比较,他认为数据挖掘更多的是处理文本信息,而文字是具象的表达,机器看到汉字“猫”或者英文“cat”就可以理解这是一种动物,但图片是抽象信息,给计算机看一张猫的图片,让它去理解猫的概念非常困难。

所以当2012年6月谷歌X实验室宣布他们研发的“谷歌大脑”通过百万张图片的学习后可以识别“猫”的时候,全世界都为之震惊。这意味着谷歌培养的这个“孩子”具备视觉理解的能力可以“看图说话”了。而参与“谷歌大脑”研发的吴恩达博士(Andrew Ng)也因为这个项目被誉为“谷歌大脑之父”,成为机器学习领域最权威的学者。

为了建造“谷歌大脑”,吴恩达使用了神经网络系统,他们连接了1.6万片处理器创造了一个拥有10亿多条连接的神经网络,并逐步地培训这个系统,直到它拥有识图的能力。

现在,赵勇做的事情与此类似。

他通过影像设备捕捉实时画面,让计算机识别这个真实世界,更为直接的说法或许是―赵勇正在研制“机器人之眼”。

像谷歌一样,想让计算机能识别图像,赵勇也需要制作一个“深度神经网络”系统。

在人脑中有大约1000亿个神经元,神经元通过神经突出连接在一起就变成了一个神经网络,人们思考问题的时候这些神经网络相互激发,最终产生决策。现在极客们用计算机来模拟这个过程,用计算程序建立起庞大的计算元素,这些程序运算的结果通过网络互为交换互相影响,最终产生结果,这就是初级的人工神经网络。人工神经网络层级越多规模越大,其“聪明程度”就越高,学习的能力就越强。

要培养这样一个会“识图的孩子”,赵勇除了要建立这样一套庞大的神经网络之外,还需要不停训练这个网络。

“可以将神经网络当成一个黑盒子,我在里面设定了一些基本参数,随后不停的往里面输入数据、图片来训练它,通过这种大量的训练,黑盒子里面参数的连接会越来越紧密,整个网络也会越来越聪明,最终变成一个可以识别图片的智能系统。”

严格地说,人工智能不是人类设计出来的,而是人类训练出来的。即便是赵勇这样的创建者也无法知道这些神经网络到底如何相互作用相互影响,并最终形成自己的智能系统。他能做的只是“选择输入数据,控制训练方向”。

依旧以老师教育孩子做比喻,虽然赵勇这个老师不知道孩子是怎么理解图片,识别这个世界的,但他可以控制教学的内容,让这个孩子朝某个方面学习。

赵勇花费了两年时间才为格灵深瞳培养出自己的“孩子”,并将这些有“识图能力”的人工智能设备应用到安防监控和汽车识别方面。

去年格灵深瞳推出了名为“目”的行为分析仪,这是一个包含软硬件于一体的智能监控产品。“目”会实时监控场景内的情况,发觉异常就立刻报警或者提醒工作人员注意。而在另一个名为“威目”的产品中,格灵深瞳做到了车辆识别,他们训练系统辨识超过5000种车辆,这几乎涵盖了地球上所有的汽车类型。这种能力为警方办案提供了帮助,警方可以用“以图搜图”的方式让“威目”提供他们需要的视频资料。“警方提供一张汽车照片,威目在识别照片之后可以从交通录像中找出该车的行动轨迹。”除此之外,该系统还可以搜索“结构化信息”,例如在系统中输入2004年生产车牌中含有5这个数字的红色奥迪A4汽车,“威目”就会在资料中截取相关的图像或者视频,而此前这些工作都需要人工完成。

如果计算机视觉技术以这样的速度继续,或许用不了几年,当我们站在摄像头前时,计算机会在屏幕上敲出那句让人激动的言语―“I see you .” 造物者

“谷歌大脑之父”吴恩达在完成了“认猫”创举两年后离开了谷歌,加盟了百度,任职百度首席科学家并负责“百度大脑”的研发。

说服吴恩达做此决定的是他的好友,现任地平线机器人技术CEO的余凯。

余凯是国际知名的机器学习专家,他牵头成立的百度深度学习研究院是国内第一个研究深度神经网络的研究机构,加盟百度时被李彦宏称为“镇院之宝”。

“深度网络学概起始于2006年,当时主要有5个机构从事这方面的研究,分别是多伦多大学、纽约大学、美国的NEC实验室、斯坦福大学和蒙特利尔大学,而我当时在NEC实验室工作。”余凯说。有段时间他还在斯坦福大学执教《人工智能概论》。他领导的团队在深度学习、图像识别、文本挖掘、多媒体检索、视频监控,人机交互等机器学习领域都有建树。

去年余凯离开百度,在中关村的创富大厦租赁办公室成立地平线机器人技术。成立仅4个月,这家公司就迎来了首轮投资,投资方包括晨兴资本、高瓴资本、红杉资本、金沙江创投等多家机构。

比起商业上的追求,余凯更想用技术改变世界―为万物装上人工智能的大脑,让它们变成拥有智能思维的机器人。

在余凯看来,他在百度的工作主要是在“云端”搭建人工智能深度神经网络,其服务主要体现在“为用户提供更智能的互联网服务”,他希望通过人工智能技术应用到物理世界中,让人们的生活变得更方便和简单。“现在很多电器都采用软件结合互联网操控,我希望未来都可以实现本地人工智能操控。”

他准备让汽车、空调、冰箱、微波炉等上千种产品或设备都具有从感知到决策的能力。比如用户进入房间时空调就可以感知人的位置和体温自动开机送风,并追随人的移动而改变送风方向;冰箱则会读取存储食物的信息,及时提醒用户食用或补充。

余凯利用深度神经网络算法来搭建他的人工智能框架。他将这种人工智能系统描述成“类似于安卓的智能硬件的大脑平台”,这个系统可以安装在不同的产品中。

他“改造万物”的计划先从家居产品和汽车两个方面着手。地平线机器人技术研发了针对这两个行业的人工智能操作系统。家居方面的基于深度神经网络的操作系统名为“安徒生”,汽车的则称为“雨果”。

现在 “安徒生”已经入驻家电产品,在刚刚过去的上海家博会展上,地平线机器人和某国内知名家电厂商合作的两款智能产品面世参展。“现在业界最大的智能家居厂商都是我们的客户,我们向他们提供算法操作系统,并告诉他们如何配置硬件设备,就像安卓向手机厂商提供参考设计一样。”

下一步余凯准备让“雨果”进入汽车自动驾驶领域,在安装了传感器、处理器和雨果大脑平台后,汽车可以成为提供无人驾驶或智能驾驶的新型交通工具。

“定义万物智能的大脑,这还要花很长时间,但是我觉得一步一步往那边靠近。” 余凯知道地平线机器人的征程漫漫,但对于AlphaGo对战李世石这样的人机大战新闻他却无比笃定。“赛前几乎所有专家都说这次机器赢不了,但我在接受网易采访的时候就公开预测机器会赢,因为我了解AlphaGo的算法。”

陈运文也表达了相同的猜测。3月9日下午,陈运文就兴奋地预测AlphaGo能够获胜,那时首尔的李世石刚在棋盘上落下自己的第一枚黑子。

3个小时后,对弈到186手时李世石投子推枰宣告认输。

计算机视觉的研究方向范文6

>> 基于机器视觉的瓷砖素坯表面缺陷无损检测算法研究 基于机器视觉检测的轮廓提取算法的研究 基于机器视觉的西瓜体积估测算法 SMD晶体器件检测中机器视觉的应用分析 基于计算机视觉的实时车辆运动速度检测算法研究 双目视觉中的角点检测算法研究 异常证据及其检测算法研究 高效运动目标检测算法研究 DDoS攻击的检测算法研究 图像边缘检测算法研究 自动目标检测算法研究 机器视觉在半导体器件塑封缺陷检测中的应用 针对SMD晶体器件检测的机器视觉系统的设计 机器人仿真系统中碰撞检测算法的优化 一种基于立体视觉的运动目标检测算法 感知无线电频谱检测算法的研究 自适应阈值Canny边缘检测算法研究 遥感图像变化检测算法研究 基于Vega的碰撞检测算法研究 语音信号基音检测算法研究 常见问题解答 当前所在位置:l~type=v5_one&label=rela_nextarticle

[3]Mark S.Nixon,Alberto S.Aguado.李实英,杨高波,译.特征提取与图像处理(第二版)[M].北京:电子工业出版社,2011.

[4]National Instruments.选择视觉软件需要考虑的10个方面[OL].,2008.

[5]黄文明,徐锦法.基于机器视觉的通孔元器件检验[J],中国科技博览,中国包装总公司,2013(13).

[6]NI,NI Vision Concept Manual,2005.

[7]NI,NI Vision Online Help,2000-2008.