计算机视觉的概念范例6篇

前言:中文期刊网精心挑选了计算机视觉的概念范文供你参考和学习,希望我们的参考范文能激发你的文章创作灵感,欢迎阅读。

计算机视觉的概念

计算机视觉的概念范文1

关键词:计算机视觉;研讨式教学;小组探讨;课前回顾

作者简介:陈芳林(1983-),男,湖南株洲人,国防科学技术大学机电工程与自动化学院,讲师;周宗潭(1969-),男,河南洛阳人,国防科学技术大学机电工程与自动化学院,教授。(湖南 长沙 410073)

中图分类号:G643.2 文献标识码:A 文章编号:1007-0079(2013)26-0065-02

进入21世纪,创新型人才的培养成为各国政府和高等教育界关注的一个焦点。世界各国研究型大学的共同特点是在研究生教育阶段致力于培养富有创新意识和创新能力的高级人才。[1]研讨式教学是培养研究生创新精神、科研能力的有效途径,教师讲解与学生探讨两部分相结合是研讨式教学采用的主要模式。[2]将课程分成两部分之后,教师讲解的时间就必须压缩,教师一方面需要思考如何在较短的时间内完成课程的讲解,同时还需要考虑课程讲解要与学生探讨部分紧密结合。因此,如何上好研讨式教学教师讲解这部分课,越来越受高等院校的重视。本文针对笔者教授工科研究生课程“计算机视觉”的实践与经验,阐述了笔者对于如何上好研讨式教学教师讲解这部分课的个人体会。总结为两点:第一,首先要充分做好课程准备;第二,上课环节采取回顾—案例—小结的讲解方式。下面从课程准备、课前回顾、课程讲解、课后小结四个方面分别阐述(如图1所示)。

一、“计算机视觉”课程准备

要上好一门研讨式教学的课程,一定要结合该门课程的特点,量身定制课程内容,进行精心准备。本节先介绍“计算机视觉”课程的特点,然后结合该门课程的特点,介绍笔者对于“计算机视觉”的课程准备。

1.“计算机视觉”课程特点

“计算机视觉”是“数字图像处理”和“模式识别”等课程的后续课程。该课程重点在于图像或者图像序列的分析理解。课程知识在机器人导航、侦查、测绘、测量、精密加工和目标跟踪等多个领域都有广泛的应用。[3]近年来基于视觉信息的控制反馈也开始受到广泛关注。国内高校一般都为研究生开设了此门课程。

计算机视觉技术应用广泛、算法原理涉及面广:涉及到概率与数理统计、信号与系统、图像等基础知识。“计算机视觉”是一门重要的控制类、电子类及计算机类专业研究生的选修课程,它内容广泛、综合性强,研讨能力的培养显得非常关键。

2.课程准备

首先,结合“计算机视觉”课程内容广泛、技术日益更新和丰富的特点,将课程36学时分为12次课,每次课为3小时,每堂课教师讲解一个专题。这种设计,一方面可以更广地涉及计算机视觉的各个领域;另一方面以专题的形式来讲解,可以将学生带入到该专题,介绍基本背景、理论、知识和方法,让学生有一个初步的了解,方便课后学生对感兴趣的专题进一步深入挖掘与研究。

其次,在课程开始之前,教师仔细统筹,安排好每次课的专题,这样既方便学生一开始对整个课程有一个整体的了解,也方便学生选择课堂研讨的题目与内容。根据12个专题,将各个专题讲解的内容与课件在开课之前准备好,这样有利于把握各个专题之间的前后承接关系。例如,“区域”与“分割”是既有区分又有联系的两个专题,在课程开始之前,将课件准备好,就有利于宏观把握,在“区域”专题提到的分割算法,就不需要在“分割”专题再次重复,而在“分割”专题可以结合前面“区域”专题进行互相补充,以帮助学生融会贯通。

最后,在每个专题上课之前,再对课件进行精雕细琢,主要是对内容分好层次,对方法进行分类,力图在较短的时间内,让学生对该专题有较全面的认识。例如,在讲解图像分割时,由于图像分割方法非常多,可以将分割方法分为若干个大类,每个大类只讲1~2个方法。这样既可以尽可能涉及更广的领域,又可以提高讲解的效率。

二、“计算机视觉”课前回顾

课前回顾是指每堂课的前面一小段时间用来回顾上一堂课的内容。虽然课前回顾时间非常短,一般为3~8分钟,但是课前回顾是课堂教学中的一个重要环节。课前回顾可以帮助学生加强将要学习的内容与已学过内容之间的联系。通过课前回顾,学生可以回忆前续课程所讲解的概念、理论、算法的步骤等内容,有助于解决新问题或者理解新知识。

课前回顾最重要的是既要复习前续课程的内容,又要注意将前续内容与当前内容联系起来。由于讲解时间有限,要使研讨式教学的教师讲解部分效率高,教师帮助学生回忆上堂课的概念、模型、算法等内容,就变得非常重要。如果不做课前回顾,那么当讲到某处新知识时,往往需要停下来,将前续课程再讲一遍,否则学生无法理解新的知识,这样就降低了教学的效率。

课前回顾的时间,一般以3~8分钟为宜。课前回顾的形式可以多样化,如讲解课后作业、回顾概念、提问等。笔者认为应根据当天课程与前续课程的关系,采取合适的方式。各种方式结合使用,提高课前回顾的效率。

三、“计算机视觉”课程讲解——案例教学

案例教学已经成功地应用于数学、计算机科学等领域的教学。通过案例,学生可以很快地掌握相应的概念、算法的步骤等,从而提高教师讲解部分的效率。[4]例如,在讲解马尔科夫随机场时,笔者通过案例式教学,将马尔科夫随机场用一个生活中的例子来向学生解释。首先,将马尔科夫随机场分解成两个重要的概念,分别是随机场与马尔科夫性,然后将它们对应到例子中,帮助学生理解。

随机场包含两个要素:位置(site)和相空间(phase space)。当给每一个“位置”中按照某种分布随机赋予“相空间”的一个值之后,其全体就叫做随机场(如图2(a))。[5]这个概念非常抽象,难以理解。笔者应用案例式教学,拿庄稼地来打比方。“位置”好比是一亩亩农田,“相空间”好比是种的各种庄稼。给不同的地种上不同的庄稼,就好比给随机场的每个“位置”,赋予“相空间”里不同的值。所以,可以形象地理解随机场就是在哪块地里种什么庄稼的布局(如图2(b))。

马尔科夫性指的是一个随机变量序列按时间先后顺序依次排开时,第N+1时刻的分布特性,与N时刻以前的随机变量的取值无关。为了更直观地理解马尔科夫性,笔者仍然拿庄稼地打比方,如果任何一块地里种的庄稼的种类仅仅与它邻近的地里种的庄稼的种类有关,与其他地方的庄稼的种类无关,这种性质就是马尔科夫性。

符合上述两个特征,那么这些地里种的庄稼的集合,就是一个马尔科夫随机场。通过案例式教学,笔者发现可以加深加快学生对课程内容的理解,提高教师讲解环节的效率。

四、课后小结

课后小结指的是一堂课将要结束时,教师对本堂课进行一个简短的总结。许多成功的教师都会在其教学中坚持课后小结这个环节,给学生一个总体的印象,以帮助学生消化本次课程的内容。

研讨式教学教师讲解部分的课后小结与普通教学方式应有所区别。笔者认为这主要是因为通过课后小结可以将本次课程所讲内容与学生的研讨环节结合起来,而不仅仅是对内容进行简单的总结。

为了达到课后小结使本次课程内容与学生探讨环节建立联系的目的,笔者在教学中常采用如下方式:首先,像普通教学方式一样,总结本次课程内容;然后,在此基础上,抛出若干问题,这些问题,不需要学生马上解答,而是留给学生课后思考,提供他们选择研讨主题的素材;最后,介绍其他在本次课程中没有涉及到的前沿知识、方法与理论,拓宽学生的视野,从而增加学生选择探讨主题的覆盖面。

通过应用这种方式,笔者发现学生的思维更开阔,在探讨环节,学生往往可以选择一些比较新颖的主题(例如视频中不动点的检测等),而不仅仅局限于教师所讲内容,从而提高了研讨式教学的效果。

五、结论

在“计算机视觉”课程中引入研讨式教学,通过总体设计规划好整门课程内容,课堂讲解注意采用回顾—案例—小结的方式,笔者对如何上好研讨式教学教师讲解这部分课进行了个人经验的总结。通过本次教学改革,笔者体会到如果要提高教学效果,一定要注意教师讲解与学生探讨两个环节的紧密结合。

参考文献:

[1]侯婉莹.我国研究型大学本科生科研研究[D].济南:山东大学,

2009.

[2]张晴,李腾,韦艳,等.研讨式教学模式的理论研究[J].中国科技纵横,2011,(10).

[3]D.H .巴拉德.计算机视觉[M].北京:科学出版社,1987.

计算机视觉的概念范文2

关键词:计算机;交通监管系统;视觉

中图分类号:TP277

近年来,道路交通安全问题因公路交通事业的快速发展而受到越来多关注。据2002年世界银行统计,全球平均每年死于道路交通事故高达117万人。而在中国,据2008年公安部交通管理局公布的数据显示,全国道路交通事故多达265204起,死亡人数为73484人。

全国道路交通事故防御工作随公路里程、机动车保有量、道路交通流量、驾驶人数的增加成递增趋势。而通过必要的技术手段构建交通安全保障机制,降低交通事故是重中之重。若要好的为基础的交通违规行为检测技术的不断更新,市场上已出现了自动检测与记录的商业化产品,能实时记录出闯红灯、违规超车、违规停车、超速、逆行等违规行为。然而,我国高速交通监控体系仍比较落后,大多在交叉路口设置电子警察系统以此检测车辆闯红灯的违规行为。交通管理部门并不能对出现违规行为的车辆进行及时的交通管制和处理,概括来说管理与检测仍处于管理误区与盲目状态。针对该现象,文本研究了基于计算机的交通监管系统设计与实现。

1 智能交通管理系统简介

ITS系统,该系统综合先进的现代计算机网络技术、信息电子通讯技术、现代信息技术以及自动控制技术等,并将其在整个交通运输管理体系进行有效的运用,为此建立起一种实时、有效、准确、范围广的全方位发挥作用的交通运输控制体系和综合管理系统。近几年人流、车流随着城市发展而猛增,交通职能部门对更加智能的交通管理系统的需求越来越急迫。所以,ITS成为21世纪地面交通管理、运输科技、运营的主要研究方向,带领着交通运输一场伟大的变革。北美、西欧、日本自上世纪80年代末就开始竞相发展智能运输系统,并制定相应的开发计划加以实施,而发展中国家也开始对ITS系统的全面研究与开发。

2 认识基于计算机视觉的智能交通监控系统

2.1 计算机视觉技术

所谓计算机视觉,理解为使用可替代人眼的高清摄影机设备或其他现代高清电子影像摄录装备进行观察,实现对目标的追踪定位、图像识别、模拟数据测量等,并对采集的视觉数据信息送达远端计算机服务器,通过计算机服务器的信号图形图像处理技术对视频数据信息进行进一步加工,实现三维重现现实情景的计算机观察呈现技术。

2.2 智能交通监测系统

通过使用现有的、先进的计算机智能化、视觉化、信息化科技对国内各大路况交通运输实施监测,为工作于交通运输人员呈现数据信息的自动化采集、分析、处理等的智能化服务,且该交通管理系统存在一定自作能力和指挥能力,即为智能交通系统。随着道路、车辆的飞速发展,人民生活水平及国民生产总值的不断提高,智能交通系统,在国内外受到越来越多的青睐。近几年,各道路关键路段、路口随着道路监控机制的普遍建立,也都基本完成了视频监控。

2.3 基于计算机视觉的智能交通监控机制

根据前面2.1对计算机视觉技术和2.2对智能化交通监控系统概念的解析与理解,可总结出以计算机视觉为基础的智能化交通监控机制,其是通过现代高端计算机对视觉信息收集、提取、处理、分析等技术,实现对城市道路交通信息的实时监控、视频数据的收集、信息分析处理,并对城市交通状况使用智能交通机制状况,并通过视频影像引导车辆行驶,以此降低或避免各种各样交通事故发生的智能化交通监控机制。

3 构建以计算机视觉为基础的智能交通监控机制及配套措施

3.1 基于计算机视觉的智能交通监控机制的构建

监控指挥系统、实时交通信息收集系统、高质量信息传输系统是基于计算机视觉的智能交通监控的三大系统。实时交通信息收集系统由多套信息收集装置组成,通过这些信息采集装置实时监控不同位置交通现状。实时交通信息收集系统不仅能进行路段监控与实时交通信息采集的工作,还能将收集数据信息,经由高质量信息传输系统实施输送,或在服务器中存储已处理的信息;一个中央数据库与一个中央服务器是高质量信息存储传输系统核心部分,其中中央数据库对获取到的实时交通路况信息进行存储。而为了便于工作者能通过界面对中央数据库实施提取、查询、查看等操作,因此该界面就由中央服务器来提供,此外该服务器还能将已处理的实时路况数据通过高质量的传输系统输送到监控指挥机制,达到对各路段的交通进行管制、部署及指挥的目的。

3.2 专业技术人员的储备

以计算机视觉技术为基础的智能交通监控机制是一个庞大的系统,具有突出点的优点,该系统集自动化、信息化、智能化为一体,只有专业的技术人才才能使该系统高效工作,因此开展培训储备相关技术人员至关重要。实时交通信息借助于先进的高清装置的正常采集工作,所以储备一批针对高清装置安装、检测、调试及故障修复的技术人员极为重要。现代基于计算机视觉的智能交通监控机制虽然本身具有一定的图形图像分析及处理能力,然而有些工作人是永远被替代的,所以培养储备一批专业的图形图像处理技术人员也是重要的。储备服务器维护技术工,每天以计算机视觉技术为基础的智能交通监控机制都会获取大量的监控信息数据,然而只有大型的服务器才能存储这些数据,可想而知一旦服务器瘫痪就会引发整个机制的崩溃,造成严重的后果,因此专业服务器维护工作者的储备与培养也尤为重要。基于计算机视觉技术的智能交通监控机制并不能取代交通指挥员,其仅是用来采集实时交通信息的系统,仅为了协助交通指挥员监管及疏导城市交通,因此要求储备一批高素质、高质量的交通指挥员也极为必要。

3.3 交通知识的宣传

大城市的交通问题,并不是依靠单纯的开发先进的计算机视觉智能交通监控系统就能处理解决,也不是单单要求市政建设增加公交数量、增铺几条公路或增开通几条地铁就能解决的,以上这些仅是辅助方法。关键在于开展交通知识的宣传与教育工作,强化驾驶员的素质,倡导不酒驾、不逆行、不超速、限号行驶等,自觉遵守道路交通规则,提倡公交地铁出行,减少私家车辆行驶,齐心协力共同打造和谐的交通环境。

3.4 获取政府支持

市政建设的主要问题之一即是交通问题,政府的支持是万万不可缺失的。由于构建以计算机视觉技术为基础的智能交通管制机制,涉及面广,包括道路勘测、先进装置的引进、专业技术人员的储备、装备组织安装与调试、后期维护等等多方面,这些都需要投入大量的人力、财力、物力,而对于任何一个单位、部门或几个市政部门来说都无法独自承担,由此可知政府的大力支持是必不可少的,以政府的力量为媒介,将各部门进行协调、协作,只有这样才能构建成较健全的交通监控体系。

4 结束语

道路交通杂、乱是国内城市交通最突出的特点之一,对于我国的交通事业来说进行行人识别势在必行。而我国对于行人识别的研究仍处于起步阶段,还较落后。且基于计算机的交通监管系统设计较为复杂,涵盖点较多,因此本文仅对设计进行简要介绍,希望达到抛砖引玉的效果。

参考文献:

[1]康晓丽.无线网络技术在交通管理中的应用[J].科技情报开发与经济,2011(21).

[2]钟振,赖顺桥,肖熠琳,张沛强.RFID车辆智能管理系统[J].机电工程技术,2011(02).

[3]文军.视频监控系统软件现状与技术分析[J].金卡工程,2007(08).

[4]张玉风.简述视频监控系统的发展历程[J].铁道通信信号工程技术,2006(06).

[5]马伏花,朱青.基于射频识别技术的车辆自动识别系统的实现[J].中国仪器仪表,2006(11).

计算机视觉的概念范文3

关键词:数据融合传感器无损检测精确林业应用

多传感器融合系统由于具有较高的可靠性和鲁棒性,较宽的时间和空间的观测范围,较强的数据可信度和分辨能力,已广泛应用于军事、工业、农业、航天、交通管制、机器人、海洋监视和管理、目标跟踪和惯性导航等领域[1,2]。笔者在分析数据融合技术概念和内容的基础上,对该技术在林业工程中的应用及前景进行了综述。

1数据融合

1.1概念的提出

1973年,数据融合技术在美国国防部资助开发的声纳信号理解系统中得到了最早的体现。70年代末,在公开的技术文献中开始出现基于多系统的信息整合意义的融合技术。1984年美国国防部数据融合小组(DFS)定义数据融合为:“对多源的数据和信息进行多方的关联、相关和综合处理,以更好地进行定位与估计,并完全能对态势及带来的威胁进行实时评估”。

1998年1月,Buchroithner和Wald重新定义了数据融合:“数据融合是一种规范框架,这个框架里人们阐明如何使用特定的手段和工具来整合来自不同渠道的数据,以获得实际需要的信息”。

Wald定义的数据融合的概念原理中,强调以质量作为数据融合的明确目标,这正是很多关于数据融合的文献中忽略但又是非常重要的方面。这里的“质量”指经过数据融合后获得的信息对用户而言较融合前具有更高的满意度,如可改善分类精度,获得更有效、更相关的信息,甚至可更好地用于开发项目的资金、人力资源等[3]。

1.2基本内容

信息融合是生物系统所具备的一个基本功能,人类本能地将各感官获得的信息与先验知识进行综合,对周围环境和发生的事件做出估计和判断。当运用各种现代信息处理方法,通过计算机实现这一功能时,就形成了数据融合技术。

数据融合就是充分利用多传感器资源,通过对这些多传感器及观测信息的合理支配和使用,把多传感器在空间或时间上的冗余或互补信息依据某些准则进行组合,以获得被测对象的一致性解释或描述。数据融合的内容主要包括:

(1)数据关联。确定来自多传感器的数据反映的是否是同源目标。

(2)多传感器ID/轨迹估计。假设多传感器的报告反映的是同源目标,对这些数据进行综合,改进对该目标的估计,或对整个当前或未来情况的估计。

(3)采集管理。给定传感器环境的一种认识状态,通过分配多个信息捕获和处理源,最大限度地发挥其性能,从而使其操作成本降到最低。传感器的数据融合功能主要包括多传感器的目标探测、数据关联、跟踪与识别、情况评估和预测[4]。

根据融合系统所处理的信息层次,目前常将信息融合系统划分为3个层次:

(l)数据层融合。直接将各传感器的原始数据进行关联后,送入融合中心,完成对被测对象的综合评价。其优点是保持了尽可能多的原始信号信息,但是该种融合处理的信息量大、速度慢、实时性差,通常只用于数据之间配准精度较高的图像处理。

(2)特征层融合。从原始数据中提取特征,进行数据关联和归一化等处理后,送入融合中心进行分析与综合,完成对被测对象的综合评价。这种融合既保留了足够数量的原始信息,又实现了一定的数据压缩,有利于实时处理,而且由于在特征提取方面有许多成果可以借鉴,所以特征层融合是目前应用较多的一种技术。但是该技术在复杂环境中的稳健性和系统的容错性与可靠性有待进一步改善。

(3)决策层融合。首先每一传感器分别独立地完成特征提取和决策等任务,然后进行关联,再送入融合中心处理。这种方法的实质是根据一定的准则和每个决策的可信度做出最优的决策。其优点是数据通讯量小、实时性好,可以处理非同步信息,能有效地融合不同类型的信息。而且在一个或几个传感器失效时,系统仍能继续工作,具有良好的容错性,系统可靠性高,因此是目前信息融合研究的一个热点。但是这种技术也有不足,如原始信息的损失、被测对象的时变特征、先验知识的获取困难,以及知识库的巨量特性等[5,6]。

1.3处理模型

美国数据融合工作小组提出的数据融合处理模型[7],当时仅应用于军事方面,但该模型对人们理解数据融合的基本概念有重要意义。模型每个模块的基本功能如下:

数据源。包括传感器及其相关数据(数据库和人的先验知识等)。

源数据预处理。进行数据的预筛选和数据分配,以减轻融合中心的计算负担,有时需要为融合中心提供最重要的数据。目标评估。融合目标的位置、速度、身份等参数,以达到对这些参数的精确表达。主要包括数据配准、跟踪和数据关联、辨识。

态势评估。根据当前的环境推断出检测目标与事件之间的关系,以判断检测目标的意图。威胁评估。结合当前的态势判断对方的威胁程度和敌我双方的攻击能力等,这一过程应同时考虑当前的政治环境和对敌策略等因素,所以较为困难。

处理过程评估。监视系统的性能,辨识改善性能所需的数据,进行传感器资源的合理配置。人机接口。提供人与计算机间的交互功能,如人工操作员的指导和评价、多媒体功能等。

2多传感器在林业中的应用

2.1在森林防火中的应用

在用MODIS(ModerateResolutionImagingSpectroradiometer)数据测定森林火点时的20、22、23波段的传感器辐射值已达饱和状态,用一般图像增强处理方法探测燃烧区火点的结果不理想。余启刚运用数据融合技术,在空间分辨率为1000m的热辐射通道的数据外加入空间分辨率为250m的可见光通道的数据,较好地进行了不同空间分辨率信息的数据融合,大大提高了对火点位置的判断准确度[8]。为进一步提高卫星光谱图像数据分析的准确性与可靠性,利用原有森林防火用的林区红外探测器网,将其与卫星光谱图像数据融合,可以使计算机获得GPS接收机输出的有关信息通过与RS实现高效互补性融合,从而弥补卫星图谱不理想的缺失区数据信息,大大提高燃烧区火点信息准确度和敏感性。

2.2森林蓄积特征的估计

HampusHolmstrom等在瑞典南部的试验区将SPOT-4×S卫星数据和CARABAS-IIVHFSAR传感器的雷达数据进行了融合,采用KNN(knearestneighbor)方法对森林的蓄积特征(林分蓄积、树种组成与年龄)进行了估计[9]。

KNN方法就是采用目标样地邻近k个(k=10)最近样地的加权来估计目标样地的森林特征。研究者应用卫星光谱数据、雷达数据融合技术对试验区的不同林分的蓄积特征进行估计,并对三种不同的数据方法进行误差分析。试验表明,融合后的数据作出的估计比单一的卫星数据或雷达数据的精度高且稳定性好。

2.3用非垂直航空摄像数据融合GIS信息更新调查数据

森林资源调查是掌握森林资源现状与变化的调查方法,一般以地面调查的方法为主,我国5年复查一次。由于森林资源调查的工作量巨大,且要花费大量的人力、物力和资金。国内外许多学者都在探索航空、航天的遥感调查与估计方法。

TrevorJDavis等2002年提出采用非垂直的航空摄影数据融合对应的GIS数据信息实现森林调查数据的快速更新,认为对森林资源整体而言,仅某些特殊地区的资源数据需要更新。在直升飞机侧面装上可视的数字摄像装置,利用GPS对测点进行定位,对特殊地区的摄像进行拍摄,同时与对应的GIS数据进行融合,做出资源变化的估计或影像的修正[10]。

试验表明,融合后的数据可以同高分辨率矫正图像相比,该方法花费少,精度高,能充分利用影像的可视性,应用于偏远、地形复杂、不易操作、成本高的区域,同时可避免遥感图像受云层遮盖。

3数据融合在林业中的应用展望

3.1在木材检测中的应用

3.1.1木材缺陷及其影响

木材是天然生长的有机体,生长过程中不可避免地有尖削度、弯曲度、节子等生长缺陷,这些缺陷极大地影响了木材及其制品的优良特性,以及木材的使用率、强度、外观质量,并限制了其应用领域。在传统木制品生产过程中,主要依靠人的肉眼来识别木材缺陷,而木材板材表面缺陷在大小、形状和色泽上都有较大的差异,且受木材纹理的影响,识别起来非常困难,劳动强度大,效率低,同时由于熟练程度、标准掌握等人为因素,可能造成较大的误差。另外在集成材加工中,板材缺陷的非双面识别严重影响了生产线的生产节拍。因此必须开发一种能够对板材双面缺陷进行在线识别和自动剔除技术,以解决集成材加工中节子人工识别误差大、难以实现双面识别、剔除机械调整时间长等问题。

3.1.2单一传感器在木材检测中的应用

对木材及人造板进行无损检测的方法很多,如超声波、微波、射线、机械应力、震动、冲击应力波、快速傅立叶变换分析等检测方法[11,12]。超声技术在木材工业中的应用研究主要集中在研究声波与木材种类、木材结构和性能之间的关系、木材结构及缺陷分析、胶的固化过程分析等[13]。

随着计算机视觉技术的发展,人们也将视觉传感器应用于木材检测中。新西兰科学家用视频传感器研究和测量了纸浆中的纤维横切面的宽度、厚度、壁面积、壁厚度、腔比率、壁比率等,同时准确地测量单个纤维和全部纤维的几何尺寸及其变化趋势,能够区分不同纸浆类型,测定木材纤维材料加固结合力,并动态地观察木材纤维在材料中的结合机理。

新西兰的基于视觉传感器的板材缺陷识别的软件已经产业化,该软件利用数码相机或激光扫描仪采集板材的图像,自动识别板材节子和缺陷的位置,控制板材的加工。该软件还具有进行原木三维模型真实再现的计算机视觉识别功能,利用激光扫描仪自动采集原木的三维几何数据。

美国林产品实验室利用计算机视觉技术对木材刨花的尺寸大小进行分级,确定各种刨花在板中的比例和刨花的排列方向;日本京都大学基于视觉传感器进行了定向刨花板内刨花定向程度的检测,从而可以通过调整定向铺装设备优化刨花的排列方向来提高定向刨花板的强度。

在制材加工过程中,利用计算机视觉技术在线实时检测原木的形状及尺寸,选择最佳下锯方法,提高原木的出材率。同时可对锯材的质量进行分级,实现木材的优化使用;在胶合板的生产过程中,利用计算机视觉技术在线实时检测单板上的各种缺陷,实现单板的智能和自动剪切,并可测量在剪切过程中的单板破损率,对单板进行分等分级,实现自动化生产过程。Wengert等在综合了大量的板材分类经验的基础上,建立了板材分级分类的计算机视觉专家系统。在国内这方面的研究较少,王金满等用计算机视觉技术对刨花板施胶效果进行了定量分析[14]。

X射线对木材及木质复合材料的性能检测已得到了广泛的应用,目前该技术主要应用于对木材密度、含水率、纤维素相对结晶度和结晶区大小、纤维的化学结构和性质等进行检测,并对木材内部的各种缺陷进行检测。

3.1.3数据融合在木材检测中的应用展望

单一传感器在木材工业中已得到了一定程度的应用,但各种单项技术在应用上存在一定的局限性。如视觉传感器不能检测到有些与木材具有相同颜色的节子,有时会把木板上的脏物或油脂当成节子,造成误判,有时也会受到木材的种类或粗糙度和湿度的影响,此外,这种技术只能检测部分表面缺陷,而无法检测到内部缺陷;超声、微波、核磁共振和X射线技术均能测量密度及内部特征,但是它们不能测定木材的颜色和瑕疵,因为这些缺陷的密度往往同木板相同。因此,一个理想的检测系统应该集成各种传感技术,才能准确、可靠地检测到木材的缺陷[15,16]。

基于多传感器(机器视觉及X射线等)数据融合技术的木材及木制品表面缺陷检测,可以集成多个传统单项技术,更可靠、准确地实时检测出木材表面的各种缺陷,为实现木材分级自动化、智能化奠定基础,同时为集裁除锯、自动调整、自动裁除节子等为一身的新型视频识别集成材双面节子数控自动剔除成套设备提供技术支持。

3.2在精确林业中的应用

美国华盛顿大学研究人员开展了树形自动分析、林业作业规划等研究工作;Auburn大学的生物系统工程系和USDA南方林业实验站与有关公司合作开展用GPS和其他传感器研究林业机器系统的性能和生产效率。

目前单项的GPS、RS、GIS正从“自动化孤岛”形式应用于林业生产向集成技术转变。林业生产系统作为一个多组分的复杂系统,是由能量流动、物质循环、信息流动所推动的具有一定的结构和功能的复合体,各组分间的关系和结合方式影响系统整体的结构和功能。因此应该在计算机集成系统框架下,有效地融合GPS、GIS、RS等数据,解决这些信息在空间和时间上的质的差异及空间数据类型的多样性,如地理统计数据、栅格数据、点数据等。利用智能DSS(决策支持系统)以及VRT(可变量技术)等,使林业生产成为一个高效、柔性和开放的体系,从而实现林业生产的标准化、规范化、开放性,建立基于信息流融合的精确林业系统。

南京林业大学提出了“精确林业工程系统”[17]。研究包括精确林业工程系统的领域体系结构、随时空变化的数据采集处理与融合技术、精确控制林业生产的智能决策支持系统、可变量控制技术等,实现基于自然界生物及其所赖以生存的环境资源的时空变异性的客观现实,以最小资源投入、最小环境危害和最大产出效益为目标,建立关于林业管理系统战略思想的精确林业微观管理系统。

[参考文献]

[1]高翔,王勇.数据融合技术综述[J].计算机控制与测量,2002,10(11):706-709.

[2]龚元明,萧德云,王俊杰.多传感器数据融合技术(上)[J].冶金自动化,2002(4):4-7.

[3]钱永兰,杨邦杰,雷廷武.数据融合及其在农情遥感监测中的应用与展望[J].农业工程学报,2004,20(4):286-290.

[4]高德平,黄雪梅.多传感器和数据融合(一)[J].红外与激光工程,1999,28(1):1-4.

[5]王耀南,李树涛.多传感器信息融合及其应用综述[J].控制与决策,2001,16(5):518-52.

[6]许军,罗飞路,张耀辉.多传感器信息融合技术在无损检测中的应用研究[J].无损检测,2000,22(8):342-344.

[7]WhiteFE.Datafusionlexicon:DatafusionsubpanelofthejointdirectorsoflaboratoriestechnicalpanelforC3[R].SanDiego,1991.

[8]余启刚.数据融合技术在“3S”森林防火中的应用[J].森林工程,2003,19(4):5-6.

[9]HampusHolmstrom,biningremotelysensedopticalandradardatainKNN-estimationofforest[J].ForestScience,2003,49(3):409-418.

[10]TrevorJDavis,BrianKlinkenberg,PeterKellerC.Updatinginventory:Usingobliquevideogrammetry&datafusion[J].JournalofForestry,2002,100(2):45-50.

[11]杨春梅,胡万义,白帆,等.木材缺陷检测理论及方法的发展[J].林业机械与木工设备,2004,32(3):8-10.

[12]胡英成,顾继友,王逢瑚.木材及人造板物理力学性能无损检测技术研究的发展与展望[J].世界林业研究,2002,15(4):39-46.

[13]肖忠平,卢晓宁,陆继圣.木质材料X射线与超声检测技术研究的发展与展望[J].木材加工机械,2004,15(1):25-27.

[14]王金满,周秀荣.刨花板施胶效果计算机视觉分析方法[J].东北林业大学学报,1994,22(3):25-26.

[15]KlinkhachornP.Prototypinganautomatedlumberprocessingsystem[J].ForestProductsJournal,1993(2):11-18.

计算机视觉的概念范文4

提起数字媒体,人们通常会想到传媒行业,其实数字媒体的应用绝不局限于传媒。随着宽带网络的普及,人们在日常业务处理过程中,正面对越来越丰富的网上媒体和内容,包括各种视频、音频、文本、图像等。下面,就让我们跟着诸位数字媒体方面的专家一起来分享这个缤纷的世界。

三维几何建模与形状表示

北京大学视觉与听觉信息处理国家重点实验室主任教育部长江学者奖励计划特聘教授 查红彬

精彩问答

在背景比较复杂、有干扰的情况下模型检索的效果怎么样?

在模型检索的时候并没有考虑背景,因为这是做模型检索比较容易的部分。模型检索一般是没有背景的,但也可以做,但是要推广到背景比较复杂的物体上识别可能有很大的问题,因为这时候匹配不仅仅是局部匹配,而是两个子集和子集的匹配问题,到目前为止,我们只是做没有背景的模型检索。

为什么要重新谈论三维形状表示问题?在多媒体信息处理领域里面,有两个比较重要的方向,这也是计算机科学技术领域里两个重要的方向,一个是计算机视觉,一个是计算机图形学。计算机视觉是从图像中通过识别或重建处理,得到一个对对象物的描述。反过来说图形学,是对一个对象和场景的描述,通过绘制和动画生成图像和视频。它们从处理过程来说是逆过程,这两个领域之间有密切的关联。

我们现在考虑计算机三维建模或模型的描述,考虑的不仅仅是计算机视觉或计算机图形学所包含的内容。这里面简单列举一下,比如基于模型的三维物体识别和场景识别,这两个应该是典型的计算机视觉里面考虑的应用。除了这以外还可以用模型干别的事情,比如绘制,还包括基于这样模型的设计、变形、动画等等。除了两个单独研究的应用之外,还要想怎么把两者结合起来,把虚拟和真实的东西无缝连接到一起,这些都牵涉到三维模型。

我们考虑的三维模型跟以前相比,应用领域大了很多,要达到这个要求,对模型的表达、形状的表达也都有了更高的要求。

怎样找到一些更新更有效地表达形式来符合这些要求呢?这里有四个方面,现在能不能建立一个形状空间,把考虑的对象完整地在形状空间里面表达出来。第二点就是针对形状的特性,表达要具有柔性,对象物的表面不都是连续的,也有一些非连续性和不规律性,这些特性怎样能够进行柔性处理。第三个是需要一些描述是局部性的,另外一些要求描述是整体性的,这两者之间如何有一个很好的结合方法。第四是在大量的计算当中,包括变形和动画中有很多编辑的工具,所以我们要求对现在的形状表达有一些比较高的要求。

在计算机视觉里面有一个老大难就是识别,已有模型,但是眼前看到的是一部分三维数据,怎么用这部分数据和模型数据匹配来识别它呢?这就牵涉到局部匹配,我们要解决局部匹配需要什么描述?我们要有一个模型,从大量的数据中建立一个模型库,并从中抽取很多特征,把这些特征进行组织。这里面牵涉三个比较大的问题,第一个是形状空间怎么构造,没有很好的特征表达或整理的形式,后面的匹配以及其他的工作就很难做。第二个是怎么定义基于这种特征的相似度。第三个是怎样在形状空间当中搜索到最优的匹配。

针对这些问题我们最近一两年做了一些工作,最近提出一个广义形状分布(Generalized Shape Distributions)描述方式,主要目的有两点,能不能在三维形状表示过程当中,找到一些最关键的描述指令,并从中找到相互关系,把整体和局部结合起来。如果把之间的关系描述出来,就能把局部结构性的信息用整体观点加进去,这两件工作就是我们做这件事情的主要目的。

在形状描述问题上,我们还有很多工作要做,除了局部、整体描述之外,我们要想办法把他们结合到一起。今后几年要用更多的模式识别的办法,来解决面临的图形学或虚拟现实和计算机视觉当中的很多问题。

生活中的计算机视觉

香港中文大学信息工程系终身教授

微软亚洲研究院视觉计算组负责人 汤晓欧

精彩问答

微软亚洲研究院视觉计算组在原创思想这一块,引领下一个方向有没有什么考虑,您谈到很多对人们日常生活影响很大的应用,但是在背后的更深层的考虑,更新的创意在哪里呢?

我们的研究者都很年轻,我本人也才工作七年的时间,很多的算法已经发展这么多年了,所以在开始的时候比较容易想出来的方法,现在已经很难有那么多的原创内容。我们的工作是去找一些非常原创的内容,有的是理论上的,有的是新的发明,这可以有很大的影响。

图像通过闪光灯的分割,前景和背景深度差会不会影响分割效果,距离会不会影响分割效果呢?

我们这个通过闪光灯对图像进行分割的技术,会一定程度上受到光的强度和距离的影响。

我们主要的研究领域包括计算机视觉、模式识别、图像处理和视频处理。下面就为大家介绍几个比较典型的应用。

如何将图片的前景和后景分离?我们现在照两张图片,一张打闪光灯,一张没有打闪光灯,这样拍出来的照片背景没有变化,但前景变化很厉害。在开闪光灯的情况下拍的照片,前景和后景可以利用一些技术很容易地分开来。

把一个图片的前景切割出来放入另一张图后,那剩下的图片缺一块的怎么办呢?如何修复剩下的图片呢?在例举的图片上,大家可以看到不同的区域,我们可以由一个算法,从其他的地方借过来,再贴上去,经过这样的处理后,图像基本上和原来没有太大的区别。

如此的修修补补又有什么用呢?比如说,你对这张图像不是很满意,你可以把图片上不喜欢的部分划出来,然后利用一些技术将划出来的空白部分填上。更有用的地方在于,你照了不想被别人看到的照片后,除了删除,你多了一个选择。你可以把不想让别人看到的照片部分去掉,并利用一些算法把空白的地方填补上,而且让别人看不出来。

现在大家的电脑上都会有很多照片,怎么快速地浏览这些照片呢?我们可以把这些图像都放在一个屏幕上,可屏幕毕竟有限,怎么才能把照片放得更多一些呢?我们现在做的是可以随机把照片放到桌面上,但是电脑会对每张照片上的重要信息进行筛选,在放尽可能多的照片的同时,让每张照片上最重要的信息不被遮掩,而且均匀地分布在桌面上。这样大家看起来就更清楚了。这个算法就是怎么让所有图像均匀分布,同时把所有背景都要盖上。我们可以对图像进行各种处理,同时我们也可以利用一些技术知道别人有没有处理图像,对图像有没有做过手脚。

现在我们来说说视频方面。比如说抖动很厉害的图像,怎么把物体移到中间?一个办法是把除移动图像外的公共部分切出来,但是移动越大,公共部分就会越来越小,更好的办法是用一些技术把空处填上。

现在MSN的功能已经越来越丰富。比如说一段电影,你看到一件比较中意的衣服,只要你把鼠标移动衣服的覆盖范围,你就能很清楚地知道这件衣服的品牌及价格。如果你把鼠标在那件衣服上轻点,电脑就会直接跳转到这个衣服的相关网站。

你在视频聊天的时候如果不想让对方看到你所处的环境,你就可以很轻松地把背景模糊掉。如果大家对自己的长相不是那么有信心,我们可以帮你改变一下你的长相。为自己添一幅酷酷的墨镜,换上一个性感的大嘴巴,这些都能轻而易举地完成。

多媒体传感器网络

北京邮电大学教授、博士生导师

智能通信软件与多媒体北京市重点实验室主任 马华东

传感器研究是IT非常热门的话题, 首先我为大家介绍一下多媒体传感器网络的基本概念。从早期的巨型机到今天的小型机,生物芯片尺寸越来越小,但是效率越来越高;网络设备联网和数据交换的需求越来越大,设备之间的传输量也越来越大;从信息处理的角度来看,内容逐渐占据了主导地位,由数据为中心转到以内容处理为中心。这三方面的演化是今天讨论多媒体传感器的背景。

传感器网络是一组传感器节点,由组织方式协作地感知采集和处理感知对象的信息,它的基本特点是造价低、能量敏感、通信能力有限、计算能力弱、动态变化。现在的需求是要求通信能力越来越强,计算能力应付节点的处理的要求。

右图是目前主流的传感器节点的配置,从配置来讲还是比较低的,现在信息处理侧重压力、温度、光、震动等简单的数据或者是标量数据。人类获取信息80%是视觉信息,10%左右是听觉信息,也就是说90%左右的信息是多媒体信息。传感器网络就是对音频、视频信息获取后提供给使用者,使其对环境信息有一个全方位的了解,对传感器网络的应用是非常广泛的。

从网络的结构来讲,基本结构和原来传感器网络差别不是很大,这里面强调增加音频、视频获取处理,网络传输整个过程的各个环节,同时这里面最好可以交互。有了这个概念以后,深入分析一下主要特点,首先是网络能力的增强,这样一个传感器网络应该集信息的采集、处理传输、转发、能量供应等方面,除了传统的标量数据,音频、视频的图像数据,都可以进行采集处理。

现在多媒体传感器网络目前有哪些问题呢?从需求来看,现在网络是异构的信息,媒体信息的格式,种类很多,并且差异非常大,数据量比较大,特别是音频、视频信息,格式比较复杂。这些信息传输过程中需要高速实时地传输,对网络传输速率也提出了比较高的要求。媒体信息的安全问题,也是网络需要考虑的,还有服务质量的问题。针对这些需求,我们可以看到,通信资源和计算资源这两者之间存在非常大的矛盾,或者非常大的鸿沟,如何解决这两者之间的差距就是我们研究的问题所在。

最后谈一下多媒体传感器网络研究的挑战,首先是节点的芯片设计,这是基础,这里面需要采用多种技术,包括软硬件协同设计的技术,各种技术结合,降低成本、能耗、体积、提高运算速度和可靠性。第二是三维场景的覆盖问题,方向性传感模型是一个简单的二维图形,实际上是三维图形监测,这是一个三维场景方向的问题,研究这个就复杂多了。还有一个问题是服务质量保证问题,在新的网络当中服务质量体系是什么样,也是研究的方向。再一个是信息处理,为了使网络传输数据量比较快,能不能在节点做信息处理的计算。当然信息的安全也比较重要,用这些节点获取多媒体信息怎么保证安全的质量,使应该看到的人看到这些信息,不应该看到的人看不到这些信息。

在多媒体传感器网络中,我们还是做了一些工作,和一些同行学者也有一些交流,这里面也有一些质疑,说多媒体传感网络和原来传感器网络设计初衷是不是吻合的,原来没有想让它处理这么多信息,原来体积比较小,加上这些信息以后,无疑使它的体积增大,这里面和初衷之间是不是有矛盾,传感器网络研究有没有必要性,如果有必要性可行不可行,这都是我们目前研究的问题。

计算机视觉的概念范文5

清洁工、中餐馆收银员帮人遛狗,开干洗店……这些职业能和斯坦福人工智能实验室和计算机视觉实验室负责人联系到一起吗?

“人工智能”这个概念因为 AlphaGo的横空出世而快速走进了大众的视野。李飞飞最大的贡献便是她主导的图像识别项目,每年吸引着包括Google、Facebook、Amazon等科技巨头在内的上百家顶尖机构,共同向前推进机器智能的边界。

1976年出生的李飞飞,年仅33岁时便获得了斯坦福的终身教授职位,不仅是斯坦福AI实验室唯一的女性,也是计算机系最年轻的教授。在巨大的科研成就背后,这样一位美女学霸还隐藏着一段颇为传奇励志的人生。

“我们不富有,但我的学习成绩还不错――特别是数学和科学。”

生于北京的李飞飞在四川长大。父母都是当时的高级知识分子,上世纪90年代他们怀抱着一颗追求学术梦想的心,带着16岁的李飞飞来到新泽西洲 Parsippany 小镇。

虽然父母都是知识分子,但是都不会说英文。有着工程师和科学家情结的父亲到了美国,无奈只能做相机修理工作,母亲则做一名收银员。微薄的收入远不足以支撑全家的生活和学费。李飞飞不得不分出大量精力,在唐人街中国餐馆打零工。

李飞飞刚到美国时英语几乎也是零基础,如果想要进入一所好大学,李飞飞不仅要迅速掌握英语,还要拿出一份极其优秀的成绩单,只有这样,才能拿到顶尖大学的奖学金。否则,以他们的家境,是付不起美国私立名校高昂的学费。最辛苦的时候,她一天只睡4小时。聪明和韧性并存的中国性格让她在高中毕业时,收到了普林斯顿大学计算机系的全奖 offer。她的成功在小镇上名噪一时,有报纸专门刊载了她的故事,标题是《“美国梦”成真了!》

普林斯顿的学术生活对李飞飞而言是幸福的。在这里,她接触到了大量的优秀人才,完全不同于打工所经历的。但是,她的父母却仍在过着窘迫的生活。为了改善他们的生活状况,李飞飞敏锐地注意到了市场上的机会,借钱买下一家洗衣店,交给父母经营。她从此过上了双重生活,周一到周五,她是普林斯顿的高材生,拼命努力吸收知识;周六到周日,她则走出实验室,穿上白围裙,给洗衣店帮忙。

“真正的挑战是需要充分发挥自己的潜力,同时兼顾自己所身负的责任,然后又必须忠于自己的内心。”

1999年,李飞飞以最高荣誉从普林斯顿本科毕业。众多投行和咨询公司都向她发来了邀请,数十万的年薪唾手可得。但这个自从来到美国以后,就饱受经济压力的乖乖女,却少见地叛逆了一回。“作为中国人的女儿,我心中有强烈地要照顾好我的父母的责任感。如果高盛给我一个报酬丰厚的工作,我就会分心。虽然只要我接受了这个工作,就能缓解我父母经济上的困难。”

那个时候,她希望能去,在那儿做一年的藏药研究。在科学界,藏医与中医一样存在很多争议,但这并不妨碍李飞飞对它的兴趣。于她而言,藏医可以在哲学和方法论层面上给她更多的理解。她非常看重具体科研项目在更大领域范围内的意义,每一项研究开始之前都要经过深思熟虑。

归来之后,李飞飞去了加州理工学院,攻读人工智能和计算神经科学方向的博士学位。博士期间经历了一段痛苦的日子,母亲接连患上了癌症与中风,他们全家仿佛天塌了一般。“最现实的生存挑战是如何全力以赴、如何身兼重任并诚实地面对心中的梦想。我们经历了很多困难,然后一起挺过来了。”

“探寻知识和真理是流淌在我的血液里的基因,我希望可以了解全宇宙,可以成为一个富有理性思维的人。”

博士毕业后,她又选择了当时比较冷门的图像识别作为研究方向。图像识别技术,是人工智能发展道路上的一座高峰。简单来说,它就是要教会计算机看图说话。要知道,“看到”和“懂得”是不一样的。3岁儿童能从图片中识别出“猫”,可是计算机却做不到。李飞飞研究了很长时间,始终没有突破。同行的教授都劝她换个方向,以便趁早取得tenured professor(终身教授),她当然没有同意。

有一天,李飞飞突然意识到,由于人眼每200毫秒就能获取一幅图像,一个孩子可能已经获得了上亿次的图像识别训练,是计算机的几何级倍数。也就是,关键在于自主训练量。

李飞飞马上开始着手,从 twitter 上抓取海量照片,将它们统统打上标签后,训练计算机进行机器学习。机器学习就是给出一定算法,让计算机自己学习。这个过程是艰苦的。如今,机器学习已经是热门概念,可在2007年,李飞飞的实验室缺少人手,又申请不到经费,最困难的时候,她一度想重开洗衣店,筹集实验资金。

她从亚马逊的众包平台中找到了解决办法,让来自 167 个国家的 5 万人帮助为其中的数百万张图像打标签。最终,他们建立了 ImageNet 数据集。今天,这个数据集包含了使用日常英语标记的超过 1400 万张图像,跨越 21,800 个类别。

李飞飞觉得自己十分幸运。“我从 2000 年开始从事计算机视觉博士研究的时候,很幸运的成为第一批赶上这股新思想的人,刚好开始用机器学习的思路来重新思考计算机视觉里重要的感知和认知的问题。”

李飞飞还组织了一年一度的 ImageNet 挑战赛,邀请谷歌等科技巨头参赛,促进图像识别和人工智能领域的交流。李飞飞说,目前的图像识别与人工智能,还只相当于一个牙牙学语的3岁儿童。而从3岁到10岁的过程,才是AI技术的难点和关键。

现在的她,在人工智能界无人不晓。她的智慧笃定和不忘初心成就了她,各种荣誉也如雪花般纷沓而至:2006 年,微软学者新星奖以及谷歌研究奖;2009 年, NSF 杰出青年奖;2011年3月,荣获斯隆研究奖计算机科学奖;2012 年,雅虎实验室学者奖;2014年,IBM 学者奖;入选2015年“全球百大思想者”……

李飞飞在图像识别领域可谓是一个家喻户晓的人物。可以毫不夸张地说,她已经是一个站在了人类智能巅峰的华裔女性,她的研究可能改变未来的人类世界!

而这个改变了CV领域的女性,最让她开心的竟然是:“和我的孩子们在一起。我的研究领域是智能。我从他们身上学到了太多什么叫做智能,什么叫做‘做人’。没有什么比看着孩子长大成人更幸福的了。”

计算机视觉的概念范文6

AlphaGo的出现加速了人们对人工智能(Artificial Intelligence以下简称AI)的理解,但AI极客们的野心远非19行的棋盘可以局囿,他们拥有酷炫的技术和非凡自信,并想以此来改变世界。

美国畅销书作者、发明家雷.库兹韦尔(Ray.Kurzweil)在《奇点临近》一书中为人工智能的出现设定了三个条件:强大的计算能力、海量的知识储备,最后还需要教会计算机拥有认知能力,通过机器学习技术让计算机不断的自行进化。

前两者已经实现。第三点,如何让机器拥有认知能力是AI极客们关注的重点。

机器学习是人工智能的核心。机器学习将教会计算机认识现实世界,知道自然界的日升日落、阴晴圆缺,并能理解人类的行为和语言。机器学习的常用领域包括数据挖掘、视觉理解、语音识别和自然语言处理等方面。我们采访了数位科技公司高层、新锐创业者,他们有一个共同的身份―国内从事机器学习的应用和研发的专家。他们讲述了中国人工智能发展的现状,而一旦科技出现新突破,也预示着新一轮的商业变革。 先知

坐在记者对面,脸庞消瘦的陈运文笑得有些腼腆,言语却充满自信,“很多事情都是可以预测的”。

陈运文是国内大数据方面的专家,曾任百度核心技术研发工程师和盛大文学首席数据官。现在他是个创业者,达观数据创始人兼CEO。他为公司新入职的同事下发了一套题――如何预测泰坦尼克号上的幸存者。整套题通过获取泰坦尼克号上所有乘客的真实信息,包括性别、年龄、职业、票价、舱位等,然后编写程序来预测这2000余名乘员中哪些人最终得以生还。

在陈运文眼里,将所有信息加以综合挖掘,就能够推演出最终的答案―“705名生还者都可以准确预测。”

预测这样的事件只是数据挖掘的一个案例,对于极客而言,只要给他们足够的信息,这个世界就没有意外和偶然。

现在,陈运文用自己的技术帮助企业进行商业决策。虽然只成立不到半年,但这个隐藏在张江天之骄子公寓里的创业公司已经获得真格基金和盛大网络创始人陈大年的投资。

陈运文将第一批客户瞄准为自媒体人,通过数据分析,为自媒体提供可以引发热议的话题,并告诉这些作者,什么人喜爱看他们的文章、会关注什么话题。

让机器自己学会分析信息早就在商业行为中广泛存在。在百度工作期间,陈运文负责搜索引擎的核心算法研究,主要“为用户提供最有价值的信息”。 工作的难点不在于搜索信息,而在于让机器认知用户的搜索意图。

用户经常会在搜索框中输入“口语词汇或者模糊的语句”,服务器要从人们的搜索语句中判断真正的需求。陈运文就需要设计算法让搜索引擎理解用户的语义,从数百亿的网页中迅速找到对用户最有价值的结果。这种“算法”就属于人工智能。百度每天的搜索有数十亿次,每当陈运文改进了算法都能看到用户点击的满意度在上升。

今天这种依靠数据挖掘技术来提高企业运作效率的方法变得更常见,业内将其称为“商业智能”(Business Intelligence)技术。陈运文计划将这种技术在云端运用,另一些同类公司则将这种技术直接运用在软件上。2010年在美国纳斯达克上市的Qlik公司就是商业智能软件的代表企业。他们的QlikView软件为用户提供“可视化”的大数据服务。

“我们的软件可以理解数据,挖掘数据并将其用更直观的方式展现给客户,以帮助管理层做出决策。” Qlik亚太区制造业和高科技市场开发总监Jeremy Sim对《财经天下》周刊表述。

这些带有“预测”功能的软件已经在服务并改变人们的生活,比如根据顾客的购买信息QlikView会提示便利店店长,售货架上的麦片不应该和面包摆在一起,虽然它们都是早餐食品,但如果将麦片和酸奶摆在一起,销售数字会更好看。此类预测还进一步提醒物流部门,尽量地在头天晚上补足麦片和酸奶货源。这类商业智能的应用渗入所有人的生活,以这家公司为例,他们已经在全球100多个国家招徕了3.8万企业客户,间接服务人群上千万。

未来这些带有“智力”的系统将会更多的出现在电商、医疗、教育、金融等领域。“比如随着智能手环的增加,会有更多的健康数据被采集,那么我们会提供健康预警、治疗方案推荐等服务。”陈运文说。现在只是大数据挖掘的初级阶段,人工智能时代也才刚刚开启。 视觉理解,打造机器之目

2014年6月,比尔・盖茨访华,除了见政商要员外,他还专门造访了一家刚成立一年的创业公司―格灵深瞳。对于这家初创公司,比尔盖茨留下了两句后来被广泛引用的评语“This is very cool”和“IT界的下一个大事件是计算机视觉(computer vision)与深度学习(deep learning) 的结合”。

格灵深瞳就是这样一个结合了计算机视觉和深度学习为一身的酷公司。创始人赵勇是致力于视觉理解的知名极客,虽然他本人并不喜欢这个称谓。

“极客(Geek)在英文里形容书呆子,只会做技术不通世事,但我觉得我是一个懂技术的正常人。”他对《财经天下》周刊说。

赵勇专攻计算机视觉和运算影像学,2009年入职谷歌总部研究院任资深研究员,是谷歌眼镜项目的骨干。“我们团队负责谷歌眼镜的场景识别技术,利用谷歌街景来判断使用者所处的位置。”简单地说就是将谷歌眼镜捕获的图像和谷歌街景做比对,然后快速地定位用户所处位置和周边信息。谷歌眼镜可以在500毫米之内将用户的位置精确到米级别。赵勇说谷歌眼镜并不是“进化的产品,而是从无到有的突破”。

2013年初,赵勇回国创业成立格灵深瞳,并在三个月后拿到真格基金和联创策源的联合天使投资,同年6月格灵深瞳又拿到红杉资本 A 轮高达数千万美元的投资。

业内传播着投资人争论其未来估值的段子,据说某次饭局上真格基金的徐小平、红杉资本的沈南鹏和联创策源的冯波讨论格灵深瞳的未来估值,徐小平认为起码5000亿美元,而沈南鹏认为1000亿美元,最后冯波折中地认为3000亿美元。而现在中国电商巨头阿里巴巴的市值还不到1900亿美元。

受到比尔・盖茨和投资人如此追捧的原因在于赵勇的研究方向―计算机视觉,这是机器学习中极为复杂的领域。

将赵勇和陈运一个对比就可以看出他们研究方向的不同。赵勇认为数据挖掘是让计算机理解“结构化信息”,结构化指那些人工制作的成型的信息数据,例如一句话一段文字或者一份表格。但计算机视觉需要让机器理解飘过镜头的一片树叶,或者悄悄走过的一只猫。

陈运文对此也做了比较,他认为数据挖掘更多的是处理文本信息,而文字是具象的表达,机器看到汉字“猫”或者英文“cat”就可以理解这是一种动物,但图片是抽象信息,给计算机看一张猫的图片,让它去理解猫的概念非常困难。

所以当2012年6月谷歌X实验室宣布他们研发的“谷歌大脑”通过百万张图片的学习后可以识别“猫”的时候,全世界都为之震惊。这意味着谷歌培养的这个“孩子”具备视觉理解的能力可以“看图说话”了。而参与“谷歌大脑”研发的吴恩达博士(Andrew Ng)也因为这个项目被誉为“谷歌大脑之父”,成为机器学习领域最权威的学者。

为了建造“谷歌大脑”,吴恩达使用了神经网络系统,他们连接了1.6万片处理器创造了一个拥有10亿多条连接的神经网络,并逐步地培训这个系统,直到它拥有识图的能力。

现在,赵勇做的事情与此类似。

他通过影像设备捕捉实时画面,让计算机识别这个真实世界,更为直接的说法或许是―赵勇正在研制“机器人之眼”。

像谷歌一样,想让计算机能识别图像,赵勇也需要制作一个“深度神经网络”系统。

在人脑中有大约1000亿个神经元,神经元通过神经突出连接在一起就变成了一个神经网络,人们思考问题的时候这些神经网络相互激发,最终产生决策。现在极客们用计算机来模拟这个过程,用计算程序建立起庞大的计算元素,这些程序运算的结果通过网络互为交换互相影响,最终产生结果,这就是初级的人工神经网络。人工神经网络层级越多规模越大,其“聪明程度”就越高,学习的能力就越强。

要培养这样一个会“识图的孩子”,赵勇除了要建立这样一套庞大的神经网络之外,还需要不停训练这个网络。

“可以将神经网络当成一个黑盒子,我在里面设定了一些基本参数,随后不停的往里面输入数据、图片来训练它,通过这种大量的训练,黑盒子里面参数的连接会越来越紧密,整个网络也会越来越聪明,最终变成一个可以识别图片的智能系统。”

严格地说,人工智能不是人类设计出来的,而是人类训练出来的。即便是赵勇这样的创建者也无法知道这些神经网络到底如何相互作用相互影响,并最终形成自己的智能系统。他能做的只是“选择输入数据,控制训练方向”。

依旧以老师教育孩子做比喻,虽然赵勇这个老师不知道孩子是怎么理解图片,识别这个世界的,但他可以控制教学的内容,让这个孩子朝某个方面学习。

赵勇花费了两年时间才为格灵深瞳培养出自己的“孩子”,并将这些有“识图能力”的人工智能设备应用到安防监控和汽车识别方面。

去年格灵深瞳推出了名为“目”的行为分析仪,这是一个包含软硬件于一体的智能监控产品。“目”会实时监控场景内的情况,发觉异常就立刻报警或者提醒工作人员注意。而在另一个名为“威目”的产品中,格灵深瞳做到了车辆识别,他们训练系统辨识超过5000种车辆,这几乎涵盖了地球上所有的汽车类型。这种能力为警方办案提供了帮助,警方可以用“以图搜图”的方式让“威目”提供他们需要的视频资料。“警方提供一张汽车照片,威目在识别照片之后可以从交通录像中找出该车的行动轨迹。”除此之外,该系统还可以搜索“结构化信息”,例如在系统中输入2004年生产车牌中含有5这个数字的红色奥迪A4汽车,“威目”就会在资料中截取相关的图像或者视频,而此前这些工作都需要人工完成。

如果计算机视觉技术以这样的速度继续,或许用不了几年,当我们站在摄像头前时,计算机会在屏幕上敲出那句让人激动的言语―“I see you .” 造物者

“谷歌大脑之父”吴恩达在完成了“认猫”创举两年后离开了谷歌,加盟了百度,任职百度首席科学家并负责“百度大脑”的研发。

说服吴恩达做此决定的是他的好友,现任地平线机器人技术CEO的余凯。

余凯是国际知名的机器学习专家,他牵头成立的百度深度学习研究院是国内第一个研究深度神经网络的研究机构,加盟百度时被李彦宏称为“镇院之宝”。

“深度网络学概起始于2006年,当时主要有5个机构从事这方面的研究,分别是多伦多大学、纽约大学、美国的NEC实验室、斯坦福大学和蒙特利尔大学,而我当时在NEC实验室工作。”余凯说。有段时间他还在斯坦福大学执教《人工智能概论》。他领导的团队在深度学习、图像识别、文本挖掘、多媒体检索、视频监控,人机交互等机器学习领域都有建树。

去年余凯离开百度,在中关村的创富大厦租赁办公室成立地平线机器人技术。成立仅4个月,这家公司就迎来了首轮投资,投资方包括晨兴资本、高瓴资本、红杉资本、金沙江创投等多家机构。

比起商业上的追求,余凯更想用技术改变世界―为万物装上人工智能的大脑,让它们变成拥有智能思维的机器人。

在余凯看来,他在百度的工作主要是在“云端”搭建人工智能深度神经网络,其服务主要体现在“为用户提供更智能的互联网服务”,他希望通过人工智能技术应用到物理世界中,让人们的生活变得更方便和简单。“现在很多电器都采用软件结合互联网操控,我希望未来都可以实现本地人工智能操控。”

他准备让汽车、空调、冰箱、微波炉等上千种产品或设备都具有从感知到决策的能力。比如用户进入房间时空调就可以感知人的位置和体温自动开机送风,并追随人的移动而改变送风方向;冰箱则会读取存储食物的信息,及时提醒用户食用或补充。

余凯利用深度神经网络算法来搭建他的人工智能框架。他将这种人工智能系统描述成“类似于安卓的智能硬件的大脑平台”,这个系统可以安装在不同的产品中。

他“改造万物”的计划先从家居产品和汽车两个方面着手。地平线机器人技术研发了针对这两个行业的人工智能操作系统。家居方面的基于深度神经网络的操作系统名为“安徒生”,汽车的则称为“雨果”。

现在 “安徒生”已经入驻家电产品,在刚刚过去的上海家博会展上,地平线机器人和某国内知名家电厂商合作的两款智能产品面世参展。“现在业界最大的智能家居厂商都是我们的客户,我们向他们提供算法操作系统,并告诉他们如何配置硬件设备,就像安卓向手机厂商提供参考设计一样。”

下一步余凯准备让“雨果”进入汽车自动驾驶领域,在安装了传感器、处理器和雨果大脑平台后,汽车可以成为提供无人驾驶或智能驾驶的新型交通工具。

“定义万物智能的大脑,这还要花很长时间,但是我觉得一步一步往那边靠近。” 余凯知道地平线机器人的征程漫漫,但对于AlphaGo对战李世石这样的人机大战新闻他却无比笃定。“赛前几乎所有专家都说这次机器赢不了,但我在接受网易采访的时候就公开预测机器会赢,因为我了解AlphaGo的算法。”

陈运文也表达了相同的猜测。3月9日下午,陈运文就兴奋地预测AlphaGo能够获胜,那时首尔的李世石刚在棋盘上落下自己的第一枚黑子。

3个小时后,对弈到186手时李世石投子推枰宣告认输。