卷积神经网络的深度范例6篇

前言:中文期刊网精心挑选了卷积神经网络的深度范文供你参考和学习,希望我们的参考范文能激发你的文章创作灵感,欢迎阅读。

卷积神经网络的深度

卷积神经网络的深度范文1

关键词:图像分类;深度学习;Caffe框架;卷积神经网络

中图分类号:TP18 文献标识码:A 文章编号:1009-3044(2016)35-0209-03

Research and Implementation of Image Classification Based on Convolution Neural Network

WANG Chao

(Information Engineering Institute,East China University of Technology, Nanchang 330013, China)

Abstract: The problem of image classification has been the core problem in computer vision. A good solution is developed by further study which can solve the problem of extracting image features in image classification. In order to learn image features efficiently, constructing the machine learning model with hidden layer as well as training a large number of image data will eventually promote the accuracy of image classification or prediction. This paper is intended as an in-depth Caffe learning framework to construct a small image data-base. The convolutional neural network provided by Caffe framework will make a training analysis of the data set and then extract the information of target image features. These can be used for the final prediction of the target image. Compared with the traditional image classification algorithm, the accuracy of the prediction will be greatly improved.

Key words: image classification; deep learning; Caffe framework; Convolutional Neural Network

S着计算机与互联网技术的快速发展,我们已经进入了一个以图像构建的世界。但是面临有海量图像信息却找不到所需要的数据的困境,因而图像分类技术应运而生。通过各种机器学习算法使计算机自动将各类图像进行有效管理和分类,但是由于图像内容包含着大量复杂且难以描述的信息,图像特征提取和相识度匹配技术也存在一定的难题,要使得计算机能够像人类一样进行分类还是有很大的困难。

深度学习是近十年来人工智能领域取得的重要突破,在图像识别中的应用取得了巨大的进步,传统的机器学习模型属于神经网络模型,神经网络有大量的参数,经常会出现过拟合问题,因而对目标检测准确率上比较低。本文采用卷积神经网络框架,图像特征是从大数据中自动学习得到,而且神经网络的结构深由很多层组成,通过重复利用中间层的计算单元来减少参数,在特征汇聚阶段引入图像中目标的显著信信息,增强了图像的特征表达能力。通过在图像层次稀疏表示中引入图像显著信息,加强了图像特征的语义信息,得到图像显著特征表示,通过实验测试,效果比传统的图像分类算法预测的准确度有明显的提升。

1 基于卷积神经网络的图像分类方法

1.1 人工神经网络

人工神经网络(Artificial Neural Network, ANN)是描述生物神经网络运行机理和工作过程的抽象和简化了的数学物理模型,使用路径权值的有向图来表示模型中的人工神经元节点和神经元之间的连接关系,之后通过硬件或软件程序实现上述有向图的运行[1]。目前最典型的人工神经网络算法包括:目前最典型的人工神经网络有BP网络 [2]Hopfield网络[3]Boltzmann机[4]SOFM网络[5]以及ART网络人工神经网络[6],算法流程图如图1所示[7]。

1.2 卷积神经网络框架的架构

Caffe是Convolutional Architecture for Fast Feature Embedding的缩写[8],意为快速特征嵌入的卷积结构,包含最先进的深度学习算法以及一系列的参考模型,图2表示的是卷积神经网络结构图。Caffe深度学习框架主要依赖CUDA,IntelMKL,OpenCV,glog软件以及caffe文件。本文使用的各个软件版本说明,如表1所示。

Caffe深度学习框架提供了多个经典的卷积神经网络模型,卷积神经网络是一种多层的监督学习神经网络,利用隐含层的卷积层和池采样层是实现卷积神经网络特征提取功能,卷积神经网络模型通过采取梯度下降法最小化损失函数对网络中的权重参数逐层反向调节,通过频繁的迭代训练来提高网络的精度。卷积神经网络使用权值共享,这一结构类似于生物神经网络,从而使网络的复杂程度明显降低,并且权值的数量也有大幅度的减少,本文使用这些模型直接进行训练,和传统的图像分类算法对比,性能有很大的提升,框架系统训练识别基本流程如图3表示。

1.3 图像分类特征提取

卷积神经网络的结构层次相比传统的浅层的神经网络来说,要复杂得多,每两层的神经元使用了局部连接的方式进行连接、神经元共享连接权重以及时间或空间上使用降采样充分利用数据本身的特征,因此决定了卷积神经网络与传统神经网络相比维度大幅度降低,从而降低计算时间的复杂度。卷积神经网络主要分为两个过程,分为卷积和采样,分别的对上层数据进行提取抽象和对数据进行降维的作用。

本文以Caffe深度学习框架中的 CIFAR-10数据集的猫的网络模型为例,如图4所示,对卷积神经网络模型进行训练。CIFAR-10是一个标准图像图像训练集,由六万张图像组成,共有10类(分为飞机,小汽车,鸟,猫,鹿,狗,青蛙,马,船,卡车),每个图片都是32×32像素的RGB彩色图像。通过对数据进行提取和降维的方法来提取图像数据的特征。

2 实验分析

将猫的图像训练集放在train的文件夹下,并统一修改成256×256像素大小,并对猫的图像训练集进行标记,标签为1,运行选择cpu进行训练,每进行10次迭代进行一次测试,测试间隔为10次,初始化学习率为0.001,每20次迭代显示一次信息,最大迭代次数为200次,网络训练的动量为0.9,权重衰退为0.0005,5000次进行一次当前状态的记录,记录显示如下图5所示,预测的准度在98%以上。而相比传统的图像分类算法BP神经网络网络的收敛性慢,训练时间长的,网络的学习和记忆具有不稳定性,因而卷e神经网络框架在训练时间和预测准度上具有非常大的优势。

3 结束语

本文使用Caffe深度学习框架,以CIFAR-10数据集中猫的网络模型为例,构建小型猫的数据集,提取猫的图象特征信息,最后和目标猫图像进行预测,并和传统的图像分类算法进行对比,预测的准确率有很大的提升。

参考文献:

[1] 杨铮, 吴陈沭, 刘云浩. 位置计算: 无线网络定位与可定位性[M]. 北京: 清华大学出版社, 2014.

[2] 丁士折. 人工神经网络基础[M]. 哈尔滨: 哈尔滨工程大学出版社, 2008.

[3] McClelland J L, Rumelhart D E, PDP Research Group. Parallel distributedprocessing[J]. Explorations in the microstructure of cognition, 1986, 2.

[4] Hopfield J J. Neural networks and physical systems with emergent collectivecomputational abilities[J]. Proceedings of the national academy of sciences, 1982, 79(8): 2554-2558.

[5] Ackley D H, Hinton G E, Sejnowski T J. A learning algorithm for boltzmannmachines[J]. Cognitive science, 1985, 9(1): 147-169.

[6] Kohonenmaps T. Self-Organized Formation of Topologically Correct Feature Maps[J]. Biological Cybernetics,1982, 43(1): 59-69.

卷积神经网络的深度范文2

关键词:卷积神经网络;图像分类;空间变换;可变形卷积

DOIDOI:10.11907/rjdk.171863

中图分类号:TP317.4

文献标识码:A 文章编号:1672-7800(2017)006-0198-04

0 引言

图像分类一直是计算机视觉领域的一个基础而重要的核心问题,具有大量的实际应用场景和案例。很多典型的计算机视觉问题(如物体检测、图像分割)都可以演化为图像分类问题。图像分类问题有很多难点需要解决,观测角度、光照条件的变化、物体自身形变、部分遮挡、背景杂波影响、类内差异等问题都会导致被观测物体的计算机表示(二维或三维数值数组)发生剧烈变化。一个良好的图像分类模型应当对上述情况(以及不同情况的组合)不敏感。使用深度学习尤其是深度卷积神经网络,用大量图像数据进行训练后可以处理十分复杂的分类问题。

卷积神经网络是为识别二维形状而专门设计的一个多层感知器,这种网络结构对平移、缩放、倾斜等扰动具有高度不变性,并且具有强大的特征学习与抽象表达能力,可以通过网络训练获得图像特征,避免了复杂的特征提取与数据重建过程。通过网络层的堆叠,集成了低、中、高层特征表示。AlexNet等网络模型的出F,也推动了卷积网络在海量图像分类领域的蓬勃发展。

1 卷积神经网络

卷积神经网络是人工神经网络的一种,其“局部感知”“权值共享”[1]等特性使之更类似于生物神经网络,网络模型复杂度大大降低,网络训练更容易,多层的网络结构有更好的抽象表达能力,可以直接将图像作为网络输入,通过网络训练自动学习图像特征,从而避免了复杂的特征提取过程。

Yann LeCun等[2]设计的LeNet-5是当前广泛使用的卷积网络结构原型,它包含了卷积层、下采样层(池化层)、全连接层以及输出层,构成了现代卷积神经网络的基本组件,后续复杂的模型都离不开这些基本组件。LeNet-5对手写数字识别率较高,但在大数据量、复杂的物体图片分类方面不足,过拟合也导致其泛化能力较弱。网络训练开销大且受制于计算机性能。

2012年,在ILSVRC竞赛中AlexNet模型[3]赢得冠军,将错误率降低了10个百分点。拥有5层卷积结构的AlexNet模型证明了卷积神经网络在复杂模型下的有效性,并将GPU训练引入研究领域,使得大数据训练时间缩短,具有里程碑意义。AlexNet还有如下创新点:①采用局部响应归一化算法(Local Response Normalization,LRN),增强了模型的泛化能力,有效降低了分类错误率;②使用Dropout技术,降低了神经元复杂的互适应关系,有效避免了过拟合;③为了获得更快的收敛速度,AlexNet使用非线性激活函数ReLU(Rectified Linear Units)来代替传统的Sigmoid激活函数。

Karen等[4]在AlexNet的基础上使用更小尺寸的卷积核级联替代大卷积核,提出了VGG网络。虽然VGG网络层数和参数都比AlexNet多,但得益于更深的网络和较小的卷积核尺寸,使之具有隐式规则作用,只需很少的迭代次数就能达到收敛目的。

复杂的网络结构能表达更高维的抽象特征。然而,随着网络层数增加,参数量也急剧增加,导致过拟合及计算量大增,解决这两个缺陷的根本办法是将全连接甚至一般的卷积转化为稀疏连接。为此,Google团队提出了Inception结构[5],以将稀疏矩阵聚类为较为密集的子矩阵来提高计算性能。以Inception结构构造的22层网络GoogLeNet,用均值池化代替后端的全连接层,使得参数量只有7M,极大增强了泛化能力,并增加了两个辅助的Softmax用于向前传导梯度,避免梯度消失。GoogLeNet在2014年的ILSVRC竞赛中以Top-5错误率仅6.66%的成绩摘得桂冠。

网络层数的增加并非永无止境。随着网络层数的增加,将导致训练误差增大等所谓退化问题。为此,微软提出了一种深度残差学习框架[6],利用多层网络拟合一个残差映射,成功构造出152层的ResNet-152,并在2015年的ILSVRC分类问题竞赛中取得Top-5错误率仅5.71%的成绩。随后,对现有的瓶颈式残差结构进行改进,提出了一种直通结构[7],并基于此搭建出惊人的1001层网络,在CIFAR-10分类错误率仅4.92%。至此,卷积神经网络在越来越“深”的道路上一往直前。

2 可变形的卷积神经网络

2.1 空间变换网络

空间变换网络(Spatial Transformer Network,STN)[8]主要由定位网络(Localisation net)、网格生成器(Grid generator)和可微图像采样(Differentiable Image Sampling)3部分构成,如图1所示。

定位网络将输入的特征图U放入一个子网络(由卷积、全连接等构成的若干层子网络),生成空间变换参数θ。θ的形式可以多样,如需要实现2D仿射变换,那么θ就是一个2×3的向量。

2.3 本文模型

本文以自建的3层卷积网络C3K5(如图6所示)和VGG-16作为基准网络,分别引入空间变换网络、可变形卷积和可变形池化,构造出8个卷积神经网络,用以验证可变形模块对浅层网络和深层网络的影响,如表1所示。

图6中C3K5网络模型包含3个带有ReLU层、LRN层和池化层的卷积模块,卷积层采用步长为1的5×5卷积核,输出保持原大小,池化层采用步长为2核为2×2的最大值池化,即每经过一个卷积模块,特征图缩小为原来的一半。

3 实验与分析

3.1 实验设置

本文实验环境:CPU为Intel i5-7400,8G内存,显卡为GTX1060,采用Cuda8+CuDNN6.0加速。

实验数据集包括公共图像数据集mnist、cifar-10、cifar-100和自建图像数据集pen-7。公共数据集分别有50 000张训练样本图像和10 000张测试样本图像。自建数据集pen-7为京东商城的七类笔图像库,每类有600张图片,图像分辨率为200×200,总计训练样本数3 360,测试样本数840, 图7为其中的14个样本。

3.2 结果与分析

分别将表1中的10个卷积网络应用到mnist、cifar-10、cifar-100和pen-7四个数据集进行训练,batch-size设置100,即每次传入100张图片进行训练,每训练100次测试一次(记为一次迭代),总共迭代100次,取最后10次迭代的准确率计算平均值,得各网络应用在不同数据集的分类结果,如表2所示。

实验结果表明,在卷积网络中引入空间变换网络、用可变形的卷积层和可变形的池化层替换传统的卷积层和池化层,不管是在浅层网络还是在深层网络,都能获得更高的分类准确率,这验证了空间变换网络和可变形卷积(池化)结构,丰富了卷积神经网络的空间特征表达能力,提升了卷积网络对样本的空间多样性变化的鲁棒性。包含3种模块的网络获得了最高的分类精度,使空间变换网络、可变形卷积层和可变形池化层在更多应用场景中并驾齐驱成为可能。

4 结语

通过在现有卷积神经网络中引入空间变换网络、可变形的卷积层和可变形的池化层,使得卷积网络在mnist、cifar-10、cifar-100及自建的pen-7数据集中获得了更高的分类精度,包含3种模块的网络获得了最高分类精度,证明了空间变换网络、可变形的卷积层和可变形池化层都能丰富网络的空间特征表达能力,协同应用于图像分类工作,这为后续研究打下了坚实的基础。

参考文献:

[1]BOUVRIE J. Notes on convolutional neural networks[J].Neural Nets,2006(1):159-164.

[2]Y LECUN,L BOTTOU,Y BENGIO,et al.Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324.

[3]KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[C]. International Conference on Neural Information Processing Systems. Curran Associates Inc,2012:1097-1105.

[4]SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[J]. Computer Science, 2014(6):1211-1220.

[5]SZEGEDY C, LIU W, JIA Y, et al. Going deeper with convolutions[J]. CVPR, 2015(3):1-9.

[6]HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]. Computer Vision and Pattern Recognition. IEEE, 2015:770-778.

[7]HE K, ZHANG X, REN S, et al. Identity mappings in deep residual networks[J]. arXiv,2016(1603):5-27.

[8]JADERBERG M, SIMONYAN K, ZISSERMAN A, et al. Spatial transformer networks[J].Computer Science, 2015(5):1041-1050.

[9]DAI J, QI H, XIONG Y, et al. Deformable convolutional networks[J]. arXiv: 2017(1703):62-111.

卷积神经网络的深度范文3

以上文章都结合卷积神经网络模型对交通标志分类做了大量的研究,避免了复杂的人工特征提取算法的设计,研究结果具有一定的参考性。在现有卷积神经网络模型的启发下,以上文章都采用分类器。而训练分类器需要大量样本,因而在小样本数据下,采用分类器容易造成过拟合,降低网络的泛化性。同时,由于SVM分类器在小样本数据集上具有出色分类性能,本文提出一种基于卷积神经网络和多类SVM分类器[[4]的交通标志识别模型。此模型利用卷积神经网络强大的特征提取和泛化能力,使得算法在复杂环境中依然具有可靠的识别结果。  首先,本文通过迁移学习策略「51L61对AlexNet网络[7]特征提取部分进行微调,并将微调结果作为本文的特征提取器。然后将卷积神经网络提取的特征作为多类SVM分类器的输入。同时为了进一步防止过拟合现象的发生,本文在SVM分类器中加入dropout层,利用随机置零策略进行参数选择。最后,文章通过实验结果证实本文提出的分类模型相比于采用softmax分类器有更好的准确率、在复杂背景中具有较高的识别率和较强的鲁棒性棒。1卷积神经网络和SVM

1.1  AlexNet网络    

AlexNet网络是著名的卷积分类网络,可成功实现对1000类别物体的分类。其结构可以分为特征提取器和分类器两部分。    

特征提取器主要由卷积层、池化层、激活函数组成。卷积层由大小不同的卷积核组成,卷积核类似于传统视觉中的特征提取算子。但区别于传统视觉算子,卷积核参数由网络自己学习得到,可以提取图像从底层到高层的不同特征信息。池化层常连接在卷积层之后,一般常用最大池化操作。池化层可以加强网络对平移变化的鲁棒性。激活函数为网络引入非线性因素,使得网络可以逼近任意函数形式。    

分类层主要由全连接层和多类逻辑回归函数组成。全连接层学习用合理的方式组合特征,可以看为函数映射。逻辑回归函数进行类别概率判别,逻辑回归判别见公式。同时,为了防止全连接层过拟合,AlexNet网络引入dropout层,dropout[9]采用随机置零的方式,防止神经元以特定的方式组合工作,从而防止深度网络的过拟合。p}Y}}}=j1二(‘);B)=艺  e醉x})丫‘eBTx}' }e'  j代表类别,二(i)为输入,k代表类别总数,8,表示将样本x}')映射到j类的参数,B代表er,r=i,z,~…  ,,组成的矩阵,p(少‘)=j}x(仍表示x}'}属于j类的概率。1.2标准SVM    SVM是基于结构风险最小化理论的有监督学习算法,通过寻找最优分割超平面来实现分类[}10}。相比于神经网络,SVM在小样本数据集上也能表现出良好的分类效果,因而得到广泛使用。标准的SVM通过寻求公式(2)的最优解来找到最优超分割平面。minw,b含,,w,,(2)yc> (w·二(‘)+b) >_ 1,i=1, 2,……,m尹)代表第i个样本标签,x}'}代表第i个样本特,m为训练集大小。分类模型设计    

本文提出的分类模型主要分为两部分,特征提取部分和多类SVM分类器。整体结构如图1所示。    

图1中,特征提取器主要对输入图片进行特征提取和融合,最终得到图像的高阶特征并将提取到的信息特征送入多类SVM分类器。dropout层进行参数随机丢失步骤,此步骤通过随机失活神经元可有效防止过拟合的发生;然后结合不加正则化项的SVM算法进行分类,得到最终输出结果。

2.1特征提取器    

卷积神经网络的深度范文4

关键词:ROS;表面缺陷;图像采集;神经网络;模型训练

飞机蒙皮是包围在飞机骨架结构外且用粘接剂或铆钉固定于骨架上,形成飞机气动力外形的维形构件,在飞机正常工作状态下扮演着重要的角色,一旦飞机蒙皮出现缺陷等问题,需要及时的反馈出来并且维修。传统的飞机表面缺陷检测方式大多数是由人工来完成,会存在效率低、成本高等缺点,甚至会出现检测失误的情况。本文就针对铝合金表面缺陷检测方面,提出一种基于ROS的飞机表面缺陷检测系统,采用移动机器人底盘定位和导航技术,结合深度学习、图像处理等技术检测出存在缺陷的位置并标记出来,通过机器代替传统人工的方式,旨在提高检测效率和检测精度,为飞机表面缺陷检测提供一种方式。

1系统的总体设计

飞机表面缺陷检测系统主要由检测模块、ROS机器人模块、图像处理模块三大部分组成,系统的总体结构框图如图1所示。系统的具体工作原理为:在某一区域范围内,检测模块以树莓派为核心控制器,通过检测模块中的图像采集系统对铝合金材料表面进行图像采集,将采集到的图像通过TCP通信传输到图像处理模块上[4]。图像处理模块利用深度学习中设计的卷积神经网络进行数据训练,得到检测模型,将检测模型应用到图像预处理上。此时,OpenCV对检测模块得到的图像进行图像处理[5],最终得到缺陷出现的位置。当前区域检测完毕后,通过ROS机器人模块的定位和导航功能,驱动运动执行机构工作,并移动到相邻下一块检测区域,直到所有位置都检测完毕。上述工作原理可实现飞机表面缺陷检测系统,下文将对其包括的三大模块进行说明介绍。

2检测模块设计

如图2所示,系统的检测模块主要是包括树莓派和摄像头,其中树莓派作为检测模块的处理器,搭建的有Ubuntu系统,是系统实现的重要组成部分。树莓派可以提供普通计算机的功能,并且功耗低。可直接在树莓派上安装Keil进行开发,具有很好的开发效果,运行稳定。本次飞机表面缺陷检测系统实现了树莓派将摄像头拍摄的图片发送到图像处理模块上,同时也搭载ROS系统实现了移动底盘的定位和导航功能。

3ROS机器人模块设计

ROS随着机器人技术发展愈发受到关注,采用分布式框架结构来处理文件,这种方式允许开发者单独设计和开发可执行文件。ROS还以功能包的形式封装功能模块,方便移植和用户之间的共享。下面将介绍其建图和导航功能的实现。

3.1建图设计

本文在ROS系统中使用Gmapping算法软件包实现建图[7],在ROS系统中设计了建图过程中各节点及节点间的话题订阅/的关系如图3所示。在图3建图节点话题关系图上,其中椭圆形里代表节点,矩形基于ROS的飞机表面缺陷检测系统胡浩鹏(纽约大学NewYorkUniversity纽约10003)框里代表的是主题,节点指向主题代表着该节点了主题消息,主题指向节点代表着该节点订阅了主题消息。在建图过程中,主要涉及激光雷达节点、键盘控制节点、底盘节点、Gmapping节点和地图服务节点。

3.2导航设计

ROS提供的Navigation导航框架结构如图4所示,显然MOVE_BASE导航功能包中包括全局路径规划和局部路径规划两部分,即在已构建好的地图的基础上,通过配置全局和局部代价地图,从而支持和引导路径规划的实施。为了保证导航效果的准确,通过AMCL定位功能包进行护理床的位置定位[8]。获取目标点的位置后,MOVE_BASE功能包结合传感器信息,在路径规划的作用下,控制指令,控制护理床完成相应的运动。

4图像处理模块设计

图像处理模块设计主要分为图像预处理、模型训练和卷积神经网络三大部分,通过TCP通信协议进行通信,TCP通信是一种面向连接的通信,可完成客户端(树莓派)和服务端(PC)的信息传递[9]。下面主要对卷积神经网络部分进行介绍。

4.1卷积神经网络训练流程

通过相机采集到的缺陷和问题图像作为训练样本,这部分是检测飞机表面缺陷的关键一步,然后对训练样本进行训练,具体步骤如下所示。(1)训练标记数据:首先使用图像预处理中标记好的道路故障提取出来,通过卷积神经网络对标记框内的目标数据进行训练;(2)提取特征数据:将道路故障的类型统计并归纳;(3)误差反馈学习:对测试样本进行误差反馈学习,并进行测试;(4)优化训练数据:将得到的测试结果与设定的故障分类结果进行误差对比,不断优化训练集,最终得到理想的训练数据。

4.2缺陷检测流程

缺陷检测流程如图5所示,首先输入缺陷原始图像,通过特征提取网络,将处理后的图像使用检测器进行检测,其中检测器里为卷积神经网络训练后得到的模型,最终缺陷检测后得到的识别后的图像,并反馈出来。

4.3实验测试

铝合金表面缺陷主要有碰伤、刮花、凸粉、脏点等常见的缺陷,下面将以这四种为主要对象进行检测训练,各自训练集数量为1000张。通过卷积神经网络对缺陷的特征进行提取和分类,最终实现了缺陷的检测。本次实验测试的样本为200张,每种缺陷50张,均采集自铝合金材料表面且与训练样本一致,实验结果如表1所示。由表1可知,检测脏点的准确率高达98%,刮花和凸粉的准确率也达到94%,但碰伤的准确率相对较低,只有88%。可能造成的原因是:①硬件原因导致采集的图像清晰度比较低;②碰伤缺陷不明显,无人机难以识别;③训练的数据集较少,特征学习误差大;但最后结果是满足了设计需求,还需进一步改进。

5总结与展望

卷积神经网络的深度范文5

究竟深度学习、机器学习与人工智能的关系是什么?能为人类带来怎样的改变?《中国信息化》记者采访到了IEEE的两位专家,为读者解答关于人工智能与机器学习的技术与应用趋势。

常规人工智能帮助机器自学

首先,我们需要明确一个问题,深度学习和人工智能之间的关系是什么?

Steve Furber博士是IEEE会士,“欧盟人脑计划”神经形态计算系统项目和SpiNNaker计划的负责人,目前担任英国曼彻斯特大学计算机科学学院教授。对于这个问题,Steve Furber表示,分清楚通用人工智能(AGI)和常规人工智能(或机器学习)之间的区别非常重要。前者是指机器能够获得像人类一样的智慧和能力,而后者是指开发出各种算法来让机器通过对数据进行深层次的统计分析以进行“自学”。

目前看来,通用人工智能的发展依然任重道远。而深度学习是机器学习(常规人工智能)算法的其中一种,最初的发展来源于吉奥夫.辛顿(Goeff Hinton)的大力推动。大概十年前,吉奥夫.辛顿重新整理了他在上个世纪80年代的研究成果并将其拓展为深度神经网络理论。他发现电子计算机技术经历了这样一段时间发展,已经取得了日新月异的进步,很多在上世纪无法实现的技术在当时已经能够实现了。另外,他也在学习算法的一些分支领域中有了突破性的研究。

所以,现在很多在应用领域中性能最佳的机器学习算法都是基于模仿人类大脑结构的神经网络设计而来的。

Kevin Curran博士是IEEE高级会员,IEEE互联网安全领域专家,英国厄尔斯特大学计算机科学专业教授、智能环境与虚拟世界研究实验室团队总负责人,曾参与多个“欧盟框架计划”科研项目及技术转移项目。

Kevin Curran表示,人工智能涵盖的领域十分广泛,深度学习只是其中的一个分支,并隶属于机器学习的范畴。至今为止,人工智能的概念仍是非常宽泛的。因此,为了实现多样性的应用,人工智能需要有自主“思考”能力与机器学习技术的支持,深度学习便是帮助机器实现“独立思考”的其中一种方式。

所谓深度学习,就是将数据输入系统后,通过建模及模拟人脑的神经网络从而进行学习的技术。

他说,我们可以这样来比喻,像生物神经元一样,神经网络系统中有一系列分层排列的模拟神经元(信息传递的连接点),且经过每个神经元的响应函数(又称“激活函数”)都会分配一个相应的“权值”,表示彼此间的连接强度。通过每层神经元相互“连接”,计算机就可以由达到最佳方案时所有神经元的加权和,从而可以即时实现这一决策方案。

当然,计算机也会参考类似的先例,在庞大的数据库中调出对应的决策方案,如此复杂的决策过程都是由计算机在深度神经网络内部自动完成的。不过对于这一点,人类更胜一筹,因为人类可以直接对比不同决策的测试结果,在总体上更直观地评估深度学习推算的决策方案。可以预见,深度学习将与其它各项技术结合,持续深化人工智能的技术发展及应用领域。

深度学习解决社会难题

明确了深度学习和人工智能的关系,再来看看最近深度学习取得的技术突破体现在哪些方面?这些突破离商用或者离我们的生活有多远?

Steve Furber表示,继当初杰夫. 辛顿的突破之后,相关领域的科研毫无疑问已经取得了长足的发展。他认为其中最重大的一项成就,应该就是Yann LeCun在卷积神经网络领域的研究成果。卷积神经网络作为最有效的深层神经网络,现在已经被越来越广泛地运用到了很多智能应用之中,并且它们也越来越像人类大脑了。比如现在常常在用的Google, Siri和Facebook等都应用了卷积神经网络。

Kevin Curran则表示,目前深度学习在计算机视觉,自动语音识别,自然语言处理,音频识别和生物信息学等领域都取得了技术性突破,并在不同的应用领域都展示了深度学习的极佳效果。全球IT行业巨头Google, Microsoft, Facebook等企业已经纷纷把深度学习作为重点项目,应用到他们的各种研究项目。

那么,对于深度学习和人工智能的商业化会首先应用在哪些领域?

Steve Furber表示,深度学习和人工智能的商业化应用已经率先在语音识别系统方面得到实现,例如Apple公司的Siri,微软公司的Cortana等。

Kevin Curran则认为,深度学习可以用来解决任何具有对抗性的问题,例如需要用到策略的博弈,各种比赛,战争或金融交易。短期内,它可被用于智能手机助手,优化其辅助功能;但从长远来看,它将能够帮助科学家攻克诸如气候模拟、医疗疾病分析等社会难题。同时,深度学习也有助于研发反应更加迅速的机器人,可以更智能地应对改变环境因素时的情景。最终,深度学习将能迅速地推进科研进度。凭借其强大的运算性能及庞大的数据分析,科研人员可以产出更多研究硕果,有望在更短的时间内实现对现有技术的重要突破。

而对于在其他领域的应用发展,Kevin Curran认为,医疗领域是目前深度学习和人工智能取得重要成果的关键领域之一。他说,深度学习能够探测未来个人健康的潜在风险。它可以通过一系列健康大数据中寻找疾病的致病机理,从而实现在健康和疾病相关研究领域的重大突破。这仅靠人工计算是永远不可能实现的。

而对于中国目前非常关注的智能制造领域,Kevin Curran认为,制造机器人是深度学习在应用领域的经典案例。深度学习的机器人能够自动适应外部环境变化。举个例子,现阶段的机器人都需要事先编程才能精准地完成相应的任务。一旦要让它们完成程序以外的任务,就必须重新改写程序代码。例如,专门负责修理某车型的机器人面对一款完全不同的车型时便不能顺利完成修理任务。而具备深度学习技术的机器人就不一样了,即时让它们去修理从来没有“见”过的车型,它们也可以自动重新调整算法和技术,顺利完成修理工作。

中国占据一席之地

人工智能研究的起步,一般被认为是在20世纪50年代。中国则迟至80年代,才实质性进入人工智能研究领域。现在,在深度学习和人工智能领域,中国和世界的差距主要体现在哪些方面?

Steve Furber认为目前在深度学习方面最前沿的研究仍然主要集中在包括Google以及DeepMind和Facebook等为数不多的几家大型科技公司的研发部门之中。但是,近年来美国也有致力于这一领域的创业公司如雨后春笋般不断涌现。可以预见,在未来这领域内的技术研究将有突破性的进展。

卷积神经网络的深度范文6

人工智能的概念已提出60年,从原来的理论框架体系的搭建,到实验室关键技术的准备,如今已开始进入全新的发展阶段――产业化。

目前,从基本的算法到脑科学研究,人工智能都还没有突破性进展的可能性。但是,以深度神经网络为代表的人工智能,结合日新月异的大数据、云计算和移动互联网,就可以在未来5到10年改变我们的世界。

人工智能+时代的两大机遇

人工智能不仅将替代简单重复的劳动,还将替代越来越多的复杂的高级脑力活动,创造一个个新的机会。可以说,任何一个行业、企业或今天的创业者,如果不用人工智能改变今天的生产和生活方式,5年后一定会出局。

第一个趋势是以语音为主导、以键盘和触摸为辅助的人机交互时代正在到来。如今越来越多的设备不再需要屏幕,越来越多的场景我们不用直接碰触。比如,想把灯光调亮,想打开五米之外的设备,我们的手没法直接触碰。再如,开车时不方便用手、用眼做其他事情。这时,语音就成为最主要的一个交互方式。

第二个趋势是人工智能正在全球范围内掀起一股浪潮,“人工智能+”的时代到来,而且会比我们想象的还要快。为什么呢?麦肯锡分析认为,当前45%的工作可以被技术自动化,不只是简单重复性的工作,CEO20%的工作也可以被机器取代。《科学》杂志预测,2045年人工智能会颠覆全球50%、中国77%的就业。也就是说,今天的我们3/4的工作30年后会被人工智能取代。埃森哲认为,到2035年人工智能会让12个发达国家经济增长率翻一倍。我国的增长率只有比这还高,才对得起今天的时代机遇。

从科大讯飞的情况可以看出,人工智能将迎来两大产业机遇。

第一,未来3到5年,万物互联的时代到来,以语音为主、键盘触摸为辅的人机交互将广泛应用。第二,未来5到10年,人工智能会像水和电一样进入各行各业,深刻改变我们的生活。

认知智能是最大技术瓶颈

人工智能技术有两种分类方法。一种分为强人工智能和弱人工智能;另一种是讯飞研究院提出的、跟技术演进路径相关的分类,分成计算智能、感知智能和认知智能。

计算智能就是机器能存会算。就像当年IBM的深蓝电脑下象棋超过卡斯帕罗夫,典型的就是因为运算能力强,提前算到了所有的结果。

感知智能,比如语音合成技术,能够让机器开口说话。再如语音识别技术,就像今天的演讲,后台系统把它变成文字,准确率可达95%。

认知智能是让机器具备能理解、会思考的能力。这是最大的挑战,也是大家最热切期待的技术突破。工业革命让我们从繁重的体力劳动中解放出来,未来的认知智能会让人从今天很多复杂的脑力劳动中解放出来。

科大讯飞选择以语音为入口解决认知难题,进行认知革命。以人机交互为入口的目的,就是为了解决自然语言理解的技术难题。这个入口可以把人类的智慧最便捷地汇聚到后台,供机器学习和训练,也可以使后台人工智能的成果最简单直接地输出,从社会不断取得它学习需要的反馈信息,在此基础上实现知识管理和推理学习。

科大讯飞承担的科技部第一个人工智能重大专项――高考机器人。目标是为了“考大学”,但其核心技术正是语言理解、知识表达、联想推理和自主学习。

人工智能技术正走向产业化

目前,科大讯飞的人工智能研究已经取得了阶段性成果。

在教育行业,科大讯飞的机器人通过构建学生全过程的学习数据和老师上课的数据,提升了课堂效率,原来45分钟的课堂,现在15分钟就搞定。因为大量的内容学生都是知道的,老师只需向个别没掌握的学生单独讲授。这样,老师就有时间把课堂的重点放在大家都不了解的知识上,学生可以用大量时间进行启发式学习。借助这些手段,学生的重复性训练可以降低50%以上。

在医疗行业,科大讯飞利用语音解决门诊电子病历,利用人工智能辅助诊疗。学习最顶尖医疗专家知识后的人工智能产品,可以超过一线全科医生的水平。当前,医疗行业一线最缺的是全科医生和儿科医生,引入人工智能技术就可以缓解医疗资源短缺压力。

科大讯飞的人工智能技术还应用在汽车领域。在宝马汽车去年的国际测试中,科大讯飞以86%的准确率名列第一。

在客服领域,机器已经替代掉了30%的人工服务。目前,安徽移动呼叫中心有75%的服务内容已被机器替代。

机器人还将从服务后台走向前端。今年第四季度末或明年,服务机器人将开始在银行和电信营业厅上岗工作,它们不仅好玩、有趣,吸引人气,还能帮客户解决实际问题。