卷积神经网络的核心范例6篇

前言：中文期刊网精心挑选了卷积神经网络的核心范文供你参考和学习，希望我们的参考范文能激发你的文章创作灵感，欢迎阅读。

卷积神经网络的核心

卷积神经网络的核心范文1

关键词：树叶识别；支持向量机；卷积神经网络

中图分类号 TP18 文献标识码：A 文章编号：1009-3044（2016）10-0194-03

Abstract： In this paper， the convolution neural network recognition in the leaves， and the process by convolution of image visualization. Experiments show that the neural network application identification convolution leaves a 92% recognition rate. In addition ， this neural network and support vector machine comparative study can be drawn from the study ， convolutional neural network in either speed or accuracy better than support vector machines， visible， convolution neural network in the leaves aspect has good application prospects.

Key words recognition leaves； SVM； convolutional neural network

1 概述

树叶识别与分类在对于区分树叶的种类，探索树叶的起源，对于人类自身发展、科普具有特别重要的意义。目前的树叶识别与分类主要由人完成，但，树叶种类成千上万种，面对如此庞大的树叶世界，任何一个植物学家都不可能知道所有，树叶的种类，这给进一步研究树叶带来了困难。为了解决这一问题，一些模式识别方法诸如支持向量机（Support Vector Machine，SVM）[1]，K最近邻（k-NearestNeighbor， KNN）[2]等被引入，然而，随着大数据时代的到来，这些传统分类算法暴露出越来越多的不足，如训练时间过长、特征不易提取等不足。

上世纪60年代开始，学者们相继提出了各种人工神经网络[3]模型，其中卷积神经网络由于其对几何、形变、光照具有一定程度的不变形，因此被广泛应用于图像领域。其主要特点有：1）输入图像不需要预处理；2）特征提取和识别可以同时进行；3）权值共享，大大减少了需要训练的参数数目，是训练变得更快，适应性更强。

卷积神经网络在国内研究才刚刚起步。LeNet-5[4]就是一种卷积神经网络，最初用于手写数字识别，本文研究将卷积神经网络LeNet-5模型改进并应用于树叶识别中。本文首先介绍一下卷积神经网络和LeNet-5的结构，进而将其应用于树叶识别，设计了实验方案，用卷积神经网络与传统的模式识别算法支持向量机（SVM）进行比较，得出了相关结论，并对进一步研究工作进行了展望。

2人工神经网络

人工神经网络方面的研究很早就已开展，现在的人工神经网络已经发展成了多领域、多学科交叉的独立的研究领域。神经网络中最基本的单元是神经元模型。类比生物神经元，当它“兴奋”时，就会向相连的神经元发送化学物质，从而改变这些神经元的状态。人工神经元模型如图1所示：

上述就是一个简单的神经元模型。在这个模型中，神经元接收来自n个其他神经元传递过来的输入信号，这些信号通过带权重的w进行传递，神经元接收到的总输入值将与神经元的阈值进行比较，然后通过“激活函数”来产生输出。

一般采用的激活函数是Sigmoid函数，如式1所示：

[σz=11+e-z] （1）

该函数图像图2所示：

2.1多层神经网络

将上述的神经元按一定的层次结构连接起来，就得到了如图3所示的多层神经网络：

多层神经网络具有输入层，隐藏层和输出层。由于每一层之间都是全连接，因此每一层的权重对整个网络的影响都是特别重要的。在这个网络中，采用的训练算法是随机梯度下降算法[5]，由于每一层之间都是全连接，当训练样本特别大的时候，训练需要的时间就会大大增加，由此提出了另一种神经网络―卷积神经网络。

2.2卷积神经网络

卷积神经网络（CNN）由于在图像分类任务上取得了非常好的表现而备受人们关注。发展到今天，CNN在深度学习领域已经成为了一种非常重要的人工神经网络。卷积神经网络的核心在于通过建立很多的特征提取层一层一层地从图片像素中找出关系并抽象出来，从而达到分类的目的，CNN方面比较成熟的是LeNet-5模型，如图4所示：

在该LeNet-5模型中，一共有6层。如上图所示，网络输入是一个28x28的图像，输出的是其识别的结果。卷积神经网络通过多个“卷积层”和“采样层”对输入信号进行处理，然后在连接层中实现与输出目标之间的映射，通过每一层卷积滤波器提取输入的特征。例如，LeNet-5中第一个卷积层由4个特征映射构成，每个特征映射是一个24x24的神经元阵列。采样层是基于对卷积后的“平面”进行采样，如图所示，在第一个采样层中又4的12x12的特征映射，其中每个神经元与上一层中对应的特征映射的2x2邻域相连接，并计算输出。可见，这种局部相关性的特征提取，由于都是连接着相同的连接权，从而大幅度减少了需要训练的参数数目[6]。

3实验研究

为了将LeNet-5卷积网络用于树叶识别并检验其性能，本文收集了8类树叶的图片，每一类有40张照片，如图5所示的一张树叶样本：

本文在此基础上改进了模型，使用了如图6卷积神经网络模型：

在此模型中，第一个卷积层是由6个特征映射构成，每个特征映射是一个28*28的神经元阵列，其中每个神经元负责从5*5的区域通过卷积滤波器提取局部特征，在这里我们进行了可视化分析，如图7所示：

从图中可以明显地看出，卷积网络可以很好地提取树叶的特征。为了验证卷积神经网络与传统分类算法之间的性能，本文基于Python语言，CUDA并行计算平台，训练同样大小8类，一共320张的一批训练样本，采用交叉验证的方法，得到了如表1所示的结论。

可见，无论是识别率上，还是训练时间上，卷积网络较传统的支持向量机算法体现出更好地分类性能。

4 总结

本文从人工神经网络出发，重点介绍了卷积神经网络模型LeNet-5在树叶识别上的各种研究并提取了特征且进行了可视化，并与传统分类算法SVM进行比较。研究表明，该模型应用在树叶识别上较传统分类算法取得了较好的结果，对收集的树叶达到了92%的准确率，并大大减少了训练所需要的时间。由于卷积神经网络有如此的优点，因此在人脸识别、语音识别、医疗识别、犯罪识别方面具有很广泛的应用前景。

本文的研究可以归纳为探讨了卷积神经网络在树叶识别上的效果，并对比了传统经典图像分类算法，取得了较好的分类精度。

然而，本文进行实验的样本过少，当数据集过多的时候，这个卷积神经网络算法的可行性有待我们进一步的研究；另外，最近这几年，又有很多不同的卷积神经网络模型出现，我们会继续试验其他的神经网络模型，力求找到更好的分类算法来解决树叶识别的问题。

参考文献：

[1]Bell A， Sejnowski T. An Information-Maximization Approach to Blind Separation and Blind Deconvolution[J]. Neural Computation， 1995， 7（6）：1129-59.

[2]Altman N S. An Introduction to Kernel and Nearest-Neighbor Nonparametric Regression[J]. American Statistician， 1992， 46（3）：175-185.

[3]Ripley B D， Hjort N L. Pattern Recognition and Neural Networks[M]. Pattern recognition and neural networks. Cambridge University Press，， 1996：233-234.

[4]Lécun Y， Bottou L， Bengio Y， et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE， 1998， 86（11）：2278-2324.

卷积神经网络的核心范文2

关键词：ROS；表面缺陷；图像采集；神经网络；模型训练

飞机蒙皮是包围在飞机骨架结构外且用粘接剂或铆钉固定于骨架上，形成飞机气动力外形的维形构件，在飞机正常工作状态下扮演着重要的角色，一旦飞机蒙皮出现缺陷等问题，需要及时的反馈出来并且维修。传统的飞机表面缺陷检测方式大多数是由人工来完成，会存在效率低、成本高等缺点，甚至会出现检测失误的情况。本文就针对铝合金表面缺陷检测方面，提出一种基于ROS的飞机表面缺陷检测系统，采用移动机器人底盘定位和导航技术，结合深度学习、图像处理等技术检测出存在缺陷的位置并标记出来，通过机器代替传统人工的方式，旨在提高检测效率和检测精度，为飞机表面缺陷检测提供一种方式。

1系统的总体设计

飞机表面缺陷检测系统主要由检测模块、ROS机器人模块、图像处理模块三大部分组成，系统的总体结构框图如图1所示。系统的具体工作原理为：在某一区域范围内，检测模块以树莓派为核心控制器，通过检测模块中的图像采集系统对铝合金材料表面进行图像采集，将采集到的图像通过TCP通信传输到图像处理模块上[4]。图像处理模块利用深度学习中设计的卷积神经网络进行数据训练，得到检测模型，将检测模型应用到图像预处理上。此时，OpenCV对检测模块得到的图像进行图像处理[5]，最终得到缺陷出现的位置。当前区域检测完毕后，通过ROS机器人模块的定位和导航功能，驱动运动执行机构工作，并移动到相邻下一块检测区域，直到所有位置都检测完毕。上述工作原理可实现飞机表面缺陷检测系统，下文将对其包括的三大模块进行说明介绍。

2检测模块设计

如图2所示，系统的检测模块主要是包括树莓派和摄像头，其中树莓派作为检测模块的处理器，搭建的有Ubuntu系统，是系统实现的重要组成部分。树莓派可以提供普通计算机的功能，并且功耗低。可直接在树莓派上安装Keil进行开发，具有很好的开发效果，运行稳定。本次飞机表面缺陷检测系统实现了树莓派将摄像头拍摄的图片发送到图像处理模块上，同时也搭载ROS系统实现了移动底盘的定位和导航功能。

3ROS机器人模块设计

ROS随着机器人技术发展愈发受到关注，采用分布式框架结构来处理文件，这种方式允许开发者单独设计和开发可执行文件。ROS还以功能包的形式封装功能模块，方便移植和用户之间的共享。下面将介绍其建图和导航功能的实现。

3.1建图设计

本文在ROS系统中使用Gmapping算法软件包实现建图[7]，在ROS系统中设计了建图过程中各节点及节点间的话题订阅/的关系如图3所示。在图3建图节点话题关系图上，其中椭圆形里代表节点，矩形基于ROS的飞机表面缺陷检测系统胡浩鹏（纽约大学NewYorkUniversity纽约10003）框里代表的是主题，节点指向主题代表着该节点了主题消息，主题指向节点代表着该节点订阅了主题消息。在建图过程中，主要涉及激光雷达节点、键盘控制节点、底盘节点、Gmapping节点和地图服务节点。

3.2导航设计

ROS提供的Navigation导航框架结构如图4所示，显然MOVE_BASE导航功能包中包括全局路径规划和局部路径规划两部分，即在已构建好的地图的基础上，通过配置全局和局部代价地图，从而支持和引导路径规划的实施。为了保证导航效果的准确，通过AMCL定位功能包进行护理床的位置定位[8]。获取目标点的位置后，MOVE_BASE功能包结合传感器信息，在路径规划的作用下，控制指令，控制护理床完成相应的运动。

4图像处理模块设计

图像处理模块设计主要分为图像预处理、模型训练和卷积神经网络三大部分，通过TCP通信协议进行通信，TCP通信是一种面向连接的通信，可完成客户端（树莓派）和服务端（PC）的信息传递[9]。下面主要对卷积神经网络部分进行介绍。

4.1卷积神经网络训练流程

通过相机采集到的缺陷和问题图像作为训练样本，这部分是检测飞机表面缺陷的关键一步，然后对训练样本进行训练，具体步骤如下所示。（1）训练标记数据：首先使用图像预处理中标记好的道路故障提取出来，通过卷积神经网络对标记框内的目标数据进行训练；（2）提取特征数据：将道路故障的类型统计并归纳；（3）误差反馈学习：对测试样本进行误差反馈学习，并进行测试；（4）优化训练数据：将得到的测试结果与设定的故障分类结果进行误差对比，不断优化训练集，最终得到理想的训练数据。

4.2缺陷检测流程

缺陷检测流程如图5所示，首先输入缺陷原始图像，通过特征提取网络，将处理后的图像使用检测器进行检测，其中检测器里为卷积神经网络训练后得到的模型，最终缺陷检测后得到的识别后的图像，并反馈出来。

4.3实验测试

铝合金表面缺陷主要有碰伤、刮花、凸粉、脏点等常见的缺陷，下面将以这四种为主要对象进行检测训练，各自训练集数量为1000张。通过卷积神经网络对缺陷的特征进行提取和分类，最终实现了缺陷的检测。本次实验测试的样本为200张，每种缺陷50张，均采集自铝合金材料表面且与训练样本一致，实验结果如表1所示。由表1可知，检测脏点的准确率高达98%，刮花和凸粉的准确率也达到94%，但碰伤的准确率相对较低，只有88%。可能造成的原因是：①硬件原因导致采集的图像清晰度比较低；②碰伤缺陷不明显，无人机难以识别；③训练的数据集较少，特征学习误差大；但最后结果是满足了设计需求，还需进一步改进。

5总结与展望

卷积神经网络的核心范文3

关键词：图像采集和处理；图像检测；Gabor纹理滤波；神经网络

DoI：10.15938/j.jhust.2016.06.009

中图分类号：TPl83；TP391.4

文献标志码：A

文章编号：1007-2683（2016）06-0044-06

0.引言

钢铁企业为了提高竞争力，对带钢的生产提出了新的要求，也对带钢表面检测系统提出了更高的要求，既要有更高的检测速度还要有更加准确的检测精度，而与此同时，跟随机器视觉技术的发展，带钢表面检测系统也得到了广泛的研究与应用，主要研究包括：①光源技术，由于带钢检测对光源要求频度高、体积小，这限制了传统光源在其应用，激光具有方向性好、亮度高、体积小等优点，被广泛应用于带钢检测应用中，国内的徐科等提出热轧钢检测中用绿光作为激光光源，但激光照明需解决均匀性问题.②扫描技术，由于电荷耦合元件（charge-coupled device，CCD）能够实现实时检测，成为目前研究和应用的主流技术，但是，CCD电荷耦合器需在同步时钟的控制下，以行为单位一位一位地输出信息，速度较慢，而互补金属氧化物半导体（complementary metal oxide semiconductor，CMOS）光电传感器采集光信号的同时就可以取出电信号，还能同时处理各单元的图像信息，速度比CCD电荷耦合器快很多，③图像处理算法，受限于带钢加工过程的特性，带钢表面呈现出随机纹理的特点，对于随机纹理图像的处理分析，目前常用的方法有共生矩阵法、频域滤波法、分形法等，作为频域滤波法的代表，二维Gabor滤波器有着与生物视觉系统相近的特点，广泛应用于纹理图像的处理分析，但是，CPU很难满足现在的带钢检测的实时要求，④分类算法，特征选择的主流算法是主成分分析和信息增益，主成分分析存在特征向量方向不一致的问题，而且如何确定主成分存在主观性，信息增益可以衡量特征的劣，利用它可对特征进行排序，方便后面的特征选择，但信息增益适用于离散特征，信息增益率既适用于离散特征也适用于连续特征，被广泛应用于特征选择的过程中，图像分类算法主流算法包括支持向量机和BP神经网络，支持向量机不适用于大样本的分类问题，BP神经网络方法具有能够解决非线性分类问题，对噪声不敏感等优点，被广泛应用于带钢检测中，如王成明等提出的基于BP神经网络的带钢表面质量检测方法等，但是BP神经网络的超参的设定往往具有随机性，这严重影响了分类效果。

本文首先介绍了带钢表面缺陷高速高分辨率成像系统的设计，针对光源的不均匀性、图像处理速度慢等问题，提出改进方法，然后介绍了分类器的构建，针对样本划分的随机性、特征选择的随机性以及BP神经网络超参设定的随机性问题，做出改进，最后介绍试验结果。

1.带钢表面缺陷高速高分辨率的成像系统的设计

1）大功率半导体均匀发光激光器技术，激光能够保证带钢表面缺陷的检出率，本系统选用808mm半导体激光器作为照明源，出光功率可达30w，亮度可达1500流明，激光照明需解决均匀性的问题，本文采用了基于鲍威尔棱镜的激光线发生办法，解决了激光照明的均匀性问题，其光路如图1所示。

该方法首先在激光聚焦位置放置圆形球面透镜，负责将发散的激光束汇聚成准平行光，同时控制光柱的粗细，然后，利用鲍威尔棱镜的扩散效果对圆柱的一个方向进行扩束，最终形成激光线，为保证亮度及宽度的适应性，激光器出光口距离圆透镜、鲍威尔棱镜的距离可以精密调整，为了降低反射亮度损失，在透镜表面镀上808±5nm的T≥99%的增透膜。

GPU的算法分为两个流程：训练过程主要针对无缺陷图像进行，通过训练完成纹理图像的背景建模，一方面消除背景变化带来的干扰，另一方面形成有效的Gabor卷积参数，以便在检测过程中得到最优的检出效果.检测过程对实际拍摄的缺陷图像进行分析，首先按照GPU的核心数和缓存大小对图像进行分解，本文所有GPU的核心数为1024，显存2G，因此将原始图像分解为1000块，分别加载到1000个核心中，同时并发运行卷积运算.最后将各个窗口的卷积结果合并到一起，得到完成的滤波结果，最后借助于背景模式，将背景的干扰消除，得到干净的缺陷区域。

3）成像系统，根据缺陷检测的精度要求（1800m/min的检测速度，0.25mm的精度），带钢的规格要求（1900 mm规格），对带钢进行成像系统设计，基于互补金属氧化物半导体（CMOS）的成像芯片具有速度快，用电低等优势，选用两个4K线扫描CMOS相机作为成像核心器件，选用Camera Link Full接口作为数据输出，两个4K扫描中间重叠100mm作为图像拼接区，两组线激光光源与线扫描组成系统的主要成像模块，成像系统结构如图3所示。

2.构建分类器

检测缺陷类别及其特征描述如表1所示：

1）训练集和样本集划分.主要缺陷类别有5个，每个类别收集样本7000，共计35000个样本，为了避免训练集和样本集划分的盲目性，采用10一折交叉验证的方式划分训练集和测试集，即将样本集分成10份，从中选1份为测试集，剩下的为训练集，如图4所示，究竟选择哪一份作为测试集，需在后面的嵌套循环中实现。

2）特征选择，缺陷区域的长度、宽度、面积、区域对比度等共计138个特征形成初始特征集合，利用信息增益率来对各个特征排序。

上述各循环组合在一起就是一个嵌套循环，其N-S盒图如图5所示，最外层是测试集和训练集的10折交叉验证，第1层是确定最优的特征数，第3层是确定最优的隐含层节点数，第4、5层是确定最优的输入层和隐含层、隐含层和输出层的初始权值。

经以上循环，确定D3作为测试集，最优特征数为23个，最优的隐含层节点数是46个，同时也确定了最优的初始权值，对应的3层BP神经网络的网络模型如图6所示。

3.实验结果

1）鲍威尔棱镜与柱透镜进行对比在实际工作距离1.5m处，采用0.1m为间隔使用光功率计测试光源功率，如图7所示，横轴为测试点，纵轴为测试点的光功率。实验表明，鲍威尔棱镜均匀性优于柱透镜。

2）Gabor滤波方法与其他方法比较将动态阈值法+Blob分析法（方法A）和灰度共生矩阵纹理背景消除法（方法B）两种方法与Gabor滤波方法进行比较，如图8所示.由于缺陷与背景灰度相近（图（a）），致使方法A缺陷丢失（图（b）），由于缺陷与背景纹理相近（图（d）），致使方法B产生噪声（图（e）），Gabor方法取得了不错的效果（图（e）、（图（f）））。

3）GPU与CPU比较以4096×4096的图像为例，选10幅有代表性图像，利用CPU（最新的inteli7-2600处理器，4核8线程，2.6GHz，内存8G）和GPU（nVidiaGTX970，4G存显卡）进行Ga-bor运算，计算时间如表2所示，GPU计算效率明显优于CPU，其中CPU的平均耗时为290.4ms，而GPU的平均耗时为31.7ms。

4）检测效果在产线速度为1775m/min，最小检测缺陷的尺寸为0.25mm的检测系统中，对带钢的主要4种类型缺陷进行检测统计，检测结果如表3所示。

可计算出整体检出率99.9%，检测准确率99.4%。

卷积神经网络的核心范文4

2. 应用领域安防

实时从视频中检测出行人和车辆。

自动找到视频中异常的行为（比如，醉酒的行人或者逆行的车辆），并及时发出带有具体地点方位信息的警报。

自动判断人群的密度和人流的方向，提前发现过密人群带来的潜在危险，帮助工作人员引导和管理人流。

医疗

对医学影像进行自动分析的技术。这些技术可以自动找到医学影像中的重点部位，并进行对比比分析。

通过多张医疗影像重建出人体内器官的三维模型，帮助医生设计手术，确保手术

为我们每个人提供康建议和疾病风险预警，从而让我们生活得更加健康。

智能客服

智能客服可以像人一样和客户交流沟通。它可以听懂客户的问题，对问题的意义进行分析（比如客户是询问价格呢还是咨询产品的功能呢），进行准确得体并且个性化的回应。

自动驾驶

现在的自动驾驶汽车通过多种传感器，包括视频摄像头、激光雷达、卫星定位系统（北斗卫星导航系统BDS、全球定位系统GPS等）等，来对行驶环境进行实时感知。智能驾驶系统可以对多种感知信号进行综合分析，通过结合地图和指示标志（比如交通灯和路牌），实时规划驾驶路线，并发出指令，控制车子的运行。

工业制造

帮助工厂自动检测出形态各异的缺陷

3. 概念什么是人工智能？

人工智能是通过机器来模拟人类认知能力的技术。

人工智能的三种训练方式分别是监督学习、非监督学习、强化学习。下文会一一介绍。

二、这是不是鸾尾花（分类器）1. 特征提取人类感官特征

花瓣数量、颜色

人工设计特征

先确定哪些特征，再通过测量转化为具体数值

深度学习特征

这里先不提及，文章后面会说

2. 感知器

老师给了一道题：

要区分两种鸾尾花，得画出一条直线区分两类花，你可以画出无数条直线，但是哪条才是最好的呢？

怎么办呢？我可是学渣啊，靠蒙！

随便找三个数a=0.5、b=1.0、c=-2 带入 y = ax[1] + bx[2] + c，

每朵花的两个特征也代入x[1]、x[2]，比如带入(4， 1) 得出 y[预测] = 1，此时 y[实际] = 1 （样本设定变色鸾尾花为 1，山鸾尾为 -1 ），所以y[实际] – y[预测] = 0.

重复以上两步，得出所有的『实际值和预测值的差距的综合，记为 Loss1

可怎么知道是不是最优的直线呢？继续猜啊！继续懵！像猜世界杯一样猜就好了。

通过沿 y = ax[1] + bx[2] + c 梯度（梯度就是求导数，高中有学的！）下降的方向继续猜数字，具体过程大概是这样子的：

上述所属的实际值和预测值的差距实际上是一种损失函数，还有其他的损失函数，比如两点间直线距离公式，余弦相似度公式等等可以计算预测结果和实际结果之间的差距。

划重点：损失函数就是现实和理想的差距（很残酷）

3. 支持向量机

*判断依据的区别也导致了损失函数的不同（但依旧是猜）

直观的说，缝隙（上图的分类间隔）越大越好

4. 多分类

如果有多种花怎么办？

一趟植物课上，老师请来了牡丹鉴别专家、荷花鉴别专家、梅花鉴别专家。老师拿出了一盘花给各个专家鉴定，牡丹角色这是牡丹的概率是0.013、荷花专家角色这是荷花的概率是0.265、梅花专家角色这是梅花的概率是0.722。

老师综合了各位专家的意见后，告诉同学们，这是一盘梅花。

小明：这老师是不是傻，一朵花是啥都不知道，还要请三个专家

老师：你给我滚出去

实际计算过程就是通过用 2.2 和 2.3 等方法训练的二分类器，分别输出对应的分类值（比如三种花的分类器分别输出-1，2，3），那怎么把这些分类值转化成概率呢？这就要用到归一化指数化函数 Softmax（如果是二分类就用 Sigmoid函数），这里就不拿公式来说，可以直观的看看书中这个表格就懂了：

5. 非监督学习第 2.2 能从预测值和实际值的差别判断”是否猜对了”，是因为生物老师告诉了学渣，哪些样本是山鸾尾花，哪些变色鸾尾花。但如果老师连样本实际的类别也不告诉学渣（非监督式学习），学渣不知道样本分别是什么花。

那该怎么办呢？

机器学习的入门课程总是在讲鸾尾花，也是够烦的。

这里我们换个场景：

假如你是某直播老板，要找一堆小主播，这时候你有一堆应聘者，然而你只有她们的胸围和臀围数据。一堆8份简历摆在你面前，你是不知道哪些更加能干( capable啊 ! ) 的，更能吸引粉丝。你也没空全部面试，那应该怎么挑选呢？

这时候你把她们的胸围和臀围都标准在一张二维坐标图上：

这是你随手一划，把她们分成两组，可以说“聚成两类了”。

用某种计算方式（比如平均值）找到这个聚类的中心。点离聚类中心越近，代表越相似。

求出每个聚类中的点到蓝色聚类中心点和黄色聚类中心的距离

如果一个点离黄色聚类中心更近却被你随手划到了蓝色分组（上图用红色边框标出的小方块），那么就把它划入黄色分组。

这时因为分组范围和分组内包含哪些小姐姐都发生了变化。这时候你需要以步骤3 的方法重新计算聚类的中心

重复步骤 4 （算点中心距离）-> 重复步骤 5 （调整黄色小姐姐们和蓝色小姐姐们）-> 重复步骤 3 （算中心），一直循环这个过程直到蓝色和黄色聚类下所包含的小姐姐不再发生变化。那么就停止这一循环。

至此，小姐姐们已经被分为两大类。你可以得出两类小姐姐：

计算机在没有监督的情况下，成功把小姐姐们分成两类，接下来就可以在把两种主播各投放2个到平台看看谁更能干。效果更好的，以后就以那个聚类的样本特征扩充更多能干的主播。

小明：有什么了不起的，我一眼就能看出黄色小姐姐更能干

老师：你给我滚出去

上面聚类小姐姐的算法就叫做 K 邻近算法，K 为要聚类的数量（这需要人工指定），上述例子 K=2.那么如果分成三类就是 K=3，训练过程可以看下图，有个直观的了解：

三、这是什么物品（图像识别）1. 特征提取人类感官特征

花瓣颜色、花瓣长度、有没有翅膀（区分猫和小鸟）、有没有嘴巴和眼睛（飞机和小鸟）

感官的特征通过量化得到颜色（RGB值）、边缘（圆角、直角、三角）、纹理（波浪、直线、网格）数值特征

人工设计特征

深度学习特征

通过卷积提取图像特征

划重点：卷积的作用就是提取图像有用信息，好比微信把你发出的图片压缩了，大小变小了，但是你依旧能分辨出图像的主要内容。

1维卷积 1*5+2*4+3*3=22、1*4+2*3+3*2=16、1*3+2*2+3*1=10

2维卷积 1*2+3*0+2*4+4*2=28…

通过卷积就可以得到图像的特征信息，比如边缘

垂直边缘检测

水平边缘检测

方向梯度直方图

2. 深度学习和传统模式分类的区别既然有传统模式分类，为什么还要神经网络呢？

区别就在于传统的模式分类需要人为设置特征，比如花瓣长度、颜色等等。而深度学习省略掉人工设计特征的步骤，交由卷积操作去自动提取，分类器的训练也同时融入到神经网络当中，实现了端对端的学习

划重点：端对端学习（End to End）就是从输入直接得出输出，没有中间商，自己赚差价。

3. 深(多)层神经网络存在的问题一般来说，神经网络层数增多，会提高准确率。但是，网络层数加深导致：

过拟合学渣把高考预测试题的答案都背一遍而不理解，考试的时候，如果试题是考生背过的，那么考生就能答对；如果没背过那么考生就不会回答了。我们就可以说，学渣『过拟合了预测试题。

与之对应的是：欠拟合渣得不能再渣的人，连预测试题都背不下来，即使考试试题和预测试题一模一样，他也只能答对30%。那么就可以说这种人~~欠揍~~欠拟合。

有兴趣的还可以了解一下梯度弥散和梯度爆炸下面是网上很火很励志的一个公式，权重在多层网络中相乘，比如每一层的权重都是0.01，传递100层就是 0.01 的100 次方，变得非常小，在梯度下降 Gradient Descent 的学习过程中，学习将变得非常慢。（好比从一个碗顶部放下一个小球，在底部徘徊的速度会越来越慢）

非凸优化学习过程可能在局部最小值（极小值）就停止了，因为梯度（斜率）为零。在局部最低停止而不是全局最低停止，学习到的模型就不够准确了。

看图感受一下

你说的底不是底，你说的顶是什么顶

解决的办法

均匀初始化权重值（Uniform Initialization）、批归一化（Batch Normalization）、跳远链接（Shortcut）涉及到比较多数学逻辑，这里就不展开说明了。

4. 应用人脸识别

自动驾驶把汽车顶部拍摄到的图片切分层一个个小方块，每个小方块检测物体是车还是行人还是狗，是红灯还是绿灯，识别各种交通标识等等。再配合雷达等判断物体距离。

四、这是什么歌（语音识别）1. 特征提取人类感官特征音量、音调、音色

通过采样、量化、编码。实现声波数字化（声波转电信号）

人工设计特征梅尔频率在低频部分分辨率高，高频部分分辨率低（这与人耳的听觉感受是相似的，即在一定频率范围内人对低频声音比较敏感而对高频声音不敏感）。

关系为：

在每一个频率区间对频谱求均值，它代表了每个频率范围内声音能量的大小。一共有26个频率范围，从而得到26维的特征。倒谱操作后，得到 13 维的梅尔频率倒谱系数(Mel-FrequencyCepstralCoefficients，MFCCs)

深度学习特征通过 3.1 所介绍的 1维卷积进行特征提取

2. 应用音乐风格分类

输入：音频文件特征：声音特征输出：音乐种类

语音转文字

输入：音频文件特征：声音特征输出：声学模型（比如26个英文字母）

再把声学模型送入另外的学习器

输入：声学模型特征：语义和词汇输出：通顺的语句（可以查看第6点，如何让计算机输出通顺的语句）

听歌识曲通过窗口扫描（把音乐分割成一小段一小段的），然后通过4.1说的方法提取这一段的特征，就得到一个特征向量。对数据库的歌和用户录音的歌做同样的操作得到特征向量，然后两两之间计算相似度（两个向量的距离可以用余弦公式算夹角大小或者两点间距离公式来算）

五、视频里的人在做什么（视频理解，动作识别）1. 介绍视频，本质是由一帧帧图片连续组成的，因为人视觉的暂留效应（Persistence of vision，人眼在观察景物时，光信号传入大脑神经，并不立即消失，让人产生画面连续的印象），看上去是连续的，也就是视频。识别视频里面有什么物体，可以用上文说过的图像识别和分类方法去实时分析单帧图像，比如：

但是视频相对于图像有一个更重要的属性：动作（行为）。

怎么从一个连续的视频分析动作呢？

举个例子，像上图那只二哈，腿部的像素点相对于黄色的方框（框和狗相对静止）在左右”移动”，这里的”移动”我们引入一个概念——光流（一个像素点从一个位置移动到另一个位置），通过像素点移动形成的光流作为神经网络的训练特征（X），『奔跑作为训练目标值（Y），经过多次的迭代训练，机器就可以拟合得出一个 Y = f(X) 用于判断视频中的物体（Object）是否在奔跑。

2. 光流假设，1）相邻两帧中物体运动很小2）相邻两帧中物体颜色基本不变

至于神经网络是怎么跟踪某个像素点的，这里不展开说明。

第 t 时刻的点指向第 t+1 时刻该点的位置，就是该点的光流，是一个二维的向量。

整个画面的光流就是这样：

整个视频的光流（轨迹）是这样的

不同的虚线代表图像上某个点移动的轨迹

假设视频宽width、高 height、一共有 m 帧，那么该视频可以用 width * height * m * 2 的张量（就是立体的矩阵）来表示，把向量喂到神经网络即可进行分类训练。

进一步优化，可以把光流简化为8个方向上的，把视频某一帧的所有光流累加到这八个方向上得出某一帧的光流直方图，进一步得出 8 维的特征向量。

六、一段文字在表达什么（自然语言处理）1. 特征提取

这里有4个句子，首先进行分词：

去掉停用词（副词、介词、标点符合等等，一般在文本处理上都有一个停用词表）

编码词表

句子向量化

这样就得到一个句子19 维的特征向量，再把这19维的特征向量用普通卷积网络或者 LSTM 循环神经网络作为 X 读入（喂它吃东西），文本的分类（比如积极、消极）作为训练标签值 Y，迭代训练得到的模型可以用于情感分析或文本分类等任务。

2. 进阶词向量化厉害-牛逼、计算机-电脑是同义词。光从上面的步骤，我们可能认为厉害和牛逼是两个完全不一样的词语，但其实他们是近似的意思，怎么才能 AI 学习知道这点呢？需要从多个维度去进一步给词语更丰富的内涵，比如：

举例来说，男性用1表示，女性用0表示，不带性别倾向就是0.5。多个维度扩展之后，就得到“男人”这个词的特征向量（1，0， 0.5，0，1）

逆向文档频率一个词在一类文章出现的多，而在另外分类的文章出现的少，越能说明这个次能代表这篇文章的分类。比如游泳在体育类的文章中出现的多（2次），而在工具类的文章出现的少（0次），相比其他词语（1次）更能代表体育类的文章。

假设句子中有 N 个词，某个词出现次数为 T，一共有 X 个句子，该词语在 W 个句子出现，则逆向文档频率 TF-IDF 为 T/N * log(X/W)

3. 应用

七、让计算机画画（生成对抗网络）从前有个人，以卖临摹名家的画来赚钱。他开始临摹一副名画：

第一次他画成这样子了：

鉴赏家一眼就看出来是假的，他不得不回去画第二幅画、第三幅画…

经过了10万次”画画-鉴别”的过程，这个临摹者画出来的画，鉴赏家居然认为这是真的原作，以高价买入了这副画。

这种生成（画画）- 鉴别（鉴伪）的模式正是生成对抗网络（GAN）的核心。

通过生成器，把随机像素点有序排列形成具有意义的画面，再通过鉴别器得出生成的画面的分类、和真实画面之间的差距，并告诉生成器要往什么方向去优化。多轮的训练之后，生成器就学会了画『真画了。

计算机是怎么把随机像素点变成有意义的画面的呢？我们通过一个简化的例子来看看。

直线上一些均匀分布的点，经过 y=2x+1变换后变成了非均匀分布。一张随机排布的像素点画面，经过某个f(x) 变换后就会变成具有某种意义的画面，而生成器就是不停地去近似f(x)，就像 2.2 感知器拟合一条直线那样。

下图为计算机生成手写数字的过程

划重点：函数可以变换数据分布（库克说：可以把直的变成弯的）

八AlphaGo是怎么下棋的？（强化学习）1. 粗略认知监督/无监督训练：尽可能让每一次任务正确强化学习：多次任务是否达成最终目标

每一次任务都准确，不就是能达成最终目标吗？我们来看一个例子：

一家批发商店的老板爱丽丝要求她的经理比尔增加销售额，比尔指导他的销售员多卖一些收音机，其中一个销售员查尔斯弄到了一个可以获利的大单，但是之后公司因为供应紧缺无法交付这些收音机。

应该责怪谁呢？

从爱丽丝的角度来看，查尔斯的行为让公司蒙羞了（最终任务没完成）。

但是从比尔的角度，查尔斯成功地完成了他的销售任务，而比尔也增加了销量（子任务达成）。——《心智社会》第7.7章

2. AlphaGo下围棋，最古老的办法是决策树，从左上角的位置开始到右下角的位置遍历，每一个空的位置就是一个分支，然后预测每种棋局赢的概率，找出最大概率的走法玩。这就是落子预测器。

但是由于围棋19X19的超大棋盘，空间复杂度高达10的360次方，要穷尽所有的走法几乎是不可能的，如大海捞针。

要降低复杂度，关键是要降低搜索的广度和深度。

我们栽培一颗小盆栽的时候，如果不对枝叶进行修剪，那么养分就会浪费在没长好的枝条上。需要及时对枯萎或者异常的枝条进行修剪以保证养分往正常（或者说我们希望它生长的方向）枝条上输送。

同样的道理，有限的计算机算力如果浪费在穷尽所有围棋走法上，将导致棋局推演非常慢，而且耗费大量的时间也难以找到最优的方案。

是否可以通过 “修剪” 落子选择器这颗庞大的决策树，加快较优落子方案的选择呢？怎么判断哪些是好的”枝条”，哪些是坏的”枝条”呢？这就需要棋局价值评估器（哪个棋盘的赢的概率更大），把没有价值的棋局先去掉不再往下遍历，这就同时减少了搜索的广度和深度。

其中，落子预测器有个名称，叫做政策网络（policy network）价值评估器有个名称，叫做价值网络（value network）政策网络（policy network）利用蒙特卡洛搜索树从当前棋局推演（随机下棋）到最终的棋局，最终胜则回报为正，反之回报为负。之后该算法会反向沿着该对弈过程的落子方案步步回溯，将路径上胜者所选择的落子方案分数提高，与此对应将败者的落子方案分数降低，所以之后遇到相同局面时选择胜者方案的概率就会增加。因此可以加速落子选择，称为快速走子网络。

通过政策网络 + 价值网络 + 蒙特卡洛搜索树实现最优落子方案的选择，同时两个机器人互相对弈，这样就不停地训练网络，学习落子方案。

3. 定义接下来说一下枯燥的定义

什么是强化学习?

当我们关注的不是某个判断是否准确，而是行动过程能否带来最大的收益时使用强化学习(reinforeement learning)。比如在下棋、股票交易或商业决策等场景中。

强化学习的目标是要获得一个策略(poliey)去指导行动。比如在围棋博弈中，这个策略可以根据盘面形势指导每一步应该在哪里落子；在股票交易中，这个策略会告诉我们在什么时候买入、什么时候卖出。

一个强化学习模型一般包含如下几个部分：

一组可以动态变化的状态(sute)

对于围棋棋盘上黑白子的分布位置对于股票交易来说，就是股票的价格

一组可以选取的动作(metion)

对于围棋来说，就是可以落子的位置；对于股票交易来说，就是每个时间点，买入或者卖出的股票以及数量。

一个可以和决策主体(agent)进行交互的环境(environment)这个环境会决定每个动作后状态如何变化。

棋手（主体）的落子会影响棋局（环境），环境给主体奖励（赢）或惩罚（输）操盘手（主体）的买入或卖出会影响股票价格（环境，供求关系决定价格），环境给主体奖励（赚钱）或惩罚（亏钱）

卷积神经网络的核心范文5

【关键词】：高速公路防逃人脸识别高清视

中图分类号：U412.36+6 文献标识码：A

人脸识别的分类与概述

人脸识别就是通过计算机提取人脸的特征，并根据这些特征进行身份验证。人脸与人体的其他生物特征(指纹、虹膜等)一样与生俱来，它们所具有的唯一性和不易被复制的良好特性为身份鉴别提供了必要的前提；同其他生物特征识别技术相比，人脸识别技术具有操作简单、结果直观、隐蔽性好的优越性。人脸识别一般包括三个步骤：人脸检测、人脸特征提取和人脸的识别与验证。其处理流程如图

输入图像人脸图像人脸特征输出结果

人脸识别的一般步骤

人脸识别方法繁多，早期研究较多的方法有基于几何特征的人脸识别方法和基于模板匹配的人脸识别方法。目前人脸识别方法主要研究及应用的是基于统计的识别方法、基于连接机制的识别方法以及其它一些综合方法。下面是这几类方法的基本介绍：[2]

（1）基于几何特征的人脸识别方法

几何特征矢量是以人脸器官如眼睛、鼻子、嘴巴等的形状和几何关系为基础的特征矢量，其分量通常包括人脸指定两点间距离、曲率、角度等。早期的研究者Brunelli[3]等人采用改进的积分投影法提取出用欧式距离表征的35维人脸特征矢量用于人脸识别。Huang Chung Lin等人[4]采用动态模板[5,6,7]与活动轮廓模型提取出人脸器官的轮廓[8,9,10]。基于几何特征的人脸识别方法有如下优点：符合人类识别人脸的机理，易于理解；对每幅图像只需要存储一个特征矢量，存储量小；对光照变化不敏感。但这种方法同样存在一些问题，如从图像中提取这些特征比较困难；对强烈的表情变化和姿态变化的鲁棒性差等。

（2）基于模板匹配的人脸识别方法

模板匹配大都采用归一化相关，直接计算两幅图之间的匹配程度。最简单的人脸模板就是将人脸看成一个椭圆[10,11]。另一种方法就是将人脸用一组独立的小模板表示，如眼睛模板、嘴巴模板、鼻子模板等，采用弹性模板方法提取这些模板特征[12]。Brunelli等人专门比较了基于几何特征的人脸识别方法和基于模板匹配的人脸识别方法，他们得出的结论是：基于几何特征的人脸识别方法具有识别速度快和内存要求小等优点，但基于模板匹配的识别率要高于基于几何特征的识别率。

（3）基于统计的人脸识别方法

基于统计特征的识别方法包括基于特征脸的方法和基于隐马尔可夫模型的方法。特征脸（Eigenface）方法[13]是从主成分分析导出的一种人脸识别和描述技术。主成分分析实质上是K-L展开的网络递推实现，K-L变换是图像压缩中的一种最优正交变换，其生成矩阵一般为训练样本的总体散布矩阵。特征脸方法就是将包含人脸的图像区域看作是一种随机向量，因此可以采用K-L变换获得其正交K-L基底。对应其中较大特征值的基底具有与人脸相似的形状，因此又称之为特征脸。

隐马尔可夫模型（HMM）是用于描述信号统计特性的一组统计模型。基于人脸从上到下、从左到右的结构特征，Samaria等人[14]首先将1-D HMM和2-D Pseudo HMM用于人脸识别。Kohir等[15]采用1-D HMM将低频DCT系数作为观察矢量获得了好的识别效果。Eickeler等[16]采用2-DPseudo HMM识别DCT压缩的JPEG图像中的人脸图像。Nefian等[17]采用嵌入式HMM识别人脸。

（4）基于连接机制的人脸识别方法（神经网络弹性图匹配）

基于连接机制的识别方法，包括一般的神经网络方法和弹性图匹配(Elastic Graph Matching)方法。神经网络在人脸识别应用中有很长的历史[18]。Demers 等[19]提出采用PCA方法提取人脸图像特征，用自相关神经网络进一步压缩特征，最后采用一个多层处理器来实现人脸识别。Laurence等[20]通过一个多级的SOM实现样本的聚类，将卷积神经网络（CNN）用于人脸识别。Lin等[21]采用基于概率决策的神经网络（PDBNN）方法。最近，径向基函数RBF神经网络因具有逼近性好、空间描述紧凑和训练速度快等特点而被用于人脸识别。Gutta等[22]提出了将RBF与树分类器结合起来进行人脸识别的混合分类器结构，后来他们用RBF神经网络进行了针对部分人脸的识别研究[23]，他们的研究表明利用部分人脸也可以有效地识别人脸。Er等[24]采用PCA进行维数压缩，再用LDA抽取特征，然后基于RBF进行人脸识别。Haddadnia 等[25]基于PZMI（Pseudo Zernike Moment Invariant）特征，并采用混合学习算法的RBF神经网络进行人脸识别。此外，Lucas 等采用连续的n-tuple网络识别人脸。

弹性图匹配方法是一种基于动态链接结构的方法[26]。在人脸图像上放置一组矩形网格节点，每个节点的特征用该节点处的多尺度Gabor幅度特征描述，各节点之间的连接关系用几何距离表示，从而构成基于二维拓扑图的人脸描述。根据两个图像中各节点和连接之间的相似性可以进行人脸识别。Wiskott等[27]将人脸特征上的一些点作为基准点，强调了人脸特征的重要性。他们采用每个基准点存储一串具有代表性的特征矢量，大大减少了系统的存储量。Würtz 等[28]只使用人脸面部的特征，进一步消除了结构中的冗余信息和背景信息，并使用一个多层的分级结构。Grudin等[29]也采用分级结构的弹性图，通过去除了一些冗余节点，形成稀疏的人脸描述结构。Nastar等[30]提出将人脸图像I(x,y)表示为可变形的3D网格表面（x, y, I(x,y)），将人脸匹配问题转换为曲面匹配问题，利用有限元分析的方法进行曲面变形，根据两幅图像之间变形匹配的程度识别人脸。

（5）基于形变模型的方法

基于形变模型的方法是一个受到重视的方法。通过合成新的视觉图像，可以处理姿态变化的问题。Lanitis等[31]通过在人脸特征边沿选择一些稀疏的基准点描述人脸的形状特征，然后将形状变形到所有人脸图像的平均形状，再根据变形后的形状进行纹理（灰度）变形，形成与形状无关的人脸图像。然后分别对形状和灰度进行PCA变换，根据形状和纹理的相关性，用PCA对各自的结果进一步分析，最终得到描述人脸的AAM（Active Appearance Model）模型。通过改变这些参数可得到不同变化的人脸图像，模型参数能够用于人脸识别。Romdhani 等[32]采用激光扫描仪获得人脸的3D数据，分别对一些基准点构成的形状和基准点的灰度（或彩色）完成PCA，得到3D人脸形状和灰度（彩色）基图像，通过变化参数就可获得不同的3D人脸模型。通过施加一些先验约束可以避免合成不真实的人脸图像。利用线性形状和纹理误差，通过3D模型向2D输入图像的自动匹配实现人脸识别。

项目采用的识别算法

人脸自动识别技术经过多年来的研究已经积累了大量研究成果。但是仍然面临很多问题，尤其是在非约束环境下的人脸识别。结合本研究项目及应用环境综合考虑，采用特征脸方法对视屏资料中的司机脸部进行提取识别。

特征脸方法是90年代初期由Turk和Pentland提出算法，具有简单有效的特点, 也称为基于主成分分析（principal component analysis，简称PCA）的人脸识别方法。把人脸图像空间线性投影到一个低维的特征空间。PCA实质上是K-L展开的网络递推实现。K-L变换是图像压缩技术中的一种最优正交变换。人们将它用于统计特征提取。从而形成子空间法模式识别的基础。若将K-L变换用于人脸识别，则需假设人脸处于低维线性空间。由高维图像空间K-L变换后，可得到一组新的正交基，由此可以通过保留部分正交基获得正交K-L基底。如将子空间对应特征值较大的基底按照图像阵列排列，则可以看出这些正交基呈现出人脸的形状。因此这些正交基也称为特征脸，这种人脸的识别方法也叫特征脸法。

特征子脸技术的基本思想是：从统计的观点，寻找人脸图像分布的基本元素，即人脸图像样本集协方差矩阵的特征向量，以此近似地表征人脸图像。这些特征向量称为特征脸（Eigenface）。

利用这些基底的线性组合可以描述、表达和逼近人脸图像，因此可以进行人脸识别与合成。识别过程就是将人脸图像映射到由特征脸张成的子空间上，比较其与已知人脸在特征脸空间中的位置，具体步骤如下：[33]

（1）初始化，获得人脸图像的训练集并计算特征脸，定义为人脸空间；

（2）输入待识别人脸图像，将其映射到特征脸空间，得到一组权值；

（3）通过检查图像与人脸空间的距离判断它是否为人脸；

（4）若为人脸，根据权值模式判断它是否为数据库中的某个人。

1. 计算特征脸

假设人脸图像包含个像素,因此可以用维向量Γ表示。如人脸训练集由幅人脸图像构成,则可以用表示人脸训练集。

其均值为：

（2-1）

每幅图像与均值的差为：

（2-2）

构造人脸训练集的协方差矩阵：

（2-3）

其中。

协方差矩阵的正交分解向量即为人脸空间的基向量，也即特征脸。

一般比较大（通常大于1000），所以对矩阵直接求解特征向量是不可能的，为此引出下列定理：

SVD定理：设是一秩为的维矩阵，则存在两个正交矩阵：

（2-4）

（2-5）

以及对角阵：

（2-6）

满足

其中：为矩阵和的非零特征值，和分别为和对应于的特征矢量。上述分解成为矩阵的奇异值分解（SVD），为的奇异值。

推论：

（2-7）

由上述定理可知：

人脸训练集所包含的图像一般要比图像的像素数小的多，因此可以转求矩阵

（2-8）

的特征向量，M为人脸训练集图像总数。

矩阵的特征向量由差值图像与线性组合得到：

=（2-9）

实际上，m（m

（2-10）

识别

基于特征脸的人脸识别过程由训练阶段和识别阶段两个阶段组成。在训练阶段,每个己知人脸映射由特征脸张成的子空间上,得到m维向量：

（2-11）

距离阈值定义如下：

（2-12）

在识别阶段，首先把待识别的图像映射到特征脸空间，得到向量

（2-13）

与每个人脸集的距离定义为

（2-14）

为了区分人脸和非人脸，还需计算原始图像与其由特征脸空间重建的图像之间的距离：

（2-15）

其中：

（2-16）

采用最小距离法对人脸进行分类，分类规则如下：

（1）若，则输入图像不是人脸图像；

（2）若，则输入图像包含未知人脸；

（3）若，则输入图像为库中的某个人脸。

实际上，特征脸反映了隐含在人脸样本集合内部的信息和人脸的结构关系。将眼睛、面颊、下颌的样本集协方差矩阵的特征向量称为特征眼、特征颌和特征唇，统称特征子脸。特征子脸在相应的图像空间中生成子空间，称为子脸空间。计算出测试图像窗口在子脸空间的投影距离，若窗口图像满足阈值比较条件，则判断其为人脸。

基于特征分析的方法，也就是将人脸基准点的相对比率和其它描述人脸脸部特征的形状参数或类别参数等一起构成识别特征向量，这种基于整体脸的识别不仅保留了人脸部件之间的拓扑关系，而且也保留了各部件本身的信息，而基于部件的识别则是通过提取出局部轮廓信息及灰度信息来设计具体识别算法。现在Eigenface(PCA)算法已经与经典的模板匹配算法一起成为测试人脸识别系统性能的基准算法；而自1991年特征脸技术诞生以来，研究者对其进行了各种各样的实验和理论分析，FERET测试结果也表明，改进的特征脸算法是主流的人脸识别技术，也是具有最好性能的识别方法之一。

该方法是先确定眼虹膜、鼻翼、嘴角等面像五官轮廓的大小、位置、距离等属性，然后再计算出它们的几何特征量，而这些特征量形成一描述该面像的特征向量。其技术的核心实际为"局部人体特征分析"和"图形/神经识别算法。"这种算法是利用人体面部各器官及特征部位的方法。如对应几何关系多数据形成识别参数与数据库中所有的原始参数进行比较、判断与确认。Turk和Pentland提出特征脸的方法，它根据一组人脸训练图像构造主元子空间，由于主元具有脸的形状，也称为特征脸,识别时将测试图像投影到主元子空间上，得到一组投影系数，和各个已知人的人脸图像比较进行识别。

结束语

从目前国情来讲，在一段时间内高速公路收费还会继续存在，某些司机逃费的侥幸心也同样会有。通过带路径识别功能的 RFID 复合卡作为通行卡，利用 RFID 卡的信息对车辆进行跟踪，在不增加硬件投入的情况下，直接可以给车道收费系统提供抓拍高清图像，以及其它报警联动系统提供图像等，可有效解决高速公路冲卡逃费问题，可广泛应用于封闭式管理的公路收费系统。

参考文献：

[1]江艳霞. 视频人脸跟踪识别算法研究. 上海交通大学博士学位论文，2007.

[2]Brunelli R and Poggio T., Feature Recognition: Features Versus Templates. IEEE Transactions on

PAMI, 1993, 15(10):1042 -1052.

[3]李刚. 基于特征脸法的正面人脸识别研究. 国防科学技术大学硕士学位论文，2002.11

[4]JOHN CANNY. A Computational Approach to Edge Detection. IEEE TRANSACTIONS ON PATTERN

ANALYSIS AND MACHINE INTELLIGENCE, VOL.PAMI-8, NO.6, NOVEMBER 1986.

[5]张建飞、陈树越等. 基于支持向量基的交通视频人车识别研究[J]. 电视技术，2011

[6]肖波、樊友平等. 复杂背景下基于运动特征的人面定位[J]. 重庆大学学报，2002

[7] 《中华人民共和国交通部公路联网收费技术要求》，交通部

[8] 《广东省高速公路联网收费系统》，DB44 127-2003，广东省质量技术监督局

[9] 《视频安防监控数字录像设备》,GB 20815-2006

[10]《安全防范工程技术规范》，GB 50348-2004

卷积神经网络的核心范文6

关键字：车牌；识别；二值化

1、研究概况

车牌识别技术是智能化移动式稽查系统中的关键技术，其是指不依赖于电子信号，利用光学特性，基于光学字符识别（简称OCR，即Optical Character Recognition）技术对车辆牌照进行识别，从而辨识车辆唯一身份的一种技术。

从OCR技术的含义来说，车牌识别技术的基本工作流程如下图所示：

车牌识别技术的基本工作流程

其中：图像采集指从实际环境中或者交通车辆行驶视频中获取图像，可以通过摄像设备直接获取，也可以用图像采集卡采集。车牌识别技术均基于对图像进行分析识别，这一步是为了提供识别的对象。识别核心为整个系统的工作核心。通过OCR字符识别技术，获得车辆牌照识别结果（包括车牌颜色、牌照位置等重要信息）。

车牌识别技术是集光学、电子、软件、人工智能等多领域的一项实用技术，由于其完全采用光学图像，避免了以往采取微波、雷达等电子设备进行交通监控造成的电子污染，同时使用一些反监控电子装置，增加了ITS系统对交通监控领域的有效性和威慑力。

2、关键技术

2.1、车辆牌照的定位

首先，由于图像的采集色系为RGB色系，故需要将RGB色系的图像转化到HSV色系中。在HSV色系中，利用H、S色系分量可以确定蓝色、黄色牌照区域；利用S、V色系分量可以确定白色牌照区域；利用V色系分量可以确定黑色牌照区域。之后，通过将其进行图像灰度化处理，利用灰度化的形态学开、闭运算消除干扰、降低噪声后，遍历迭代出连通区域来确定牌照的位置。

车辆牌照定位流程图

1）确定各种车辆颜色在HSV色系空间中的阈值

车辆牌照的颜色分为黑、白、蓝、黄四种颜色，这样我们和容易将四种颜色的标准RGB色系转化到HSV色系中来，但考虑到光照度以及牌照的颜色深浅度并不相同，所以可以通过均值、方差的方法来进行多个采样本H、S、V各个分量的值。经过试验证明，采样本的H、S、V分量值的阈值属于正态分布，故可以通过正态分布来确定阈值区间。

2）通过引入图像灰度化原理，将图像进行灰度化处理

在HSV色系中，通过上面确定的阈值区间将图像进行处理，并通过灰度化原理对图像进行灰度化。

步骤如下：

①若图像像素中H分量是在黄色阈值区间内，且像素S分量也属于黄色区间，则将该像素灰度值设定为一个试验标准值1。

②若图像像素中H分量是在蓝色阈值区间内，且像素S分量也属于蓝色区间，则将该像素灰度值设定为一个试验标准值2。

③若图像像素中V分量是在白色阈值区间内，且像素S分量也属于白区间，则将该像素灰度值设定为一个试验标准值3。

④若图像像素中V分量是在黑色阈值区间内，则将该像素灰度值设定为一个试验标准值4。

⑤若图像像素不属于上述的任何阈值空间，则将该像素灰度值设定为一个试验标准值5。

3）图像消噪处理

图像在经过灰度化处理之后，会有很多的噪声干扰。研究证明，通过颜色的滤波方法虽然可以消除噪声，但是这种方法很容易造成裂纹、很多个不连通区域，这样通过滤波的方式便不可行。通过采用图像灰度化的开运算以及确定合适的结构元素将可以大大去除噪声，并可以有效地保证图像质量。

4）牌照候选区域的选择

通过利用迭代法选择搜索出符合牌照特性的矩形区域，之后利用真实牌照的长、宽比例作为验证标准，搜索出候选区域。

根据牌照图像为矩形的特点，对连通区域的标注上、下、左、右四个标注。

5）在候选区域中找到真正的牌照位置

对候选区域在水平方向上进行二值化处理，计算水平方向跳跃次数以及字符所包含像素与整个候选区域像素的比例来进行验证，符合标准的，便将牌照图像切割下来，作为牌照的定位结果。

2.2、牌照的提取

由于车辆牌照的位置、光度都有很大的差异，为了能够有效地提取车辆牌照，需利用明暗相间纹理以及sobel算子确定牌照的边界，具体流程图如下：

车辆牌照提取流程图

上图中显示了具体一幅车辆图片的牌照提取过程。其中用到了大量的数字图像处理算法，包括图像的彩色图到灰度图变换，灰度拉伸，均衡，边缘卷积算子，纹理特征提取，去噪，滤波等。

3、牌照图像的预处理（即牌照图像的二值化）

牌照图像的二值化是处理与识别图像关键的一个步骤，通过引入Marr算子成功解决了图像二值化中阀值的选取问题。

1）本系统引入Marr算子

由于牌照图片可以看作由前景字符和背景组成，在光照比较均匀的时候，二值化就相当于如何找到一个合适的阀值把字符和背景分开。对于阶跃边缘，变化最剧烈的地方位于某一阶导数的极限点，或者说，位于其二阶导数的过零点处。由于图像的边缘有一定取向，如果希望二阶导数无方向，则可用拉普拉斯算子。而为了减少噪声的影响，可先把图像做高斯滤波。

2）Marr算子实现牌照图像二值化

对于灰度图而言只有两种情况一种是底色比字符亮，一种是底色比字符暗，对于字符比底色亮的牌照首先要反色后才能用Marr算子来二值化，所以就必须判断牌照的底色颜色，但是在光照不均匀和牌照过亮的情况下是很难判定颜色是白色还是蓝色，而在比较暗的地方则很难判定蓝色和黑色。所以就提出了一个判定是否需要反色的方法，因为如果能够得到字符内的像素的平均亮度和底色的平均亮度，则很容易判断反色，方法如下：

首先，对牌照图像进行对比度拉伸；

然后，用水平Sobel算子和垂直Sobel算子得到牌照的边缘图，对水平Sobel图逐行扫描，碰到边缘点时则记下这一小段线段的终点，继续扫描直到碰到另一段边缘的起点，计算这两点间距离。如果距离小于阀值t(t=3)则认为这是字符内像素点，如果距离大于t (t=5)则认为是底色的点，此外情况则不考虑，给这些像素点做好标记。同样，对垂直Sobel图扫描，然后把两幅扫描图综合起来，求底色和字符色的比值。

通过以上方法可以判断是否需要反色，如果要反色，则反色后再用Marr算子和图像进行卷积，然后根据过零点来二值化。

3）二值化后牌照图像处理

对二值化的图像处理方法之一就是去除左右边缘，一般情况左右边缘在两边，在确定了可能的左右边缘后，可以分析此区域的特点，它可能会高出上边缘或者低于下边缘或者两者皆有，通过分析这些特征，可以确定其是否是真正的边缘。对于上下边缘的处理则比较简单，一般情况下，上下边缘会比较长并且会在字符的上下边缘之外。在知道了字符的上下点后可以用来拟合直线，通常可用来清除直线外的区域。直线的拟合算法用的是最小二乘法。

2.4、字符分割及识别

通过神经网络算法迭代查询具有自学习、自记忆的知识树，每个树枝结点都可能是最终值，迭代后，按照输出值的可能性比例，产生识别出的车牌号码。神经网络应用于牌照识别技术中是通过将二值化后的图像进行迭代查询来实现的。

3、结语

1）通过改进的神经网络算法（将一颗大的神经树分成若干小的神经树）迭代查询知识树。该方法大大提高了图像识别率和识别准确度。

卷积神经网络的核心范例6篇

卷积神经网络的核心范文1

卷积神经网络的核心范文2

卷积神经网络的核心范文3

卷积神经网络的核心范文4

卷积神经网络的核心范文5

卷积神经网络的核心范文6

相关论文

相关期刊

图象识别与自动化

相关精选