前言:中文期刊网精心挑选了卷积神经网络的缺陷范文供你参考和学习,希望我们的参考范文能激发你的文章创作灵感,欢迎阅读。
卷积神经网络的缺陷范文1
DOIDOI:10.11907/rjdk.171863
中图分类号:TP317.4
文献标识码:A 文章编号:1672-7800(2017)006-0198-04
0 引言
图像分类一直是计算机视觉领域的一个基础而重要的核心问题,具有大量的实际应用场景和案例。很多典型的计算机视觉问题(如物体检测、图像分割)都可以演化为图像分类问题。图像分类问题有很多难点需要解决,观测角度、光照条件的变化、物体自身形变、部分遮挡、背景杂波影响、类内差异等问题都会导致被观测物体的计算机表示(二维或三维数值数组)发生剧烈变化。一个良好的图像分类模型应当对上述情况(以及不同情况的组合)不敏感。使用深度学习尤其是深度卷积神经网络,用大量图像数据进行训练后可以处理十分复杂的分类问题。
卷积神经网络是为识别二维形状而专门设计的一个多层感知器,这种网络结构对平移、缩放、倾斜等扰动具有高度不变性,并且具有强大的特征学习与抽象表达能力,可以通过网络训练获得图像特征,避免了复杂的特征提取与数据重建过程。通过网络层的堆叠,集成了低、中、高层特征表示。AlexNet等网络模型的出F,也推动了卷积网络在海量图像分类领域的蓬勃发展。
1 卷积神经网络
卷积神经网络是人工神经网络的一种,其“局部感知”“权值共享”[1]等特性使之更类似于生物神经网络,网络模型复杂度大大降低,网络训练更容易,多层的网络结构有更好的抽象表达能力,可以直接将图像作为网络输入,通过网络训练自动学习图像特征,从而避免了复杂的特征提取过程。
Yann LeCun等[2]设计的LeNet-5是当前广泛使用的卷积网络结构原型,它包含了卷积层、下采样层(池化层)、全连接层以及输出层,构成了现代卷积神经网络的基本组件,后续复杂的模型都离不开这些基本组件。LeNet-5对手写数字识别率较高,但在大数据量、复杂的物体图片分类方面不足,过拟合也导致其泛化能力较弱。网络训练开销大且受制于计算机性能。
2012年,在ILSVRC竞赛中AlexNet模型[3]赢得冠军,将错误率降低了10个百分点。拥有5层卷积结构的AlexNet模型证明了卷积神经网络在复杂模型下的有效性,并将GPU训练引入研究领域,使得大数据训练时间缩短,具有里程碑意义。AlexNet还有如下创新点:①采用局部响应归一化算法(Local Response Normalization,LRN),增强了模型的泛化能力,有效降低了分类错误率;②使用Dropout技术,降低了神经元复杂的互适应关系,有效避免了过拟合;③为了获得更快的收敛速度,AlexNet使用非线性激活函数ReLU(Rectified Linear Units)来代替传统的Sigmoid激活函数。
Karen等[4]在AlexNet的基础上使用更小尺寸的卷积核级联替代大卷积核,提出了VGG网络。虽然VGG网络层数和参数都比AlexNet多,但得益于更深的网络和较小的卷积核尺寸,使之具有隐式规则作用,只需很少的迭代次数就能达到收敛目的。
复杂的网络结构能表达更高维的抽象特征。然而,随着网络层数增加,参数量也急剧增加,导致过拟合及计算量大增,解决这两个缺陷的根本办法是将全连接甚至一般的卷积转化为稀疏连接。为此,Google团队提出了Inception结构[5],以将稀疏矩阵聚类为较为密集的子矩阵来提高计算性能。以Inception结构构造的22层网络GoogLeNet,用均值池化代替后端的全连接层,使得参数量只有7M,极大增强了泛化能力,并增加了两个辅助的Softmax用于向前传导梯度,避免梯度消失。GoogLeNet在2014年的ILSVRC竞赛中以Top-5错误率仅6.66%的成绩摘得桂冠。
网络层数的增加并非永无止境。随着网络层数的增加,将导致训练误差增大等所谓退化问题。为此,微软提出了一种深度残差学习框架[6],利用多层网络拟合一个残差映射,成功构造出152层的ResNet-152,并在2015年的ILSVRC分类问题竞赛中取得Top-5错误率仅5.71%的成绩。随后,对现有的瓶颈式残差结构进行改进,提出了一种直通结构[7],并基于此搭建出惊人的1001层网络,在CIFAR-10分类错误率仅4.92%。至此,卷积神经网络在越来越“深”的道路上一往直前。
2 可变形的卷积神经网络
2.1 空间变换网络
空间变换网络(Spatial Transformer Network,STN)[8]主要由定位网络(Localisation net)、网格生成器(Grid generator)和可微图像采样(Differentiable Image Sampling)3部分构成,如图1所示。
定位网络将输入的特征图U放入一个子网络(由卷积、全连接等构成的若干层子网络),生成空间变换参数θ。θ的形式可以多样,如需要实现2D仿射变换,那么θ就是一个2×3的向量。
2.3 本文模型
本文以自建的3层卷积网络C3K5(如图6所示)和VGG-16作为基准网络,分别引入空间变换网络、可变形卷积和可变形池化,构造出8个卷积神经网络,用以验证可变形模块对浅层网络和深层网络的影响,如表1所示。
图6中C3K5网络模型包含3个带有ReLU层、LRN层和池化层的卷积模块,卷积层采用步长为1的5×5卷积核,输出保持原大小,池化层采用步长为2核为2×2的最大值池化,即每经过一个卷积模块,特征图缩小为原来的一半。
3 实验与分析
3.1 实验设置
本文实验环境:CPU为Intel i5-7400,8G内存,显卡为GTX1060,采用Cuda8+CuDNN6.0加速。
实验数据集包括公共图像数据集mnist、cifar-10、cifar-100和自建图像数据集pen-7。公共数据集分别有50 000张训练样本图像和10 000张测试样本图像。自建数据集pen-7为京东商城的七类笔图像库,每类有600张图片,图像分辨率为200×200,总计训练样本数3 360,测试样本数840, 图7为其中的14个样本。
3.2 结果与分析
分别将表1中的10个卷积网络应用到mnist、cifar-10、cifar-100和pen-7四个数据集进行训练,batch-size设置100,即每次传入100张图片进行训练,每训练100次测试一次(记为一次迭代),总共迭代100次,取最后10次迭代的准确率计算平均值,得各网络应用在不同数据集的分类结果,如表2所示。
实验结果表明,在卷积网络中引入空间变换网络、用可变形的卷积层和可变形的池化层替换传统的卷积层和池化层,不管是在浅层网络还是在深层网络,都能获得更高的分类准确率,这验证了空间变换网络和可变形卷积(池化)结构,丰富了卷积神经网络的空间特征表达能力,提升了卷积网络对样本的空间多样性变化的鲁棒性。包含3种模块的网络获得了最高的分类精度,使空间变换网络、可变形卷积层和可变形池化层在更多应用场景中并驾齐驱成为可能。
4 结语
通过在现有卷积神经网络中引入空间变换网络、可变形的卷积层和可变形的池化层,使得卷积网络在mnist、cifar-10、cifar-100及自建的pen-7数据集中获得了更高的分类精度,包含3种模块的网络获得了最高分类精度,证明了空间变换网络、可变形的卷积层和可变形池化层都能丰富网络的空间特征表达能力,协同应用于图像分类工作,这为后续研究打下了坚实的基础。
参考文献:
[1]BOUVRIE J. Notes on convolutional neural networks[J].Neural Nets,2006(1):159-164.
[2]Y LECUN,L BOTTOU,Y BENGIO,et al.Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324.
[3]KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[C]. International Conference on Neural Information Processing Systems. Curran Associates Inc,2012:1097-1105.
[4]SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[J]. Computer Science, 2014(6):1211-1220.
[5]SZEGEDY C, LIU W, JIA Y, et al. Going deeper with convolutions[J]. CVPR, 2015(3):1-9.
[6]HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]. Computer Vision and Pattern Recognition. IEEE, 2015:770-778.
[7]HE K, ZHANG X, REN S, et al. Identity mappings in deep residual networks[J]. arXiv,2016(1603):5-27.
[8]JADERBERG M, SIMONYAN K, ZISSERMAN A, et al. Spatial transformer networks[J].Computer Science, 2015(5):1041-1050.
[9]DAI J, QI H, XIONG Y, et al. Deformable convolutional networks[J]. arXiv: 2017(1703):62-111.
卷积神经网络的缺陷范文2
关键词:人脸识别技术;病毒管控;人工智能;神经网络
互联网在今天的社会中发挥着举足轻重的作用。如今社会,随着许多人工智能技术、网络技术、云计算等互联网技术不断发展,像人脸识别等技术的应用越来越广泛,在控制病毒传播途径等场合发挥了巨大作用,不断地提高着社会的安全性和便利性,不仅提高了防控中病毒检测效率,也为病毒的控制提供了可靠的技术方法,能够及时发现和控制公共场所的安全隐患因素,避免对社会经济、居民生活造成破坏,。但目前的人脸识别等技术还存在许多缺陷,需要完善和革新,充满着巨大的潜力和进步空间。
1人脸识别技术研究意义
人脸识别技术是一种生物特征识别技术,最早产生于上世纪60年代,基于生理学、图像处理、人机交互及认知学等方面的一种识别技术。相比于其他人类特征像指纹识别、声纹识别、虹膜识别等技术,人脸识别虽然存在人脸识别单一性低,且区分度难度高、易受环境影响等不足。但是人脸识别技术拥有速度快、大范围群体识别及非接触、远距离可识别等优势,都是其他生物识别识别技术所不具备的,而在传播性强、感染风险大的病毒传播过程中,这些显然是必须要考虑的重要影响因素。通过将人脸识别等人工智能技术引入信息管理系统,综合集成视频监控、图像处理、深度学习和大数据等技术,结合非接触测温、定位等技术,助力病情防控,在一定程度上推动病毒病情防控信息化、智能化发展进程。可作为加强公共场所的人员的体温实时监测、地址信息定位的监控管理,规范公共场所针对病毒传播的预防行为。
2人脸识别技术
2.1人脸检测技术
人脸检测是自动人脸识别系统中的一个关键环节。早期的人脸识别研究主要针对具有较强约束条件的人脸图象(如无背景的图象),往往假设人脸位置静止或者容易获取。人脸检测分为前深度学习时期,AdaBoost框架时期以及深度学习时期。前深度学习时期,人们将传统的计算机视觉算法运用于人脸检测,使用了模板匹配技术,依赖于人工提取特征,然后用这些人工特征训练一个检测器;后来技术发展,在2001年Viola和Jones设计了一种人脸检测算法,它使用简单的Haar-like特征和级联的AdaBoost分类器构造检测器,检测速度较之前的方法有2个数量级的提高,并且保持了很好的精度,称这种方法为VJ框架。VJ框架是人脸检测历史上第一个最具有里程碑意义的一个成果,奠定了基于AdaBoost目标检测框架的基础,使用级联AdaBoost分类器进行目标检测的思想是:用多个AdaBoost分类器合作实现对候选框的分类,这些分类器组成一个流水线,对滑动窗口中的候选框图像进行判定,确定检测目标是人脸还是非人脸。Adaboost框架技术的精髓在于用简单的强分类器在初期快速排除掉大量的非人脸窗口,同时保证高的召回率,使得最终能通过所有级强分类器的样本数数量较少。在深度学习时期,开始将卷积神经网络应用于人脸检测领域。研究方向有两种:一是将适用于多任务的目标检测网络应用于人脸检测中;另一种是研究特定的的人脸检测网络。人脸检测技术具有特殊唯一性和稳定性,在现今社会对于构建居民身份识别系统,病毒传播防控系统,以及计算机视觉交互模型的构建具有广泛的应用。人脸检测技术不仅作为人脸识别的首要步骤,也在许多其他领域发挥巨大影响,如人脸关键点提取、人脸追踪、基于内容的检索、数字视频处理、视频检测、安防监控、人证比对、社交等领域都有重要的应用价值。数码相机、手机等移动端上的设备已经大量使用人脸检测技术实现成像时对人脸的对焦、图集整理分类等功能,各种虚拟美颜相机也需要人脸检测技术定位人脸。评价一个人脸检测算法好坏的指标是检测率和误报率,我们定义检测率为:算法要求在检测率和误报率之间尽量平衡,理想的情况是达到高检测率,低误报率。
2.2人脸识别技术
目前主要流行的人脸识别技术包括几何特征识别,模型识别,特征脸识别和基于深度学习/神经网络的的人脸识别技术等。人脸特征识别主要通过对人脸面部结构特征如眼睛、鼻子等五官几何特点及其相对位置分布等,生成图像,并计算各个面部特征之间的欧式距离、分布、大小等关系该方法比较简单,反应速度快,并且具有鲁棒性强等优点,但是在实际环境下使用容易受检测的环境的变化、人脸部表情变化等影响,精度通常不高,细节处理上不够完善。模型识别技术主要包括隐马尔可夫模型、主动表象模型、主动形状模型等,识别率较高,并且对表情等变化影响较小。特征脸识别来源于主成分描述人脸照片技术(PCA技术),从数学上来讲,特征脸就是人脸的图像集协方差矩阵的特征向量。该技术能有效的显示人脸信息,效率较高。基于深度学习的人脸识别是获取人脸图像特征,并将包含人脸信息的特征进行线性组合等,提取人脸图像的特征,学习人脸样本数据的内在规律和表示层次。可以采用如三层前馈BP神经网络。BP神经网络是1986年由Rumelhart和McClelland为首的科学家提出的概念,是一种按照误差逆向传播算法训练的多层前馈神经网络,是应用最广泛的神经网络模型之一。BP网络本质上是一种能够学量的输入与输出之间的映射关系的输入到输出的映射,从结构上讲,BP网络具有输入层、隐藏层和输出层;从本质上讲,BP算法就是以网络误差平方为目标函数、采用梯度下降法来计算目标函数的最小值。BP神经网路输入层有n个神经元节点,输出层具有m个神经元,隐含层具有k个神经元,采用BP学习算法训练神经网络。BP算法主要包括两个阶段:向前传播阶段和向后传播阶段。在向前传播阶段,信息从输入层经过逐级的变换,传送到输出层。这个过程也是在网络完成训练后正常运行时执行。将Xp作为输入向量,Yp为期望输出向量则BP神经网络向前传播阶段的运算,得到实际输出表达式为向后传播阶段主要包括两大步骤:①计算实际输出Op与对应理想输出Yp之差;②按极小化误差方法调整带权矩阵。之所以将此阶段称为向后传播阶段,是对应于输入信号的正常传播而言的,因为该阶段都需要收到精度要求进行误差处理,所以也可以称之为误差传播阶段。(1)确定训练集。由训练策略选择样本图像作为训练集。(2)规定各权值Vij,Wjk和阈值Φj,θk参数,并初始化学习率α及精度控制参数ε。(3)从训练集中取输入向量X到神经网络,并确定其目标输出向量D。(4)利用上式计算出一个中间层输出H,再用本式计算出网络的实际输出Y。(5)将输出矢量中yk与目标矢量中dk进行比较,计算输出误差项,对中间层的隐单元计算出L个误差项。(6)最后计算出各权值和阈值的调整量。所以,卷积神经网络算法是通过训练人脸特征库的方式进行学习生成,对不同环境下不同表现情况的人脸图像识别有更高的精确性。
2.3人脸识别软件实现方式
(1)采集人脸数据集,然后对数据集进行标注,对数据进行预处理变成训练格式。(2)部署训练模型,根据训练算法所需依赖部署电脑环境。(3)训练过程,下载预训练模型,将人脸数据集分批次作为输入开始训练,最终输出为训练好的模型。(4)部署训练好的模型,捕获画面即可对画面中的人脸进行实时检测。
3人脸识别在病毒传播防控中的应用
通过人脸识别技术,可以实现无接触、高效率的对流动人员进行信息的收集、身份识别、定位地址信息等操作,大大减少了传染的可能性,切断了病毒传播途径,大大提高了工作效率。通过提前收录人脸信息,采用深度学习对人脸特征模型的训练学习,即可获取人脸识别特征模型,再次验证时即可实现人脸识别和个人信息快速匹配。AI人工智能帮助人们更好的解放双手,为人们的生活和工作提供了重要的帮助。本文还提出了在人脸识别的系统基础上,可以加入定位系统、测温系统等,依托物联网技术和云计算大数据,更加优化管控系统的效率。病毒传播防控中人脸识别系统流程可以概括为图2。
4结语
本文研究了一种人脸识别技术在病毒传播管控系统中的应用,并分析设计了人脸识别实时监测及病毒管控系统的流程,大大提高了信息管理的效率,减弱了传播风险。作为一门新兴技术,目前的人脸识别技术还存在着诸多不足之处,像存在环境光的影响、人脸表情变化、妆容变化、佩戴口罩等都会影响到系统识别精度;另外安全问题也引人深思:现今人脸支付方式迅猛发展,录入的人脸模型信息数据库存在有一定的安全风险,一旦被不法分子盗取信息后果不堪设想,所以模型数据库安全、网络安全,也是系统开发中必须重视的问题。人脸识别为代表的人工智能技术的研究,在病毒传播管控作出重大贡献,依托我国领先的计算机网络技术和5G等技术,加强人工智能技术与5G通信技术的结合,优势互补,以此来加快大数据、人工智能和物联网技术发展进程,对我国社会进步,促进城市建设和管理朝着高效、秩序、和谐稳定的方向不断发展,增强我国的经济实力有着重大价值和研究意义。
参考文献
[1]王彦秋,冯英伟.基于大数据的人脸识别方法[J].现代电子技术,2021,44(7):87-90.
[2]李刚,高政.人脸自动识别方法综述[J].计算机应用研究,2003,20(8):4-9,40.
[3]马玉琨,徐姚文.ReviewofPresentationAttackDetectioninFaceRecognitionSystem[J].计算机科学与探索,2021,7(15):1195-1206.
[4]余璀璨,李慧斌.基于深度学习的人脸识别方法综述[J].工程数学学报,2021,38.
[5]王红星,胡永阳,邓超.基于LBP和ELM的人脸识别算法研究与实现[J].河南理工大学学报(自然科学版),2005.
[6]钟陈,王思翔,王文峰.面向疫情防控的人脸识别系统与标准研究[J].信息技术与标准化,2020,6,11-13,1671-539X.
[6]彭骏,吉纲,张艳红,占涛.精准人脸识别及测温技术在疫情防控中的应用[J].软件导刊,2020,10,1672-7800.
卷积神经网络的缺陷范文3
关键词:机器视觉与应用;创新实践;邮电类高校
国务院印发的《新一代人工智能发展规划》中提出了我国人工智能“三步走”战略目标并深化实施“中国制造2025”,将人工智能上升到国家战略层面。因此,必须加快推进人才培养模式改革,推进科教协同育人,完善高水平科研支撑拔尖创新人才培养机制。新工科背景下的核心课程机器视觉与应用是邮电类本科学生的基础课程,许多高校主要面向自动化、计算机类等工科专业开设,此课程融合了机器学习理论,数字图像处理,智能决策与最优化等技术[1],教学内容涉及机器视觉系统的组成与标定、图像滤波与分割、目标检测与识别、成像原理与多视图几何、三维测量等。各个学校对该课程的教学内容侧重点不同,培养目标也不尽相同,但普遍面临的问题是:强调理论知识点的掌握如定理、证明等,理论教学内容不能与最新技术发展同步,实践教学内容简单、肤浅,不能有效联系实际应用或案例。学生对这门课缺乏兴趣,实验设备老旧、编程语言传统,不符合企业实际需求,影响学生就业与升学的竞争力。因此,为解决上述问题,《机器视觉与应用》这门课程的教学改革势在必行。
一、理论教学课程体系改革的与时俱进
机器视觉在我们生活中的应用不断扩大,如手机上的摄像头系统,微信、支付宝的扫码操作等,因此在《机器视觉与应用》这门课中,在深入讲解经典机器视觉知识的同时,要将当前最新的机器视觉与应用的研究成果与行业前沿知识在课堂上对学生进行介绍,如基于稠密深度、轻量化卷积神经网络的目标检测与识别、图卷积神经网络等,让他们了解最新的知识点与行业应用及当前流行的软件、硬件平台,为他们以后的学科研究与就业奠定良好的基础。因此,对课程的培养目标与课程体系进行了修订。
新版的《机器视觉与应用》课程以Python语言为基础,要求学生掌握机器视觉的概念、原理、图像处理方法及经典视觉成像模型,掌握多视图幾何及三维重建的原理及实现方法,学会搭建基础的轻量化卷积神经网络,为进一步学习人工智能相关专业课以及从事本专业的研究和技术工作打下必要的基础。
同时,要充分考虑企业的需求,以协同育人的视角构建教师和企业导师联合育人团队,因材施教,优势互补。比如,通过理论讲解掌握机器视觉的图像滤波与目标检测,借助于生产线现场缺陷目标检测等工业应用案例掌握理论教学知识,并反馈理论教学中未涉及的实际应用要点,如算法的实时性、检测成功率,影响误检测的因素等。
二、创新实践教学平台
为了紧跟当前机器视觉与应用技术发展的潮流,培养人工智能应用行业所急需的专业人才,在通过课堂将机器视觉与应用专业理论知识传授给学生的同时,还需启发学生将来在机器视觉应用方面有创新性的成果[2]。
我们构建了三种型号的基于机器视觉系统的无人车、无人机等创新实践平台,每一种型号分别采用英伟达Nano和树莓派两种开发板,每种开发板32套,总共192套基于机器视觉系统的无人平台。这些平台不仅更好地服务于机器视觉与应用课程的章节实验及综合性实验,而且还作为实验室的创新平台,为智能车比赛,无人机竞赛,机器人大赛提供强有力的支撑。
三、创新实践教学机器视觉软件的组成
本课程的章节实验及综合性实践提供多种编程语言和工具箱平台,学生可以根据自己的兴趣、爱好及未来的学业、职业规划选择一种或多种编程语言及平台[3]。在Matlab图像处理工具箱与OPENCV工具箱的基础上[4],本课程的实践教学创新性地引入基于Python的机器视觉与应用基础工具箱、进阶版深度学习工具箱,紧跟当前机器视觉与应用课程发展的技术潮流。因为Python是一种面向对象、解释型、动态数据类型的高级程序设计语言。其代码量小,简洁清晰。还具有丰富的机器视觉标准库和扩充库,如Pytesseract、OpenCV等,是当前人工智能行业广泛应用的编程工具。
此外,为进一步支撑机器视觉综合性实验及基于视觉导航的无人车进阶实践项目,建议学生学习ROS开源的元机器人操作系统,包括硬件抽象、底层设备控制、常用函数的实现、进程间消息传递以及包管理。上述的OpenCV,Python等机器视觉工具箱及激光雷达、IMU惯导模块以及相应的多传感器标定、图像处理、目标识别与跟踪、三维重建、SLAM等都可以在此环境下实现。
另外,学生还可以熟悉掌握常用的深度学习框架,如PyTorch、TensorFlow、Keras、MXNet等,为将来的工作和学业深造打下坚实的基础。
四、创新实践教学内容的设计
我结合机器视觉与应用的理论教学内容,并兼顾实验室开放创新项目及竞赛需求,设计了渐进式创新实践教学内容,主要分为三个级别:验证性机器视觉章节实验、综合性视觉及多传感器融合实践项目、创新性实践项目。考虑到学生对知识的掌握程度不同,三个级别的项目由易到难,循序渐进,兼顾学生的兴趣爱好及实际生活中的创意实现。三个级别的实验及实践项目举例如下:
1.验证性实验:摄像头启动及驱动,图像预处理如多彩色空间转化、灰度变化、图像增强、图像滤波、锐化、图像分割与二值化、腐蚀与膨胀、图像特征提取与匹配等。
2.综合性实践:相机标定实验及误差分析,多传感器联合标定(相机、激光雷达、IMU联合标定),图像去雾、去雨、去模糊化等。
3.创新性实践:视觉导航,无人车视觉避障,无人车视觉同时定位与重建,模拟工业机器视觉应用如智能产品缺陷检测、视觉测量,快递包裹视觉实时追踪与定位,人流估计与预测等。
验证性实验是必选的,综合性及创新性实践是以小组完成的,学生可以跟踪兴趣、爱好选择不同的题目,提高主观能动性,并允许学生利用所学知识进行创新创意性扩展。
五、创新实践教学方式改革探索
(一)梳理课程间内容关系,完善相应的平台、硬件、软件及相应的电子资源建设
学生的专业基础不同,所掌握编程知识及实践能力有一定的差异性,教师开课前应摸底学生所学的课程内容,了解学生不同的专业基础,并进行合理的分组、引导,使学生互帮互助;完善实验室的理论教学平台,发展三种类型多套的无人硬件平台,建立相应的课程电子资源网站,包括理论教学内容知识点和实践教学内容及所需的软件、教程、工具包,网站上包含专门的知识内容讨论区,另外还包括国内外《机器视觉与应用》相应的多媒体课件、论文、书籍及经典算法的实现代码,以适应当今人工智能行业内机器视觉知识的内容多、涉及范围广、知识更新快的特点,以便学生下载、查阅。同时,教师要合理利用一些即时通讯平台,如微信群、QQ等工具,及时解答学生的疑问。
(二)优化小班化实验室課堂,注重学生知识的掌握与应用
教师要改变往常以教师讲解为主,学生机械地参与的满堂灌模式,直接在实验室采用小班化教学,一次32人,分为四个小组,每个小组都要完成三个级别的实验,保证每个组员都要参与,都有相应的任务,实验内容尽量避免雷同。每次课2个课时,教师进行0.5课时基础理论知识进行透彻地讲解;拿出1个课时让学生进行验证性实验,对基础知识进行实现、验证,并进行组内讨论;剩下的0.5个课时,学生进行综合性实践或创新型实践的讨论、演示、讲解,任课教师进行点评、讲解、指导。学生人手一台实验设备和电脑(或自带笔记本),实验室设备与学生一一绑定,不随意更换,方便理论知识的掌握、实现以及相应软件环境的安装设置等,并改变以往提交纸质实验报告的考核方式,采用分组答辩的形式,每个人讲解展示自己所负责的工作,相互学习、相互进步。这样可以较好的避免抄袭,避免雷同的实验报告,激发学生学习的积极性和自主性,有利于知识的拓展和创新创意实践。
(三)鼓励学生进行应用性创新实践,并为产学研合作及企业实践提供支持
学生在完成多个实践性项目的同时,后续可能要对系统硬件、算法软件进行不断的完善、优化。为了使更多的实践成果走出实验室,贴合实际生产生活,鼓励学生带成果走出去,教师要主动积极联系有机器视觉应用需求的企事业单位,将创新成果与实际企业需求、工业现场要求进行深入沟通与协作,建立稳定的产学研机制。这种机制可以对校内课程体系进行有效扩充和延伸,并对创新实践教学成果进行反馈,更好地贴近实际生产生活需求,做更接地气的实践教学内容改革探索。同时,教师要鼓励学生进行相应专利的申请和论文的撰写,保护好相应的知识产权。
卷积神经网络的缺陷范文4
关键词:小波包变换 超声去噪最佳小波包基
中图分类号:K826.16 文献标识码:A 文章编号:
1 引言
目前,无论在工程应用还是理论研究中,去除信号噪声都是一个热门话题。超声波检测是国内外应用广泛、使用频率很高且发展很快的一种工业无损检测方法。它对所检测材料中的疏松、分层、缝隙等缺陷十分敏感。超声回波或透射波信号中含有大量有关缺陷性质的信息,但由于信号在激励、传输过程中不同程度地受到随机噪声的污染,这些干扰信号会给信号的处理带来误差,严重时甚至会造成缺陷的误检和漏检。所以如何进行降噪处理,从混有噪声的信号中提取反映缺陷本质特征的信号,一直是信号处理中的重要内容。尽管目前有许多降噪算法,如空域复合法、频率复合法、解卷积、自适应滤波、倒谱分析方法、人工神经网络和裂谱分析法等【1】,但是它们中的绝大多数仅在时域或频域分析信号【2】。超声波无损检测信号通常是一种被探头中心频率调制的时频有限的非平稳宽带信号,因此用时频分析中的小波包分解进行信号的降噪处理将十分有效。
2 小波包变换介绍
小波变换(Wavelet transform)是20世纪80年代中期出现的时频域信号分析工具。小波包变换是小波变换的推广,与小波变换相比,小波包变换能够提供一种更加精细的分析方法,即离散小波变换的尺度是二进制变化的,所以在高频频段其频率分辨率差;而在低频频段其时间分辨率差。而小波包分解(WPD) 能够为信号提供一种更加精细的分解方法,它将频带进行多层次划分,对离散小波变换没有细分的高频部分进一步分解,并能够根据被分析信号的特征,自适应选择相应的频带,使之与信号匹配,从而提高了时频分辨率[3,4]。
3 最佳小波包基的选择
由式(1)双尺度方程所定义的函数集合为由基函数确定的小波包[5]。
而从小波包中抽取的能组成L2(R)的一组正交基就称为L2(R)的一个小波包基,对于一个信号的小波包分解可以采用多种小波包基实现,不同的小波包基对信号有不同的分解结果,其结果所能反映出信号的程度也不一样,因此,寻求一组最优的小波基,是能最有效表达一个信号的重要任务。
4 阈值的选择
阈值的选择是去噪处理的关键所在,阈值选大了,有效信号的特征将波滤掉,相反如果阈值选择过小,去噪后的信号中仍然有噪声存在。当然对于阈值的选择已有了多种算法,1995 年,D. L. Dohono 在小波变换的基础上提出了阈值去噪的概念。他提出的非线性小波方法从噪声中提取信号效果明显,并且在概念上也有别于其它方法,其主要思想有局部极大值法、全局单一阈值法和局部SURE 多阈值法。对于Dohono提出的阈值去噪方法,从对变换系数进行阈值处理的方法分又可以分为硬阈值法和软阈值法[6 ]。
由于小波包分解系数在不同频带反映信号的不同特征,很难找到一个统一的阈值算法对各个频带进行处理。因此,文中对于小波包分解过程中在不同频带上的系数用不同的阈值。采用基于Stein无偏似然估计原理的自适应阈值选择,对于每一个门限值,求出与其对应的风险值,使风险最小的门限就是所要选取的门限[7]。
5 应用实例
5.1理论数据分析
为了验证该方法的有效性,利用Matlab语言构建了一扫频信号(图2),图3为加了白噪声的信号,之后利用小波包基降噪方法对其进行消噪处理,由图4可知该方法在进行消噪处理时,在消除噪声时完全恢复了原始信号的相位,这在超声波勘探尤其是速度层析成像中是十分关键的。
经计算信号降噪重建后与原信号的相对均方差RMS分别为: 0. 04192,其相对均方差均不大于5 % ,显然该方法较好地去除了高频噪声干扰,保持了信号中低频信号,且失真较小,是一种较好的降噪方法。另一方面,将加噪声的信号与经过消噪处理的信号进行对比分析,不难发现,由于在计算过程中采用了固定的信号比,该方法在进行消噪的过程中在信噪比较低的首段和尾段不能完全恢复原始信号,并且有效信号中叠加的噪声改变了有效信号的幅值,此时利用该方法对有效信号的幅值进行重构其效果是不理想的。
图2 干净的信号图3 加了白噪声的信号图4 利用小波消噪后的信号
Fig.2 Clean signal Fig.3 Noisy signalFig.4 Denoised signal
5.2实测数据消噪
为验证在超声波数据消噪中的效果,利用骄鹏集团生产的SRS64多通道超声探测系统进行实测数据采集及相关去噪的实验。图5(a)为前放关闭时,叠加两次的记录,采样率为50微秒。为了能够看到信号中叠加的静态噪声,将信号的显示增益调整到-39dB。图5(b)为经过小波包分解去噪后的数据,显示参数保持不变,显然,其噪声被很好的去掉,与常规的滤波方法不同,在消除噪声的干扰的同时没有改变信号的相位,因此,该方法在超声波探测以及地震勘探和探地雷达测试等许多领域均有较好的应用前景。
图5(a)超声波原始数据;(b)小波包去噪之后数据
Fig 5.(a)Data of Ultrasonic.(b)Data of Wavelet packet Denoising.
6 结论
利用最优小波包基的去噪算法,在自适应最佳小波基搜索的基础上,对高频系数和低频系数采用不同的阈值,即保持了信号的特征又有效的将噪声去除,通过模拟信号分析和实测数据检验表明,该方法在超声波数据降噪处理中效果明显,是一种理想的去噪手段。
参考文献
[1] 张贤达.现代信号处理[M].北京:清华大学出版社,1995.
[2]戎丽霞,基于最优小波包基的信号去噪算法,德州学院学报,2005,21(2):72-75
[3]I. Daubechies, The Wavelet Transform, Time-Frequency Localization and Signal Analysis, IEEE Trans. Info. Theory, 36(5): 961-1005, September 1990.
[4] I. Daubechies, Ten Lectures on Wavelets, SIAM, Philadelphia, PA, 1992.
[5] M.M. Goodwin, Adaptive Signal Models, Theory, Algorithms and Audio Applications. Kluwer Acddemic Publishers (1998).
卷积神经网络的缺陷范文5
关键词:人工智能;大数据;交叉领域
自二战时期阿兰•图灵破解恩尼格玛密码机带来胜利的曙光之后,人工智能初见苗头,1956年“人工智能”一词首次由约翰•麦卡锡等科学家在达特茅斯研讨会上提出,时至今日,人工智能经历了60多年的浪潮和洗礼,其中有曙光、有冰封,也有期望。纵观当下,人工智能不仅仅是机器智能,在深度学习和推陈出新的算法推动下,其携手云计算、大数据、卷积神经网络等,攻破了自然语言语音处理、图像识别的瓶颈,像潘多拉的盒子一样在认知科学、机器人学、机器学习等领域全面开花,人工智能涵盖了从基础层、技术层到应用层等多个方面,为人类文明带来了翻天覆地的变化[1-2]。人工智能包罗万象,在其基础上衍生的大数据“洪流”对人类社会的方方面面进行冲击,这些数字的价值已然超越了诸如金钱、财产、黄金、石油,甚至是土地。然而,大数据技术也如同普罗米修斯盗得的圣火,一方面给人间带来温暖和光明,另一方面也有可能使自身被奴役甚至使人葬身火海[3]。因此,当我们沉迷于大数据的海洋中时,我们是否有能力像蓝鲸遨游大海一样自由掌舵,是当今大数据和人工智能时代存在的一个重大问题。是“曲径通幽”还是“会当凌绝顶”,我们如何在大数据中“浮游”,而不是一味地扩充,需要理性看待与合理评价大数据对人类生存和发展的影响。
1.人工智能和大数据与“工业革命”
2020年刚刚结束的新一轮美国总统竞选上演了各种“国家闹剧”,为何特朗普在2016年赢得大选,而4年之后却无法连任?时间推移,2016年他胜利的部分原因在于他利用了面临技术威胁的工业行业中工人们的焦虑,同时指责非法移民对美国及美国人资源和就业机会的占用[4]。但在技术浪潮的挑战中,自动化和人工智能才是占用的“根源”。早在18世纪60年代工业革命时期,机器取代人力,规模化工厂生产取代个体手工生产,即引发了人工智能数据的工业大变革。从机械结构、电气控制等模块的设计和改良,车间机器人的智能化已可以代替人完成生产作业[5]。通过智能化机器人可以减轻劳动负担,还可以用于环境检测[6]和实施救援[7]等,保护我们的人身安全。这些“机器人”在为我们减负的同时确实也引发了“失业危机”,这种现象不仅于美国,日本、韩国和德国亦是如此。我们也许可以形象一下,未来20或30年后,工厂中工伤几乎为“零”,完全实施机器人24小时作业,速度惊人,质量统一,而仅有的几个人使用简单的触摸界面对机器下达“命令”。机器的发展已超乎我们对普通机械的认知,21世纪开发的三大机器人中大狗(BigDog)解决了运动和重载运输问题,特别用于军事领域,被誉为“当前世界上最先进适应崎岖地形的机器人”;亚美尼亚(Asimo)从人类如何移动上展现了机器人仿人运动;Cog具有了人类所特有的思考,由不同处理器组成的异种机互联网络形成了“大脑”。特斯拉——其除了是电动汽车和能源公司外,还是自动驾驶汽车行业的领跑者之一。其2016年已销售具有自动驾驶、自动自制和自动停车功能的电动汽车,但出于法律和伦理层面,驾驶员还是要坐在驾驶位上,但他可以做他想做的其他事,发短信、打电话或是休息,而不再是驾驶汽车。我们可以不用担心酒驾,不用因为时间紧张而疲劳驾驶,不必为新手司机而变得脾气暴躁……汽车自动驾驶将让我们行驶得更规则、更安全和更“无聊”。自动驾驶上的智能进化,使得自驾型派送车为商业化服务成为可能,还有自驾型飞行器也在被研发,通用、宝马、谷歌等公司一直在努力开发,通过无人机在您家门口投送包裹将对电子商务世界带来更多创造性方案。“如果你够走运的话,机器可以把你当成宠物。”虽为戏谑之言,却又饱含心酸。工厂变得越来越自动化,但其仍需要人类专家,他们才知道如何监控传感器,知道在发生故障时如何进行修复,机器的运行离不开人的监控,只有人的思考才能有新产品的诞生以及高效的生产流程,我们与机器共存,是从体力中解放,但要从事脑力工作。
2.人工智能和大数据与金融的未来
“数字蝶变”席卷金融行业各个领域[8],金融行业应用大数据、移动互联网、人工智能等先进信息技术,累积了非常多的客户信息。通过大数据的帮助,金融公司在分析数据下寻找更多的金融创新机会。在商业智能(BI)的辅助下,电信业可以对客服描述和定位及需求进行预测;保险业可以在进行风险分析的同时进行损益判断;银行业可以调整市场活动,建立信贷预警机制等等[9]。人工智能和大数据让金融业形成了“以客户为中心”的模式。与客户最密切的金融即是金钱,但是它们已经被“支付宝”和“微信”以及更多的电子支付方式取代,越来越少的人使用现金,数字金钱是否会完全取代物质金钱,我们很可能会发展为无现金社会。那么首先“下岗”的是谁呢?答案毫无疑问:银行。巴克莱银行前首席执行官安东尼•詹金斯曾预测,对于工业化国家,银行员工和其分支机构在未来10年内会消失;花旗全球视角与解决方案的一项研究预测,美国和欧洲的银行将在未来10年裁减约180万员工;甚至2016年2月的一份丹麦银行家协会新闻稿表示,银行抢劫案数量连续第5年下降。就支付领域而言,在这样的时代背景下,如何利用大数据技术对跨越式发展的支付行业进行监管,成为一个值得深入研究的课题[10]。在人工智能下,我们都有被银行自动回复或自会读取特定问题的“员工”惹恼过。沟通技巧和财务知识同样重要,因此,银行业员工的下岗只是在基础性操作上,对于“专业咨询”,需要更多受过高等教育、具有更好沟通能力的员工。目前,我国的多数银行还没建立“开放、共享、融合”的大数据体系,数据整合和部门协调等问题仍是阻碍我国金融机构将数据转化为价值的主要瓶颈。大数据的整合、跨企业的外部大数据合作不可避免地加大客户隐私信息泄露的风险。有效防范信息安全风险成为商业银行大数据应用中急需解决的问题。
3.人工智能和大数据与“专家系统”
电子病历数据、医学影像数据、用药记录等构成了医疗大数据。医疗数据不仅包括大数据的“4V”特点,即规模大(volume)、类型多样(variety)、增长快(velocity)、价值巨大(value),还包括:时序性、隐私性、不完整性和长期保存性。医疗大数据可以提供预警性,当数据发生异常时,通过一定的机制可以发出警告,从而迅速采取相应措施,及时解决问题[11]。成立于1989年的美国胸外科协会(STS)数据库,至今已经涵盖了美国95%的心脏手术,收集了500万条手术记录[12]。其中的先天性心脏手术(CHSD)数据库是STS数据库的重要组成部分,是北美最大的关注儿童先天性心脏畸形的数据库,被认为是医学专业临床结果数据库的金标准。近年来,基于CHSD数据库所进行的数据挖掘不断增加,大型数据库对提高医疗质量所起到的正向作用正在日益凸显。如Welke等基于CHSD数据库探讨小儿心脏外科病例数量和死亡率之间的复杂关系[13];Pasquali等基于CHSD数据库探讨新生儿Blalock—taussig分流术后的死亡率[14];Jacobs等基于CHSD数据库采用多变量分析方法来研究病人术前因素的重要性[15];Dibardino等基于CHSD数据库采用多变量分析的方法来探讨性别和种族对进行先天性心脏手术结果的影响[16]。这些都是在医疗领域采用人工智能提供的医疗诊断,形成了“专家系统”,专家系统可以说是一种最成功的人工智能技术,它能生成全面而有效的结果。借助医疗大数据的平台,“专家系统”可以智能辅助诊疗、影像数据分析与影像智能诊断、合理用药、远程监控、精准医疗、成本与疗效分析、绩效管理、医院控费、医疗质量分析等。不仅是数据平台,“达芬奇机器人”可以看成医疗的高精尖“人工智能”,它能缩短泌尿外科手术以及术后患者恢复时间,促进患者早期下床活动,减低并发症发生率[17]。达芬奇手术机器人在消化系统肿瘤、泌尿系统肿瘤、妇科肿瘤和心胸部肿瘤等手术中均有运用[18]。正是机器人,还有其他人工智能设备,如插入手表或衣服里的传感器、植入我们皮肤下的芯片,以及智能手机中装有各种“专家系统”的远程医疗、预防医学,甚至是器官的3D打印和虚拟现实治疗等的发展,让医学发生相应的转变,并使其逐步突破人类的传统健康概念,那么是否意味着医学将成为只有科学性,毫无直觉性的学科呢?我们携带的内部传感器和外部应用程序将成为我们的医生吗?“你好,医生”被“嘿,Siri”取代吗?这不尽然。医学必然将是向精准化发展,并更具个性化、参与性、预防性和可预测性。医生不再是疾病的修理工,而是改善我们健康状况的顾问。直观当下,我们还是被“看病难”所困扰,我们提出“分级诊疗”,是在拥有家庭医生、全科医生和专科医生的基础上再加上人工智能,以实现预期的健康监测、辅助诊疗和疾病筛查。
4.人工智能和大数据与教育变革
面对各行业和各学科,教育作为传承文明和创新知识的载体,似乎被排除在人工智能之外。就目前而言,人工智能与教育深度融合发展还存在技术基础不稳、教育数据缺陷、算法能力不足等现实问题[19]。我国目前更想要做到的是在教育上消除“信息鸿沟”,促进教育公平、均衡发展。因此,目前可以看到人工智能的教育多在于语言学习软件,通过虚拟技术和人工智能构建一个灵活的、可扩充的虚拟交互平台,设计多维虚拟场景和智能人工角色,实现不同场景下人机角色的交流和学习,提升学习者的口语能力和语感知识[20]。这使得教师不再是唯一的知识传播者,任何互联网搜索引擎都将提供比教师所有的更多信息,并且可以更快捷地获取。肺炎疫情暴发以来,远程网络教育成了主要教学形式,互联网教育形式其实早在小学、中学和大学中运用,虚拟现实技术在教学领域的研究和探索也在全面展开。谷歌已经开发一款VR纸板视图,并将研发的虚拟课程一起推向市场,使现实生活中在生物课上解剖一只青蛙成为一件容易且有趣的事,通过虚拟青蛙,学生们可以去除心脏和其他器官,而不再是象征性的抽象体验。虚拟现实可以像互动游戏一样,比单一的在教室听老师授课带来更多乐趣和体验,学习效果可能更好。我们的学习是知识的积累,那么教育就是我们的库,荀静等结合自身情况对西安工业大学知识库构建进行探究,认为机构知识库在保存知识资产的同时,更重要的是促进学校知识资产的传播利用和管理,提升学校影响力和学术声誉[21]。刘畅等通过对东北大学机构知识库服务的推广研究,了解到开放获取的概念和实践已经受到了广泛的认可,机构知识库不仅可以成为一个知识的存储库,也可以成为各个学科领域的学者进行在线交流的平台,提供个性化的增值服务,既有利于机构知识库的内容建设,也可以进一步促进学术交流和科研合作[22]。知识库,即大数据的有机整合和有序利用,是学术成果、视频文档、实验数据等进行收集、长期保存、传播和提供开放利用的知识资产管理与教育服务[23]。
5.人工智能和大数据应用的共性需求
人工智能和大数据时代,海量的信息来自“五湖四海”,但都通过互联网络汇聚智能终端。这些数据只会进一步增多,不仅仅是云存储,对于信息的进一步挖掘、处理、分析和利用,目标性结果才是我们最想要的信息。全球包括IBM、微软、谷歌和亚马逊等一大批知名企业纷纷掘金大数据挖掘这一市场,大家都在开拓自己大数据分析平台。数据挖掘是大数据时代孕育的产物[24],是我们的共性需求,与传统的统计分析技术相比,数据挖掘有着自身的本质特征,数据挖掘是在没有明确假设的前提下去挖掘信息并发现知识。数据挖掘所得到的信具有先前未知、有效以及可实用三个特征[25]。数据挖掘的出现不是为了替代传统的统计分析技术,相反,它是统计分析方法学的延伸和扩展[26]。随着信息时代的到来,数据挖掘被越来越多地应用于各个领域。
6.人工智能和大数据的展望
大数据与人工智能相辅相成,在人工智能的加持下,海量的大数据输出优化的结果,使人工智能向更为智能的方向进步,大数据与人工智能的结合将在更多领域中击败人类所能够做到的极限。漫长的人类历史发展和进化,信息和人类一直“缠缠绵绵”“你追我藏”,因此,我们应该明白信息就是信息,我们需要的是“维基百科”,而不是仅仅的“维基”。走出狭隘的信息资源,管理和洞察大数据,才是对数据的有用。因为,我们早已告别了数据库放在一间房间的时代。此刻不得不提蓝鲸法则——大数据之道:了解数据懂得利用数据的“浮力”才是关键;“以简约为目标”将数据最终形成洞察及行为;可以通过“数据”“信息”“知识”流程式、组合式、直通车式各种需要的方式来获取[27],在简约中“印象”处理繁杂的大数据,使之“为我所用”。=数据也是一门科学、一项技术,如果实验不能证明其具有可重复性和一般性,那它是没有科学依据,但是,任何一项科技,如果你坚信它必将改变社会和商业,选择从长期展望其发展并持续付出努力,那么就是一种战略选择[29]。人类社会的政治、经济、文化、思维等固有“态势”被重刷,数据思维将为我们带来一个智能全新的世界观。