卷积神经网络的步骤范例6篇

前言:中文期刊网精心挑选了卷积神经网络的步骤范文供你参考和学习,希望我们的参考范文能激发你的文章创作灵感,欢迎阅读。

卷积神经网络的步骤

卷积神经网络的步骤范文1

黑匣认为,复杂神经网络、LSTMs(长短期记忆网络)、注意力模型(Attention Models)等十大趋势将塑造人工智能未来的技术格局。

上述判断来自NIPS(神经信息处理系统) 2015大会。NIPS始于1987年,是人工智能领域两大重要学习会议之一,由于AI的爆炸式发展,近年来逐渐成为许多硅谷公司必须参加的年度会议。在蒙特利尔召开的NIPS 2015吸引了众多AI学界与业界的顶级专家,与会人数接近4000。大会总共收录了403篇论文,其中深度学习课题约占11%。来自Dropbox的高级软件工程师Brad Neuberg分享了他所注意到的十大技术趋势,黑匣将对每种趋势做了详细分析。

1、神经网络的架构正变得越来越复杂

感知和翻译等大多数神经网络的架构正变得越来越复杂,远非此前简单的前馈神经网络或卷积神经网络所能比。特别需要注意的是,神经网络正与不同的技术(如LSTMs、卷积、自定义目标函数等)相混合。

神经网络是多数深度学习项目的根基。深度学习基于人脑结构,一层层互相连接的人工模拟神经元模仿大脑的行为,处理视觉和语言等复杂问题。这些人工神经网络可以收集信息,也可以对其做出反应。它们能对事物的外形和声音做出解释,还可以自行学习与工作。未来的人工智能,最热门的技术趋势是什么?

(人工模拟神经元试图模仿大脑行为|图片来源:Frontiers)

但这一切都需要极高的计算能力。早在80年代初期,Geoffrey Hinton和他的同事们就开始研究深度学习。然而彼时电脑还不够快,不足以处理有关神经网络的这些庞大的数据。当时AI研究的普遍方向也与他们相反,人们都在寻找捷径,直接模拟出行为而不是模仿大脑的运作。

随着计算能力的提升和算法的改进,今天,神经网络和深度学习已经成为人工智能领域最具吸引力的流派。这些神经网络还在变得更复杂,当年“谷歌大脑”团队最开始尝试“无监督学习”时,就动用了1.6万多台微处理器,创建了一个有数十亿连接的神经网络,在一项实验中观看了千万数量级的YouTube图像。

2、酷的人都在用LSTMs

当你阅读本文时,你是在理解前面词语的基础上来理解每个词语的。你的思想具有连续性,你不会丢弃已知信息而从头开始思考。传统神经网络的一大缺陷便是无法做到这一点,而递归神经网络(RNN)能够解决这一问题。

RNN拥有循环结构,可以持续保存信息。过去几年里,RNN在语音识别和翻译等许多问题上取得了难以置信的成功,而成功的关键在于一种特殊的RNN——长短期记忆网络(LSTMs)。

普通的RNN可以学会预测“the clouds are in the sky”中最后一个单词,但难以学会预测“I grew up in France…I speak fluent French。”中最后一个词。相关信息(clouds、France)和预测位置(sky、French)的间隔越大,神经网络就越加难以学习连接信息。这被称为是“长期依赖关系”问题。未来的人工智能,最热门的技术趋势是什么?

(长期依赖问题|图片来源:CSDN)

LSTMs被明确设计成能克服之一问题。LSTMs有四层神经网络层,它们以特殊的方式相互作用。这使得“能记住信息很长一段时间”可以被视作LSTMs的“固有行为”,它们不需要额外学习这一点。对于大多数任务,LSTMs已经取得了非常好的效果。

3、是时候注意“注意力模型(attention models)了

LSTMs是人们使用RNNs的一个飞跃。还有其他飞跃吗?研究者共同的想法是:“还有注意力(attention)!”

“注意力”是指神经网络在执行任务时知道把焦点放在何处。我们可以让神经网络在每一步都从更大的信息集中挑选信息作为输入。

例如,当神经网络为一张图片生成标题时,它可以挑选图像的关键部分作为输入。未来的人工智能,最热门的技术趋势是什么?

(拥有“注意力”的RNN在图像识别中的成功运用|图片来源:Github)

4、神经图灵机依然有趣,但还无法胜任实际工作

当你翻译一句话时,并不会逐个词汇进行,而是会从句子的整体结构出发。机器难以做到这一点,这一挑战被称为“强耦合输出的整体估计”。NIPS上很多研究者展示了对跨时间、空间进行耦合输出的研究。

神经图灵机(Neural Turing Machine)就是研究者们在硅片中重现人类大脑短期记忆的尝试。它的背后是一种特殊类型的神经网络,它们可以适应与外部存储器共同工作,这使得神经网络可以存储记忆,还能在此后检索记忆并执行一些有逻辑性的任务。未来的人工智能,最热门的技术趋势是什么?

(模仿人类短期工作记忆的神经图灵机|图片来源:arXiv)

2014年10月,Google DeepMind公布了一台原型电脑,它可以模仿一些人类大脑短期工作记忆的特性。但直到NIPS2015,所有的神经图灵机都过于复杂,并且只能解决一些“小玩具”问题。在未来它们或将得到极大改进。

5、深度学习让计算机视觉和自然语言处理不再是孤岛

卷积神经网络(CNN)最早出现在计算机视觉中,但现在许多自然语言处理(NLP)系统也会使用。LSTMs与递归神经网络深度学习最早出现在NLP中,但现在也被纳入计算机视觉神经网络。

此外,计算机视觉与NLP的交汇仍然拥有无限前景。想象一下程序为美剧自动嵌入中文字幕的场景吧。

6、符号微分式越来越重要

随着神经网络架构及其目标函数变得日益复杂和自定义,手动推导出“反向传播”(back propagation)的梯度(gradients)也变得更加苦难而且容易出错。谷歌的TensorFlow等最新的工具包已经可以超负荷试验符号微分式,能够自动计算出正确的微分,以确保训练时误差梯度可被反向传播。

7、神经网络模型压缩的惊人成果

多个团队以不同方法大幅压缩了训练一个良好模型所需的素材体量,这些方法包括二值化、固定浮点数、迭代修剪和精细调优步骤等。

这些技术潜在的应用前景广阔,可能将会适应在移动设备上进行复杂模型的训练。例如,不需要延迟就可以得到语音识别结果。此外,如果运算所需要的空间和时间极大降低,我们就可以极高帧率(如30 FPS)查询一个模型,这样,在移动设备上也可以运用复杂神经网络模型,从而近乎实时地完成计算机视觉任务。

8、深度学习和强化学习继续交汇

虽然NIPS 2015上没有什么强化学习(reinforcement learning)的重要成果,但“深度强化学习”研讨会还是展现了深度神经网络和强化学习相结合的前景。

在“端对端”(end-to-end)机器人等领域出现了令人激动的进展,现在机器人已经可以一起运用深度和强化学习,从而将原始感官数据直接转化为实际动作驱动。我们正在超越“分类”等简单工作,尝试将“计划”与“行动”纳入方程。还有大量工作需要完成,但早期的工作已经使人感到兴奋。

9、难道你还没有使用批标准化?

批标准化(batch normalization)现在被视作评价一个神经网络工具包的部分标准,在NIPS 2015上被不断提及。

卷积神经网络的步骤范文2

关键词:无人机 双目视觉 机器学习 姿态识别

中图分类号:TP391.41 文献标识码:A 文章编号:1007-9416(2016)10-0048-02

无人机的姿态测量方法可分两大类:一是在无人机上装载传感器,如陀螺仪、GPS等,把相关的数据传回地面处理,即所谓的遥测法,它的优点是可以不受空间的限制,但精准度会大大降低。本文采用基于双目视觉的无人机姿态测量方法, 采用全站仪和图像采集装置构建系统,利用全站仪数据进行三维标定,图像采集装置对无人机进行三维重建,利用双目直线原理重构机身、机翼的空间直线向量,再根据直线向量算出姿态参数,该方法具有精度高、适用范围高等特点。

1 系统设计概述

本设计利用四台全高清的摄像头、全站仪、时间同步器及PC终端组成。系统由四台摄像头分别处于边长为5米的矩形场地的(我给你新加的文字)四个角中,用以(我给你新加的文字)采集视频数据,再由全站仪提供的相关角度矢量参数,通过计算得出系统所需要测量的姿态参数:偏航角、俯仰角及翻滚角。最后把这些参数存储到数据库中,并进行BP神经网络算法机器学习,让该系统具有(新加)能够二次识别飞行目标参数的能力。该系统能广泛应用于无人机的主动测量领域,即不需要在无人机上安装传感器,也能够准确识别无人机的姿态参数,应用方便、快捷。

2 姿态参数计算分析

步骤一:利用双目视觉原理,对飞行物体进行三维姿态恢复。

步骤二:分离目标和背景。对飞行物体进行数字信息提取。统计每帧图像像素分布直方图,设此时像素分布直方图的灰度分布为gmin及gmax,在gmin及gmax中选择较合适的灰度值g作为分割的阈值,去分离目标和标景。

步骤三:分离机身及机翼。在做实验前,对飞机进行如下处理:机翼与机身处涂上不同的颜色。获取视频信息后利用直方图对灰度进行分析,把两者分离出来,并分别对两者信息进行存储。

步骤四:对机身进行边缘检测处理,构建直线向量。

(1)选用的是Sobel算子来对其图像进行检测。Sobel算子模板分为水平模板及垂直模板,利用此模板在每帧上的像素去卷积,那么就可以得到机身的边缘轮廓线段。(2)构建机身直线向量。利用双目摄像头在空间交汇产生直线,可构建直线向量。如图2所示,对于任两个摄像机,无人机在其摄像头所投影的图像平面分别为S1、S2,两摄像头在空间所形成的平面相交即会产生一直线,可以利用这一原理来计算机身直线向量。

本系统采用的是四台摄像机,可以排除更大的干扰,因此,可以利用构建一个关于的集合,为:

式中指的是摄像机的台数。

步骤五:对图像的机翼处理。图像的机翼部分可看作为梯形。由上述,利用Hough Transform进行边缘检测,求飞行目标的前后翼边缘,设其在图像坐标系下的直线方程为:

由上式,可以算出点’

由上述求的两点,就可以算出此机翼在图像坐标系下的直线方程:

同理,利用双目系统中两两图像平面相交可求得机翼向量

步骤六:利用构建的空间向量计算姿态参数。参数推导如下:

由向量得出:

3 实验

3.1 数据准备

准备的数据为训练集及测试集,里面的数据包括特征数据及样本标签。

训练集便是双摄像头采集到的视频数据,通过数字图像处理,提取图像的特征数据存储。测试数据集表示二次提取图像信息时所得到的图像特征信息,二者都需过相同的处理,所得的参数求法是一样的。

特征数据是根据双目视觉分析的图像的特征数据,这里选用了周长像素点总数、奇数链码数目、高度、宽度、周长目标面积、矩形度、伸长度、及七个不变距特征。

3.2 训练结果与分析

根据上述算法,对1241组特征数据进行训练,为了结果更为准确,本文从测试的的数据中拿了一部分数据作为输入的训练,这里取训练组的数据1000组,测试的数据241组。经过BP神经网络算法后,对测试的数据进行了测试,为了结果的显示,只从测试数据中随机抽出50组数据对训练结果进行测试。

图1中黑色空白圈表示测试的值,星点表示神经网络学习后所得的理想值。可以看出相对于某点的测试值与理想值相拟合程度相对较高,也就是说,在一定的范围内,系统可以正常测量无人机的姿态参数。但也有部分数据拟合程度不太好,这和实验设备及机器学习的算法都有很大的关系。

如图2所示,BP网络预误差图中可以看出,把测试样本增大到100个,测量误差也控制在30%之内,所以,系统具有一定的稳定性。

4 结语

本文论述了基于双目视觉的无人机姿态测量系统,该系统通过四台摄像头读取无人机数据,利用双目视觉系统对无人机三维形态进行恢复,通过数字图像处理技术提取无人机的特征信息并进行存储。首先利用直方图法分离背景及无人机,再分离无人机的机翼及机身信息,并分别进行数据存储。其次利用空间两图像平面相交得出了无人机的机身、机翼向量,然后利用这些向量进行了姿态参数的计算。最后把无人机的特征参数及姿态参数做上相应的标签,让其进行机器学习。由实验得出,该系统具有二次识别无人机姿态的能力,且此系统比较稳定。但由于实验设备及算法原因,该系统还存在一定的误差,但大部分数据误差率保持在30%内。

参考文献

[1]苏国中.基于光电经纬仪影像的飞机姿态测量方法研究[J].武汉大学,博士论文,2005.

[2]H.Mostafavi,M.A. Streicker.Rigid body attitude estimation from a single view.[J] SPIE Ultrahigh-and High- speed Phot ography,videography,and Phot oni cs,1992,290-297.

卷积神经网络的步骤范文3

关键词: 受限玻尔兹曼机; 深度模型; 隐藏单元; 学习方法

中图分类号:TP391 文献标志码:A 文章编号:1006-8228(2014)11-10-04

RBM learning method comparison

Lu Ping, Chen Zhifeng, Shi Lianmin

(Dept. of Information, Suzhou Institute of Trade & Commerce, Suzhou, Jiangsu 215009, China)

Abstract: With the deep learning on the breakthrough of models, algorithms and theory studies, models based on Boltzmann machine have been used in many areas in recent years, such as target recognition and natural language processing. The concept of Boltzmann machine is presented. The restricted Boltzmann machine's advantage is also pointed out. In this paper, the learning method of RBM is described in detail and some typical learning algorithms widely used are compared. The study on learning algorithms will still be a core issue in deep learning area.

Key words: RBM; depth model; hidden units; learning method

0 引言

当前深度学习(deep learning)作为机器学习中新兴的代表,由于其具有能够处理大规模的数据、自动提取有意义的特征、完成数以百万计的自由参数的学习等诸多浅层模型所无法匹敌的能力,而受到各领域的广泛关注。目前深度学习模型已经被逐渐应用于图像分类、目标识别、自然语言处理、数据挖掘等各类应用中。当前的深度模型,如深度信念网络(deep belief net,DBN)、深度玻尔兹曼机(deep Boltzmann machine, DBM)等均采用的是由受限玻尔兹曼机(restricted Boltzmann machine,RBM)堆叠而成。在RBM中,可见层各单元之间与隐藏层各单元之间无连接的拓朴结构使得其模型相对简单,参数学习相对容易,因此使用RBM作为构建深度模型的基础结构单元成为研究人员的最佳选择。虽然深度学习模型还有堆叠自动编码器(stacked auto encoders)、卷积神经网络(convolutional neural net,CNN)等,但由于以RBM为核心的结构在深度模型中占据着核心的地位,因此本文主要关注于RBM的模型结构与其中的学习方法。

1 玻尔兹曼机概述

1.1 玻尔兹曼机

玻尔兹曼机(Boltzmann machine, BM)是源于物理学的一种基于能量函数的建模方法,能够描述变量的高层相互作用。虽然BM中学习算法复杂,但其模型与算法有完备的物理解释与数理统计理论基础。Hinton与Sejnowski最早将BM模型引入人工神经网络中,用于自动提取数据的内在特征表示。将BM作为单层反馈网络时,具有与Hopfield网络类似的对称权值,且每个单元与自已无连接。网络由可见层与隐藏层组成,对应的网络节点也可以分为可见单元(visible unit)与隐藏单元(hidden unit),每个单元不存在自回路,图1给出了BM的示意图。

图1 BM模型结构示意图

由于其中样本分布服从玻尔兹曼分布故命名为BM ,BM由二值单元构成,各单元的状态随机,且只可取0或1两种状态,1指代单元处于激活(on)状态,0则指代此单元处于断开(off)状态。由于每个单元仅有2种状态si={0,1},因此网络的总的能量函数为:

其中wij为神经元i与j之间的连接权重,θi为神经元i的阈值。神经元i状态为0与1所产生的能量的差值则可表示为:

si=1的概率为:

其中T为系统的温度。相应的,si=0的概率则为:

由式(3)/式(4)可得:

进一步将上式推广到网络中任意两个全局状态α与β,有:

此即为玻尔兹曼分布的表达式。

1.2 受限玻尔兹曼机

由于BM的模型结构复杂,学习时间很长,而且无法确切地计算BM所表示的分布,甚至获得BM表示分布的随机样本也非常困难。为此,Smolensky提出了受限玻尔兹曼机(restricted Boltzmann machine, RBM)模型,其结构如图2所示。与一般BM相比,RBM具有更优的性质:在给定可见层单元输入时,各隐藏层单元的激活条件独立;反之亦然。这样尽管RBM所表示的分布仍无法有效计算,但却可以通过Gibbs采样获得服从RBM分布的随机样本。

图2 RBM模型结构示意图

RBM也可以被看作为一个无向图(undirected graph)模型,其中v为可见层,用于表示输入数据,h为隐藏层,可以看作为特征提取器,W为两层间对称的连接权重。若一个RBM中可见层单元数为n,隐藏层单元数为m,用向量V与h分别表示可见层与隐藏层的状态,当状态(v,h)给定时,与BM类似,则RBM中的能量定义为:

其中wij为可见单元i与隐藏单元j之间的连接权重,ai为可见单元i的偏置,bj为隐藏单元j的偏置。θ={wij,ai,bj}指代RBM中所有参数集。当θ确定时,则可根据式⑺的能量函数获得(v,h)的联合概率为:

其中z(θ)为保证P(v,h|θ)成为概率分布的归一化项,也称为划分函数。若可见单元服从某种概率分布,根据RBM的给定可见单元时各隐藏单元激活状态独立的条件,可获得隐藏单元为1的条件概率为:

同理,若令隐藏单元服从某种概率分布,可见单元向量v为1的条件概率分布为:

(10)

因此可以获得在给定可见单元向量v时隐藏单元j的条件概率及给定隐藏单元向量h时可见单元i为1的条件概率分布为:

(11)

其中,为sigmoid激活函数。

2 RBM中的学习

为了学习RBM中的参数集θ,以拟合给定的训练数据,可以通过最大化RBM在训练集上的对数似然函数而获得,假设训练集中样本数为T,有:

(12)

这样获得最优的参数θ*则可以采用随机梯度上升法求得使的最大值,为此,对logP(v(t)|θ)求参数θ的偏导数有:

(13)

其中为求关于分布P的数学期望。由于训练样本已知,所以上式中前一项期望易求得,但对于P(h,v|θ)需要求得隐藏单元与可见单元的联合分布,由于划分函数Z(θ)的存在,无法直接计算,而只能采用一些采样方法获得其近似值。若分别用与指代P(h|v(t),θ)和P(h,v|θ)分布,则对式(13)中关于连接权重Wij,可见单元偏置ai和隐藏单元偏置bj的偏导数分别为:

(14)

RBM的学习过程可以分为正阶段与负阶段两个步骤。在正阶段,可见单元状态取训练输入样本值,经采样得到隐藏单元。在负阶段中,从当前模型采样得到可见单元与隐藏单元状态,重建可见单元状态。BM的学习即通过调节连接权重,使得模型定义的概率分布P-(va)与训练样本集定义的概率P+(va)一致,如果采用K-L散度度量两个概率的近似程度:

(15)

当且仅当P+(va)=P-(va)时,G=0,即两个分布完全一致。这样可以通过不断调节连接权重来使模型确定的概率分布与数据概率分布的K-L散度尽可能接近。RBM的学习步骤如下:

⑴ 随机设定网络的初始连接权重wij(0)与初始高温;

⑵ 按照已知概率P(va)依次给定训练样本,在训练样本的约束下按照SA算法运行网络到平衡状态,统计,同样在无约束条件下按同样的步骤运行网络相同次数,统计;

⑶ 修改各个连接权重:wij(k+1)=wij(k)+Δwij。

重复上面的步骤,直到-小于某个阈值,获得合适的权重。

3 RBM学习方法对比

当前在对RBM的研究中,典型的学习方法有Gibbs采样(Gibbs sampling)算法,变分近似方法(variational approach),对比散度 (contrastive divergence,CD)算法,模拟退火 (simulate annealing) 算法等。下面对这些方法进行对比。

3.1 Gibbs采样算法

Gibbs采样(Gibbs sampling)算法是一种基于马尔可夫链蒙特卡罗(Markov Chain Monte Carlo, MCMC)策略的采样方法。给定一个N维的随机向量X=(X1,X2,…,XN),若直接求取X的联合分布P(X1,X2,…,XN)非常困难,但如果可以在给定其他分量时,求得第k个分量的条件分布P(Xk|Xk-),其中Xk-=(X1,X2,…,Xk-1,Xk+1,…,XN)指代排除Xk的其他N-1维的随机向量,则可以从X的一个任意状态[x1(0),x2(0),…,xk(0)]开始,利用条件分布,对各分量依次迭代采样。随着采样次数增加,随机变量[x1(n),x2(n),…,xk(n)]将会以几何级数的速度收敛于联合分布P(X1,X2,…,XN)。在训练RBM的迭代过程中,可以设置一个收敛到模型分布的马尔可夫链,将其运行到平衡状态时,用马尔可夫链近似期望值。

使用Gibbs采样算法具有通用性好的优点,但是由于每次迭代中都需要马尔可夫链达到极限分布,而Gibbs采样收敛度缓慢,需要很长的时间,因此也限制了其应用。

3.2 变分方法

变分方法(variational approach)的基本思想是通过变分变换将概率推理问题转换为一个变分优化问题。对于比较困难的概率推理问题,对应的变分优化问题通常也缺乏有效的精确解法,但此时可以对变分优化问题进行适当的松弛,借助于迭代的方法,获得高效的近似解。在变分学习中,对每个训练样本可见单元向量v,用近似后验分布q(h|v,μ)替换隐藏单元向量上的真实后验分布p(h|v,θ),则RBM模型的对数似然函数有下面形式的变分下界:

(16)

其中H(・)为熵函数。

使用变分法的优势在于,它能够在实现最大化样本对数似然函数的同时,最小化近似后验分布与真实后验分布之间的K-L距离。若采用朴素平均场方法,选择完全可因式分解化的分布来近似真实后验分布:,其中q(hj=1)=μj,训练样本的对数似然函数的下界有如下的形式:

(17)

采用交替优化的方式,首先固定参数θ,最大化上式学习变分参数μ,得到不平均场不动点方程:

(18)

接下来,再给定变分参数μ,采用Gibbs采样法与模拟退火方法等其他方法更新模型参数θ。在实际使用中,使用变分方法能够很好地估计数据期望,但由于式(17)中的负号会改变变分参数,使得近似后验分布与真实后验分布的K-L距离增大,因此将其用来近似模型期望时不适用。

3.3 对比散度算法

对比散度(contrastive divergence, CD)学习方法由Hinton提出,能够有效地进行RBM学习,而且能够避免求取对数似然函数梯度的麻烦,因此在基于RBM构建的深度模型中广泛使用。CD算法使用估计的概率分布与真实概率分布之间K-L距离作为度量准则。在近似的概率分布差异度量函数上求解最小化。执行CD学习算法时,对每个批次的各训练样本运行n步Gibbs采样,使用得到的样本计算。则连接权重的CD梯度近似为:

(19)

其中pn为n步Gibbs采样后获得的概率分布。通常在使用中只需要取n=1即可以进行有效的学习,因此在使用中较为方便。但CD算法随着训练过程的进行与参数的增加,马尔可夫链的遍历性将会下降,此时算法对梯度的近似质量也会退化。

3.4 模拟退火算法(Simulated Annealing)

模拟退火算法是对Gibbs采样算法的改进,由于Gibbs采样收敛速度缓慢,因此模拟退火算法采用有索引温度参数的目标分布进行采样,其核心思想是模拟多个不同的温度并行运行多个MCMC链,每个MCMC链在一个有序序列温度ti上,且t0=1

4 结束语

随机深度神经网络的兴起,借助RBM来学习深层网络逐渐成为了研究的主流,作为深度网络的基础单元结构―RBM,也成为深度学习领域中的核心,它为人们解决各类问题提供了一种强有力的工具。本文对RBM的基本模型进行简要介绍,并对RBM的各种学习方法进行对比分析。目前RBM的各种学习算法仍各有利弊,尚未有满足各种场合要求的学习方法。因此,进一步研究如何有效减少计算复杂性,简化网络拓扑结构,以及快速有效的RBM学习方法仍将在深度学习模型中占据重要的地位。

参考文献:

[1] 李海峰,李纯果.深度学习结构和算法比较分析[J].河北大学学报(自

然科学版),2012.32(5):538-544

[2] Salakhutdinov R, Hinton G E. An efficient learning procedure for

deep Boltzmann machines[J]. Neural Computation,2012.24(8):1967-2006

[3] 孙志军,薛磊,许阳明,王正.深度学习研究综述[J].计算机应用研究,

2012.29(8):2806-2810.

[4] 郑胤,陈权峰,章毓晋.深度学习及其在目标和行为识别中的新进展[J].

中国图象图形学报,2014.19(2):175-184

[5] 程强,陈峰,董建武,徐文立.概率图模型中的变分近似推理方法[J].自

动化学报,2012.38(11):1721-1734

[6] Geoffrey E. Hinton,Simon Osindero,Yee-Whye T eh. A fast

learning algorithm for deep belief nets[J]. Neural Computation,2006.18(7):1527-1554

[7] Ruslan Salakhutdinov,Geoffrey Hinton. Deep Boltzmann Machines[J].

JMLR W&CP,2009.5:448-455

卷积神经网络的步骤范文4

    可以看出,krisch算子的运算量比较大。其次在边缘检测中边缘定位能力和噪声抑制能力方面,有的算子边缘定位能力强,有的抗噪声能力比较好:roberts算子利用局部差分算子寻找边缘,边缘定位精度较高,但容易丢失一部分边缘,同时由于没经过图像平滑计算,不能抑制噪声。该算子对具有陡峭的低噪声图像响应最好;sobel算子和prewitt算子都是对图像进行差分和滤波运算,差别只是平滑部分的权值有些差异,对噪声具有一定的抑制能力,不能完全排除检测结果中出现伪边缘。这两个算子的边缘定位比较准确和完整,但容易出现边缘多像素宽。对灰度渐变和具有噪声的图像处理的较好;krisch算子对8个方向边缘信息进行检测,因此有较好的边缘定位能力,并且对噪声有一定的抑制作用,该算子的边缘定位能力和抗噪声能力比较理想;laplacian算子是二阶微分算子,对图像中的阶跃型边缘点定位准确且具有旋转不变性即无方向性。但该算子容易丢失一部分边缘的方向信息,造成不连续的检测边缘,同时抗噪声能力比较差,比较适用于屋脊型边缘检测(将在第3节中讨论)。 2.2  最优算子     最优算子又可以分为马尔算子(log滤波算子)、坎尼(canny)边缘检测、曲面拟合法。 torre和poggio[5]提出高斯函数是接近最优的平滑函数,marr和hildreth应用gaussian函数先对图像进行平滑,然后采用拉氏算子根据二阶导数过零点来检测图像边缘,称为log算子。对于log算子数学上已经证明[6],它是按照零交叉检测阶跃边缘的最佳算子。但在实际图像当中,高斯滤波的零交叉点不一定全部是边缘点,还需要进一步确定真伪[7];坎尼把边缘检测问题转换为检测单位函数极大值问题,根据边缘检测的有效性和定位的可靠性,研究了最优边缘检测器所需的特性,推导出最优边缘检测器的数学表达式。与坎尼密切相关的还有deriche算子和沈俊算子,它们在广泛的意义下是统一的;曲面拟合的基本思想是用一个平滑的曲面与待测点周围某邻域内像素的灰度值进行拟合,然后计算此曲面的一阶或二阶导数。该方法依赖于基函数的选择,实际应用中往往采用低阶多项式。 2.3  多尺度方法     早期边缘检测的主要目的是为了处理好尺度上的检测和定位之间的矛盾,忽略了在实际图像中存在的多种干扰边缘,往往影响到边缘的正确检测和定位。     rosenfeld等[8]首先提出要把多个尺寸的算子检测到的边缘加以组合;marr倡导同时使用多个尺度不同的算子,并提出了一些启发性的组合规则。这一思想后来经witkin等发展成了尺度空间滤波理论,说明了不同尺度上的零交叉的因果性;lu jain对二维信号进行了类似的研究;yuille和poggio证明了对于任意维信号,当用高斯函数滤波时,尺度图中包含了数目最小的零交叉,并且可以由粗到细地跟踪这些零交叉。     多尺度信号处理不仅可以辨识出信号中的重要特征,而且能以不同细节程度来构造信号的描述,在高层视觉处理中有重要的作用。     其中小波变换是近年得到广泛应用的数学工具。与傅立叶变换和窗口傅立叶变换相比,小波变换是时间和频率的局域变换,因而能有效地从信号中提取信息,它通过伸缩和平移等运算功能对函数或信号进行多尺度细化分析,解决了傅立叶变换不能解决的很多困难问题,因而被誉为“数学显微镜”。信号突变点检测及由边缘点重建原始信号或图像是小波变换应用的一个很重要的方面。 从边缘检测的角度看,小波变换有以下几个优点:     (1)小波分解提供了一个数学上完备的描述;     (2)小波变换通过选取合适的滤波器,可以极大地减小或去除所提取的不同特征之间的相关性;     (3)具有“变焦”特性:在低频段可用高频分辨率和低时间分辨率;在高频段可用低频分辨率和高时间分辨率;     (4)小波变换可通过快速算法来实现。     文献[9]提出了一种基于层间相关性的小波边缘检测算法,依据的是信号主要分布在低频部分或低尺度部分,而噪声分布于高频部分或高尺度部分的特点。另外小波变换具有较强的去相关性,变换后的小波系数之间仍然存在大量的相关性质,即小波系数在不同分辨率下的对应系数之间具有较强的相关性或称层间的相关性。通过对比该方法能够较好多的防止噪声干扰,又能有效地保留图像边缘。 2.4  自适应平滑滤波方法     该方法是边缘检测的一个重要方法[10],无论是对于灰度图象处理还是距离图像和平面曲线处理都是非常有效的。它的优点是:     (1)平滑滤波的迭代运算使信号的边缘得到锐化,此时再进行边缘检测,可以得到很高的边缘定位精度;     (2)通过自适应迭代平滑,实现了将高斯平滑之后的阶跃边缘、屋顶状边缘和斜坡边缘都转化为理想的阶跃边缘,提高了图像的信噪比;     (3)经过多次迭代运算,图像按边缘分块实现自适应平滑,但不会使边缘模糊;     (4)应用自适应平滑滤波得到一种新的图像尺度空间描述。 2.5  其他方法     近年来随着模糊数学、神经网络的发展,人们不断探索将其应用于图像的边缘检测中。文献[11]和[12]依据模糊理论讨论了边缘检测算法的抗噪性和检测速度问题,并证明了模糊集合理论能较好地描述人类视觉中的模糊性和随机性;应用人工神经网络提取图像边缘成为新的研究分支,目前已提出了很多算法,具有计算简单功能强的特点,但是速度慢,稳定性差。但是神经网络边缘检测可以避免自适应确定阈值的问题,具有较好的容错性和联想功能。 2.6  边缘检测的步骤     边缘检测分为彩色图像边缘检测和灰度图像边缘检测两种,由于彩色图像有八种彩色基,在边缘检测时选用不同的彩色基将直接影响实时性、兼容性和检测效果,因此本文只限于灰度图像的边缘检测研究,其步骤如图2.1所示。

   

其中边缘定位是对边缘图像进行处理,以得到单像素宽的二值边缘图像,通常使用的技术是阈值法和零交叉法。边缘定位后往往存在一些小的边缘片断,通常是由于噪声等因素引起的,为了形成有意义的边缘需要对定位后的边缘进行链接。通常有两种算法:局部边缘链接和全局边缘链接。 3  边缘模型的分类及性能分析     本小节从边缘检测“两难”问题出发,总结了实际图像中可能出现的七种边缘类型,并分别给出了数学模型描述,最后分析比较了不同边缘类型表现出的特性及不同类型的边缘定位与平滑尺度的关系。 3.1  边缘检测的“两难”问题     首先来了解一下边缘检测的常用定义[13]:边缘检测是根据引起图像灰度变化的物理过程来描述图像中灰度变化的过程。引起图像灰度不连续性的物理过程可能是几何方面的(深度的不连续性、表面取向、颜色和纹理的不同),也可能是光学方面的(表面反射、非目标物体产生的阴影及内部倒影等)。这些景物特征混在一起会使随后的解释变得非常困难,且实际场合中图像数据往往被噪声污染。信号的数值微分的病态问题:输入信号的一个很小的变化就会引起输出信号大的变化。令 f(x)为输入信号,假设由于噪声的影响,使 f(x)发生了一个很小的变动:               式(3.1)     其中 ε<<1。对式(3.1)两边求导数则:          式(3.2)     由式(3.2)可以看到,若w足够大,即噪声为高频噪声时,会严重影响信号  f(x)的微分输出,进而影响边缘检测的结果。为了使微分正则化,则需要先对图像进行平滑。然而图像平滑会引起信息丢失,并且会使图像平面的主要结构发生移位。另外若使用的微分算子不同,则同一幅图像会产生不同的边缘,因此噪声消除与边缘定位是两个相互矛盾的部分,这就是边缘检测中的“两难”[14,15]。 3.2  边缘分类及性能分析     图像中的边缘通常分为:阶跃边缘、斜坡边缘、三角型屋脊边缘、方波型屋脊边缘、楼梯边缘、双阶跃边缘和双屋脊边缘[1]。     (1)阶跃边缘     模型为: f(x)=cl(x) ,其中 c>0为边缘幅度, 为阶跃函数。若存在噪声,可以选用大尺度的模板平滑图像,不会影响边缘的定位。     (2)斜坡边缘     理想的斜坡边缘模型为:,其中s为边缘幅度,d为边缘宽度。斜坡边缘的检测不仅跟尺度有关,还与边缘本身的宽度有关,若边缘宽度比较小,则在小的平滑尺度下也能检测到边缘;无论是检测极值点还是过零点,边缘的定位都没有随着尺度的变化而变化。因此,对于斜坡边缘若存在噪声,可以选用大尺度的模板平滑图像。而不会影响到边缘定位。     (3)三角型屋脊边缘     模型为:,其中s为边缘幅度,d为边缘宽度。对于三角型屋脊边缘若存在噪声可以选用大尺度的平滑模板,而不会影响边缘的定位。     (4)方波型屋脊边缘     方波型屋脊边缘的模型为:,其中s为边缘幅度,d为边缘宽度。对于方波型屋脊边缘检测,不仅与平滑尺度有关,还与边缘宽度有关,若存在噪声,可以选用大尺度的平滑模板,而不会影响边缘的定位。     (5)楼梯边缘     楼梯边缘模型为:,其中c1、c2、l均为常数。这种检测的特点是平滑后的楼梯边缘不能准确定位,必须对检测到的边缘位置进行移位校正。     (6)双阶跃边缘     双阶跃边缘与方波型屋脊边缘相同,不同之处为:双阶跃边缘的边缘点为x=-d/2与 x=d/2,而方波型屋脊边缘的边缘点为 x=0。双阶跃边缘的两个边缘点通过检测一阶导数的两个极值点和二阶导数的两个过零点获得。因此对于双阶跃边缘大尺度下不能准确定位,必须对检测到的边缘位置进行移位校正。     (7)双屋脊边缘     模型为:,     其中:

卷积神经网络的步骤范文5

Abstract: Image enhancement is a fundamental and important technology in image processing field. So fundamental theory and some newapproaches aboutimage enhancement have been introducedin this paper.

关键词:图像增强;空间域图像增强技术;频域图像增强技术

Key words: image enhancement;image enhancement technology in spatial domain;image enhancement technology in frequency domain

中图分类号:TP391.41文献标识码:A文章编号:1006-4311(2010)19-0124-01

1图像增强的研究意义

图像增强是数字图像处理的最基本的方法之一,它是为了改善视觉效果或便于人或机器对图像的分析理解,根据图像的特点或存在的问题,以及应用目的所采取的改善图像质量的方法或加强图像的某些特征的措施。

2图像增强的研究现状

由于图像增强技术现在还没有通用的算法,因此图像增强技术根据各种不同目的而产生了多种算法,最常用的即 “空间域”方法和“频率域”方法[1]。随着数学各分支在理论和应用上的逐步深入,使得数学形态学、模糊数学、遗传算法、小波理论等在图像增强技术中的应用取得了很大进展,产生了不少新的算法。如数学形态滤波器,基于模糊数学的滤波方法,基于遗传算法的滤波方法,小波滤波器等。

3图像增强的基本理论

图像增强技术主要包括:灰度变换,直方图修正,图像平滑,图像锐化及彩色增强等。从图像增强的作用域出发可分为两类:①空域处理法;②频域处理法。

3.1 空间域图像增强技术空间域指的是平面本身,空间域图像增强方法是对图像的像素进行处理。可以定义为:

g(x,y)=T[f(x,y)](1)

其中,f(x,y)是输入图像,g(x,y)是处理后的图像,T是对f的一种操作。 空间域图像增强技术又可分为点处理和邻域处理。

3.1.1 点处理技术

3.1.1.1 灰度变换灰度变换可使图像动态范围增大,图像对比度扩展,图像变清晰,特征明显,是图像增强的重要手段之一。①线性变换。如果原图像f(x,y)的灰度范围是[m,M],我们希望变换后的图像g(x,y)灰度范围是[n,N],那么可以用式(2)来完成这一变换:g(x,y)=(N-n)[f(x,y)-m]/(M-m)+n(2)

②分段线性变换。为了突出感兴趣的目标或灰度区间,相对抑制那些不感兴趣的灰度区间,可采用分段线性变换。其数学表达式如下:

g(x,y)=kf(x,y)+b;0f(x,y)f1;k1=kf(x,y)+b;f

③非线性灰度变换。当使用某些非线性转换函数(例如对数函数、幂指数函数等)作为式(1)的变换函数时,可以实现图像灰度的非线性变换。

3.1.1.2 直方图修整法①直方图均衡化。②直方图规定化。

3.1.2 邻域处理技术空域滤波是在图像空间借助模板进行邻域操作完成的,它根据功能分成平滑和锐化两类。

3.1.2.1 图像平滑一幅原始图像在其获取和传输等过程中,会受到各种噪声的干扰,使图像质量下降。为了抑制噪声改善图像质量所进行的处理称图像平滑或去噪。常用的有局部平滑法和中值滤波法。

3.1.2.2 图像锐化在图像的识别中常需要突出边缘和轮廓信息。图像锐化就是增强图像的边缘或轮廓。①梯度锐化法。图像锐化法最常用的是梯度法。 对于图像f(x,y),在(x,y)处的梯度定义为:grad(x,y)ff= (4)

对于离散图像处理而言,常用到梯度的大小,因此把梯度的大小习惯称为“梯度”。并且一阶偏导数采用一阶差分近似表示,即:

f=f(x+1,y)-f(x,y)f=f(x,y+1)-f(x,y)(5)

为简化梯度的计算,经常使用:

grad(x,y)=Max(│f│,│f│)

或grad(x,y)=Max(│f│+│f│)(6)

除梯度算子以外,还可采用Roberts、Prewitt和Sobel 算子计算梯度,来增强边缘。

②高通滤波法。高通滤波法就是用高通滤波算子和图像卷积来增强边缘。常用的算子有:H1= 0-10-15-1 0-10H2=-1-1-1-1 9-1-1-1-1

3.2 频域图像增强技术频域(变换域)图像增强操作的基本原理都是让图像在变换域某个范围内的分量受到抑制而让其他分量不受影响,从而改变输出图像的频率分布,达到增强的目的。在频率域中进行增强的主要步骤有[2]:①计算需增强图像的傅里叶变换;②将其与一个(根据需要设计的)传递函数进行卷积;③将结果进行傅立叶反变换以得到增强的图像。

3.2.1 低通滤波器对图像作傅氏变换得到它的频谱,零频率分量等于图像的平均灰度,平滑的图像信号在频域中贡献低频分量,图像中的细节和边界贡献较高频域的分量,噪声的频谱具有丰富的高频分量。

3.2.2 高通滤波器图像的区域边界和细节提供较高频率的能量,因此在频域中让图像信号经过一高通滤波器可以实现图像的锐化,增强图像的边缘细节。

4结束语

随着图像增强技术在各个不同领域的应用,出现了多种图像增强的算法。这些算法各有其优缺点,目前涉及到的大部分非线性滤波算法都是针对特定图像或特定噪声提出的,也就是说,是基于它们的统计特性提出的滤波方案。但是,在实际处理中,自然图像的多样性和噪声本身的复杂性决定了这些滤波算法不可能对所有图像滤波效果均为最佳,所以,那些事先不需要知道图像和噪声统计特性的非线性滤波机制将会得到很广泛的应用:比如自适应滤波器和各种基于神经网络和模糊理论具有自组织、自学习等能力的滤波器的应用和研究将会得到更大的发展。这些滤波图像增强技术也是目前研究的重点。

参考文献:

[1]孙即祥.图像处理.北京:科学出版社,2004.

卷积神经网络的步骤范文6

【关键词】3D打印;马尔可夫随机场;建筑结构

0 引言

3D打印,是快速成型技术的一种,它是一种以三维设计软件数据为基础,运用液体、粉末等可粘合材料,通过逐层累加的方式来构造物体的技术[1]。以具有周期短、成本低、操作简单、精准度高为特点的3D打印技术的发展与逐渐成熟,是第三次工业革命的重要标志之一[2]。

本文结合3D打印技术的主要特点,介绍在建筑结构中应用3D打印技术的方法,同时提出以照片建模方式来简化3D建模过程,以改善传统手动建模时间长、难度大的不足,并通过机器学习及遗传算法给出合理的建筑结构,尽可能的减少不合理的结构设计。

1 图像处理

3D打印所需的数据通常是通过CAD等三维软件制作生成,往往制作周期长、难度大,本文提出通过照片的方式建模。

1.1图像去噪

与日常3D打印物体相比,建筑结构的打印实体通常比较大,且图像质量无法保证,因此需对图像进行去噪处理。本文采用马尔可夫去噪方法[3]:

1.将图片转换为灰度,便于简化计算;

2.假设本图片是理想图片没有噪点,而且有噪点的图片噪点数量比较少,那么理想图片和噪点图片对应像素间必然相关;

3.我们同样可以假设在一个小范围内,每个像素同其周围的像素间也必然存在联系;

4.可以将他们之间的联系用能量表示:

公式1-1

这里可以改变相邻像素的位置,以期达到更好的效果

公式1-2

式中的m、n分别表示距离像素xi的距离。

1.2 图像分割和轮廓提取

图像分割可以看作是将有相似密度的像素群进行分类的过程,同样可以采用马尔可夫方法[4]:

1.将图像划分为n个区域,使得同一区域的像素同其他区域像素相对独立;

2.计算每个像素在这些区域的能量;

3.计算每个像素对应区域:

公式1-3

其中如果考虑相邻像素的影响,可以将加入公式中

公式1-4

公式中是对应相邻像素能量的变化阀值。

4.降温并设置对应阀值。

2 结构建模

对于以上得到的轮廓信息,还不足以直接生成3D模型,因为该信息是在二维平面的,缺少深度信息。对于深度信息的恢复,常见的方法有从明暗恢复形状,从纹理恢复形状,从阴影恢复形状,利用多光源信息等。由于对于建筑结构,很多信息是已知的,所以可以直接从已知的知识中重建形状。

2.1 3D重建

对于简单的结构,比如立方体、圆柱体,可以根据立体几何知识加以重建;对于复杂的结构,可以采用马尔可夫随机场确定相应结构[5]。

1.参数化每个超像素点的位置和方向信息;

2.发掘图像特征和深度信息;

3.发掘连接结构、共面结构和共线结构;

4.采用机器学习技术,利用以上知识恢复重建3D结构。

实际操作中,对于不准确的恢复可采用贝塞尔曲线加以修复:

公式2-1

2.2 建筑构造

对于建筑构造,可以采用遗传算法,给出合理的建筑结构,尽可能的减少不合理的结构设计。以平屋面建筑构造为例[6]:

1.初始化种群:立墙、女儿墙、变形缝、雨水口、烟囱、屋面检修孔、屋面出入口、檐沟、挑檐等构造;

2.适应度计算:对构造个体在不同位置及大小进行适应度计算;

3.选择运算:选择不同个体进行遗传操作;

4.交叉运算:以某一概率相互交换某两个个体之间的部分染色体;

5.变异运算:对个体的某一个或某一些基因值按某一较小的概率进行改变;

6.重复以上过程,直到得到可接受的结果。

3 探 讨

图像处理部分,图像去噪本文采用了马尔可夫去噪方法,针对不同图像不同噪点强度,相邻像素的选择也不完全相同;图像分割和轮廓提取,也同样需要控制阀值和冷却温度来确保准确度;结构建模部分,机器学习实例的数量以及图像与训练实例的相似度,对3D重建的准确度影响很大;同时,遗传算法中个体适应度及变异运算也需要针对不同构造加以修正。

由于机器学习技术的兴起,也可以考虑将机器学习算法(比如卷积神经网络)应用于建模部分。比如训练二维图像和3D结构之间的关系,预测已知图像的3D结构。但这种方式目前训练样本往往很大,训练速度慢,机器要求高。但其准确性和智能性却是其他算法无法比拟的。

因此,在实际建模过程中,每个环节都需要人工干预,对错误和不足及时进行修正;同时,这种建模方式的精度自然要低于纯手动建模的方式,但效率要比纯手动建模高很多。

4 结 语

本文介绍了3d打印在建筑结构中的应用,给出了一般的建模过程,并针对每个步骤给出了解决方案,同时也分析了照片建模的不足。相信随着3D打印技术的进步,必将推动建筑相关行业的发展与成熟。

[1] Huaiyu Wu. 3D printing: 3D creation via intelligent digitization. Beijing: Publishing House of Electronics Industry, 2014 (in Chinese) 吴怀宇. 3D打印:三维智能数字化创造. 北京: 电子工业出版社, 2014

[2]The Third Industrial Revolution;The Digitisation of Manufacturing Will Transform the Way Goods are Made and Change the Politics of Jobs Too[J/OL].The Economist,2012.

[3]Z.Ghahramani.An introduction to Hidden Markov Models and Bayesian networks.International Journal of Pattern Recognition and Artificial Intelligence,15::9-42,2001.

[4]Tama?s Szira?nyi.Image Segmentation Using Markov Random Field Model in Fully Parallel Cellular Network Architectures.Real-Time Imaging 6, 195-211,2000.

[5]Ashutosh Saxena,Min Sun,Andrew Y. Ng.Learning 3-D Scene Structure from a Single Still Image. International Journal of Computer Vision (IJCV), Aug 2007.

[6]J. F. GONC?ALVES.A GENETIC ALGORITHM FOR THE RESOURCE CONSTRAINED

MULTI-PROJECT SCHEDULING PROBLEM.AT&T Labs Research Technical Report:TD- 668LM4.2006

姓名:宋全记

出生年月:1981年06月

性别:男

学历:硕士

职称:讲师

工作单位及教学系:四川建筑职业技术学院 信息工程系

研究方向:计算机应用