前言:中文期刊网精心挑选了卷积神经网络意义范文供你参考和学习,希望我们的参考范文能激发你的文章创作灵感,欢迎阅读。
卷积神经网络意义范文1
过去10年,人们对机器学习的兴趣激增。几乎每天,你都可以在各种各样的计算机科学课程、行业会议、华尔街日报等等看到有关机器学习的讨论。在所有关于机器学习的讨论中,许多人把机器学习能做的事情和他们希望机器学习做的事情混为一谈。从根本上讲,机器学习是使用算法从原始数据中提取信息,并在某种类型的模型中表示这些信息。我们使用这个模型来推断还没有建模的其他数据。
神经网络是机器学习的一种模型,它们至少有50年历史了。神经网络的基本单元是节点(node),基本上是受哺乳动物大脑中的生物神经元启发。神经元之间的连接也以生物的大脑为模型,这些连接随着时间的推移而发展的方式是为“训练”。
在20世纪80年代中期和90年代初期,许多重要的架构进步都是在神经网络进行的。然而,为了得到好的结果需要大量时间和数据,这阻碍了神经网络的采用,因而人们的兴趣也减少了。在21世纪初,计算能力呈指数级增长,计算技术出现了“寒武纪大爆发”。在这个10年的爆炸式的计算增长中,深度学习成为这个领域的重要的竞争者,赢得了许多重要的机器学习竞赛。直到2017年,这种兴趣也还没有冷却下来;今天,我们看到一说机器学习,就不得不提深度学习。
作者本人也注册了Udacity的“Deep Learning”课程,这门课很好地介绍了深度学习的动机,以及从TensorFlow的复杂和/或大规模的数据集中学习的智能系统的设计。在课程项目中,我使用并开发了用于图像识别的卷积神经网络,用于自然语言处理的嵌入式神经网络,以及使用循环神经网络/长短期记忆的字符级文本生成。
本文中,作者总结了10个强大的深度学习方法,这是AI工程师可以应用于他们的机器学习问题的。首先,下面这张图直观地说明了人工智能、机器学习和深度学习三者之间的关系。
人工智能的领域很广泛,深度学习是机器学习领域的一个子集,机器学习又是人工智能的一个子领域。将深度学习网络与“经典的”前馈式多层网络区分开来的因素如下:
比以前的网络有更多的神经元更复杂的连接层的方法用于训练网络的计算机能力的“寒武纪大爆炸”自动特征提取
这里说的“更多的神经元”时,是指神经元的数量在逐年增加,以表达更复杂的模型。层(layers)也从多层网络中的每一层都完全连接,到在卷积神经网络中层之间连接局部的神经元,再到在循环神经网络中与同一神经元的循环连接(recurrent connections)。
深度学习可以被定义为具有大量参数和层的神经网络,包括以下四种基本网络结构:
无监督预训练网络卷积神经网络循环神经网络递归神经网络
在本文中,主要介绍后三种架构。基本上,卷积神经网络(CNN)是一个标准的神经网络,通过共享的权重在空间中扩展。CNN设计用于通过内部的卷积来识别图像,它可以看到图像中待识别的物体的边缘。循环神经网络(RNN)被设计用于识别序列,例如语音信号或文本。它的内部有循环,这意味着网络上有短的记忆。递归神经网络更像是一个层级网络,在这个网络中,输入必须以一种树的方式进行分层处理。下面的10种方法可以应用于所有这些架构。
1.反向传播
反向传播(Back-prop)是一种计算函数偏导数(或梯度)的方法,具有函数构成的形式(就像神经网络中)。当使用基于梯度的方法(梯度下降只是方法之一)解决优化问题时,你需要在每次迭代中计算函数梯度。
对于神经网络,目标函数具有组合的形式。如何计算梯度呢?有两种常用的方法:(i)解析微分(Analytic differentiation)。你已经知道函数的形式,只需要用链式法则(基本微积分)来计算导数。(ii)利用有限差分进行近似微分。这种方法在计算上很昂贵,因为函数值的数量是O(N),N指代参数的数量。不过,有限差分通常用于在调试时验证back-prop实现。
2.随机梯度下降法
一种直观理解梯度下降的方法是想象一条河流从山顶流下的路径。梯度下降的目标正是河流努力达到的目标——即,到达最底端(山脚)。
现在,如果山的地形是这样的,在到达最终目的地之前,河流不会完全停下来(这是山脚的最低点,那么这就是我们想要的理想情况。)在机器学习中,相当从初始点(山顶)开始,我们找到了解决方案的全局最小(或最佳)解。然而,可能因为地形的性质迫使河流的路径出现几个坑,这可能迫使河流陷入困境。在机器学习术语中,这些坑被称为局部极小值,这是不可取的。有很多方法可以解决这个问题。
因此,梯度下降很容易被困在局部极小值,这取决于地形的性质(用ML的术语来说是函数的性质)。但是,当你有一种特殊的地形时(形状像一个碗,用ML的术语来说,叫做凸函数),算法总是保证能找到最优解。凸函数对ML的优化来说总是好事,取决于函数的初始值,你可能会以不同的路径结束。同样地,取决于河流的速度(即,梯度下降算法的学习速率或步长),你可能以不同的方式到达最终目的地。这两个标准都会影响到你是否陷入坑里(局部极小值)。
3.学习率衰减
根据随机梯度下降的优化过程调整学习率(learning rate)可以提高性能并减少训练时间。有时这被称为学习率退火(learning rate annealing)或自适应学习率(adaptive learning rates)。训练过程中最简单,也是最常用的学习率适应是随着时间的推移而降低学习度。在训练过程开始时使用较大学习率具有进行大的改变的好处,然后降低学习率,使得后续对权重的训练更新更小。这具有早期快速学习好权重,后面进行微调的效果。
两种常用且易于使用的学习率衰减方法如下:
逐步降低学习率。在特定的时间点较大地降低学习率。
4 . Dropout
具有大量参数的深度神经网络是非常强大的机器学习系统。然而,过拟合在这样的网络中是一个严重的问题。大型网络的使用也很缓慢,这使得在测试时将许多不同的大型神经网络的预测结合起来变得困难。Dropout是解决这个问题的一种方法。
Dropout的关键想法是在训练过程中随机地从神经网络中把一些units(以及它们的连接)从神经网络中删除。这样可以防止单元过度适应。在训练过程中,从一个指数级的不同的“稀疏”网络中删除一些样本。在测试时,通过简单地使用一个具有较小权重的单一网络,可以很容易地估计所有这些“变瘦”了的网络的平均预测效果。这显著减少了过拟合,相比其他正则化方法有了很大改进。研究表明,在视觉、语音识别、文档分类和计算生物学等监督学习任务中,神经网络的表现有所提高,在许多基准数据集上获得了state-of-the-art的结果。
5. Max Pooling
最大池化(Max pooling)是一个基于样本的离散化过程。目标是对输入表示(图像,隐藏层输出矩阵等)进行下采样,降低其维度,并允许对包含在分区域中的特征进行假设。
这在一定程度上是为了通过提供一种抽象的表示形式来帮助过拟合。同时,它通过减少学习的参数数量,并为内部表示提供基本的平移不变性(translation invariance),从而减少计算成本。最大池化是通过将一个最大过滤器应用于通常不重叠的初始表示的子区域来完成的。
6.批量归一化
当然,包括深度网络在内的神经网络需要仔细调整权重初始化和学习参数。而批量标准化有助于实现这一点。
权重问题:无论权重的初始化如何,是随机的也好是经验性的选择也罢,都距离学习到的权重很遥远。考虑一个小批量(mini batch),在最初时,在所需的特征激活方面将会有许多异常值。
深度神经网络本身是有缺陷的,初始层中一个微小的扰动,就会导致后面层巨大的变化。在反向传播过程中,这些现象会导致对梯度的分散,这意味着在学习权重以产生所需输出之前,梯度必须补偿异常值,而这将导致需要额外的时间才能收敛。
批量归一化将梯度从分散规范化到正常值,并在小批量范围内向共同目标(通过归一化)流动。
学习率问题:一般来说,学习率保持较低,只有一小部分的梯度校正权重,原因是异常激活的梯度不应影响学习的激活。通过批量归一化,减少异常激活,因此可以使用更高的学习率来加速学习过程。
7.长短时记忆
LSTM网络在以下三个方面与RNN的神经元不同:
能够决定何时让输入进入神经元;能够决定何时记住上一个时间步中计算的内容;能够决定何时让输出传递到下一个时间步长。
LSTM的优点在于它根据当前的输入本身来决定所有这些。所以,你看下面的图表:
当前时间标记处的输入信号x(t)决定所有上述3点。输入门从点1接收决策,遗忘门从点2接收决策,输出门在点3接收决策,单独的输入能够完成所有这三个决定。这受到我们的大脑如何工作的启发,并且可以基于输入来处理突然的上下文/场景切换。
8. Skip-gram
词嵌入模型的目标是为每个词汇项学习一个高维密集表示,其中嵌入向量之间的相似性显示了相应词之间的语义或句法相似性。Skip-gram是学习单词嵌入算法的模型。
Skip-gram模型(以及许多其他的词语嵌入模型)的主要思想是:如果两个词汇项(vocabulary term)共享的上下文相似,那么这两个词汇项就相似。
换句话说,假设你有一个句子,比如“猫是哺乳动物”。如果你用“狗”去替换“猫”,这个句子仍然是一个有意义的句子。因此在这个例子中,“狗”和“猫”可以共享相同的上下文(即“是哺乳动物”)。
基于上述假设,你可以考虑一个上下文窗口(context window,一个包含k个连续项的窗口),然后你跳过其中一个单词,试着去学习一个能够得到除跳过项外所有项的神经网络,并预测跳过的项是什么。如果两个词在一个大语料库中反复共享相似的语境,则这些词的嵌入向量将具有相近的向量。
9.连续词袋(Continuous Bag Of Words)
在自然语言处理问题中,我们希望学习将文档中的每个单词表示为一个数字向量,使得出现在相似的上下文中的单词具有彼此接近的向量。在连续的单词模型中,我们的目标是能够使用围绕特定单词的上下文并预测特定单词。
我们通过在一个庞大的语料库中抽取大量的句子来做到这一点,每当我们看到一个单词时,我们就会提取它周围的单词。然后,我们将上下文单词输入到一个神经网络,并预测位于这个上下文中心的单词。
当我们有成千上万的这样的上下文单词和中心词以后,我们就有了一个神经网络数据集的实例。训练神经网络,最后编码的隐藏层输出表示特定单词的嵌入。而当我们对大量的句子进行训练时也能发现,类似语境中的单词得到的是相似的向量。
10.迁移学习
卷积神经网络意义范文2
关键词:人机大战;人工智能;发展前景
中图分类号:TP391 文献标识码:A
0.引言
2016年3月15日,备受瞩目的“人机大战”终于落下帷幕,最终Google公司开发的“AlphaGo”以4∶1战胜了韩国九段棋手李世h。毫无疑问,这是人工智能历史上一个具有里程碑式的大事件。大家一致认为,人工智能已经上升到了一个新的高度。
这次胜利与1997年IBM公司的“深蓝”战胜国际象棋世界冠军卡斯帕罗不同。主要表现在两个方面:
(1)AlphaGo的胜利并非仅仅依赖强悍的计算能力和庞大的棋谱数据库取胜,而是AlphaGo已经拥有了深度学习的能力,能够学习已经对弈过的棋盘,并在练习和实战中不断学习和积累经验。
(2)围棋比国际象棋更加复杂,围棋棋盘有361个点,其分支因子无穷无尽,19×19格围棋的合法棋局数的所有可能性是幂为171的指数,这样的计算量相当巨大。英国围棋联盟裁判托比表示:“围棋是世界上最为复杂的智力游戏,它简单的规则加深了棋局的复杂性”。因此,进入围棋领域一直被认为是目前人工智能的最大挑战。
简而言之,AlphaGo取得胜利的一个很重要的方面就是它拥有强大的“学习”能力。深度学习是源于人工神经网络的研究,得益于大数据和互联网技术。本文就从人工智能的发展历程与现状入手,在此基础上分析了人工智能的未来发展前景。
1.人工智能的发展历程
AlphaGo的胜利表明,人工智能发展到今天,已经取得了很多卓越的成果。但是,其发展不是一帆风顺的,人工智能是一个不断进步,并且至今仍在取得不断突破的学科。回顾人工智能的发展历程,可大致分为孕育、形成、暗淡、知识应用和集成发展五大时期。
孕育期:1956年以前,数学、逻辑、计算机等理论和技术方面的研究为人工智能的出现奠定了基础。德国数学家和哲学家莱布尼茨把形式逻辑符号化,奠定了数理逻辑的基础。英国数学家图灵在1936年创立了自动机理论(亦称图灵机),1950年在其著作《计算机与智能》中首次提出“机器也能思维”,被誉为“人工智能之父”。总之,这些人为人工智能的孕育和产生做出了巨大的贡献。
形成期:1956年夏季,在美国达特茅斯大学举办了长达2个多月的研讨会,热烈地讨论用机器模拟人类智能的问题。该次会议首次使用了“人工智能”这一术语。这是人类历史上第一次人工智能研讨会,标志着人工智能学科的诞生。其后的十几年是人工智能的黄金时期。在接下来的几年中,在众多科学家的努力下,人工智能取得了瞩目的突破,也在当时形成了广泛的乐观思潮。
暗淡期:20世纪70年代初,即使最杰出的AI程序也只能解决问题中最简单的部分,发展遇到瓶颈也就是说所有的AI程序都只是“玩具”,无法解决更为复杂的问题。随着AI遭遇批评,对AI提供资助的机构也逐渐停止了部分AI的资助。资金上的困难使得AI的研究方向缩窄,缺少了以往的自由探索。
知识应用期:在80年代,“专家系统”(Expect System)成为了人工智能中一个非常主流的分支。“专家系统”是一种程序,为计算机提供特定领域的专门知识和经验,计算机就能够依据一组从专门知识中推演出的逻辑规则在某一特定领域回答或解决问题。不同领域的专家系统基本都是由知识库、数据库、推理机、解释机制、知识获取等部分组成。
集成发展期:得益于互联网的蓬勃发展、计算机性能的突飞猛进、分布式系统的广泛应用以及人工智能多分支的协同发展,人工智能在这一阶段飞速发展。尤其是随着深度学习和人工神经网络研究的不断深入,人工智能在近几十年中取得了长足的进步,取得了令人瞩目的成就。
人工智能发展到今天,出现了很多令人瞩目的研究成果。AlphaGo的胜利就是基于这些研究成果的一个里程碑。当前人工智能的研究热点主要集中在自然语言处理、机器学习、人工神经网络等领域。
2.人工智能l展现状与前景
人工智能当前有很多重要的研究领域和分支。目前,越来越多的AI项目依赖于分布式系统,而当前研究的普遍热点则集中于自然语言处理、机器学习和人工神经网络等领域。
自然语言处理:自然语言处理(Natural Language Processing,简称NLP),是语言学与人工智能的交叉学科,其主要功能就是实现让机器明白人类的语言,这需要将人类的自然语言转化为计算机能够处理的机器语言。
自然语言处理主要包括词法分析、句法分析和语义分析三大部分。词法分析的核心就是分词处理,即单词的边界处理。句法分析就是对自然语言中句子的结构、语法进行分析如辨别疑问句和感叹句等。而语义分析则注重情感分析和整个段落的上下文分析,辨别一些字词在不同的上下文定的语义和情感态度。
当前自然语言的处理主要有两大方向。一种是基于句法-语义规则的理性主义理论,该理论认为需要为计算机制定一系列的规则,计算机在规则下进行推理与判断。因此其技术路线是一系列的人为的语料建设与规则制定。第二种是基于统计学习的经验主义理论,这种理论在最近受到普遍推崇。该理论让计算机自己通过学习并进行统计推断的方式不停地从数据中“学习”语言,试图刻画真实世界的语言现象,从数据中统计语言的规律。
机器学习:机器学习(Machine Learning)是近20年来兴起的人工智能一大重要领域。其主要是指通过让计算机在数据中自动分析获得规律,从而获取“自我学习”的能力,并利用规律对未知数据进行判断和预测的方法。
机器学致可以分为有监督的学习和无监督的学习。有监督的学习是从给定的训练数据集中练出一个函数和目标,当有新的数据到来时,可以由训练得到函数预测目标。有监督的学习要求训练集同时有输入和输出,也就是所谓的特征和目标。而依据预测的结果是离散的还是连续的,将有监督的学习分为两大问题,即统计分类问题和回归分析问题。统计分类的预测结果是离散的,如肿瘤是良性还是恶性等;而回归分析问题目标是连续的,如天气、股价等的预测。
无监督学习的训练集则没有人为标注的结果,这就需要计算机去发现数据间的联系并用来分类等。一种常见的无监督学习是聚类分析(Cluster Analysis),它是将相似的对象通过静态分类的方法分成不同的组别或者是特定的子集,让同一个子集中的数据对象都有一些相似的属性,比较常用的聚类方法是简洁并快速的“K-均值”聚类算法。它基于K个中心并对距离这些中心最近的数据对象进行分类。
机器学习还包括如半监督学习和增强学习等类别。总而言之,机器学习是研究如何使用机器来模拟人类学习活动的一门学科,而其应用随着人工智能研究领域的深入也变得越来越广泛,如模式识别、计算机视觉、语音识别、推荐算法等领域越来越广泛地应用到了机器学习中。
人工神经网络:在脑神经科学领域,人们认为人类的意识及智能行为,都是通过巨大的神经网络传递的,每个神经细胞通过突出与其他神经细胞连接,当通过突触的信号强度超过某个阈值时,神经细胞便会进入激活状态,向所连接的神经细胞一层层传递信号。于1943年提出的基于生物神经元的M-P模型的主要思想就是将神经元抽象为一个多输入单输出的信息处理单元,并通过传递函数f对输入x1,x2…,xn进行处理并模拟神经细胞的激活模式。主要的传递函数有阶跃型、线性型和S型。
在此基础上,对神经网络算法的研究又有诸多进展。日本的福岛教授于1983年基于视觉认知模型提出了卷积神经网络计算模型。通过学习训练获取到卷积运算中所使用的卷积系数,并通过不同层次与自由度的变化,可以得到较为优化的计算结果。而AlphaGo也正是采用了这种深度卷积神经网络(DCNN)模型,提高了AlphaGo的视觉分类能力,也就是所谓的“棋感”,增强了其对全盘决策和把握的能力。
3.人工智能的发展前景
总体来看,人工智能的应用经历了博弈、感知、决策和反馈这几个里程碑。在以上4个领域中,既是纵向发展的过程,也是横向不断改进的过程。
人工智能在博弈阶段,主要是实现逻辑推理等功能,随着计算机处理能力的进步以及深度学习等算法的改进,机器拥有了越来越强的逻辑与对弈能力。在感知领域,随着自然语言处理的进步,机器已经基本能对人类的语音与语言进行感知,并且能够已经对现实世界进行视觉上的感知。基于大数据的处理和机器学习的发展,机器已经能够对周围的环境进行认知,例如微软的Kinect就能够准确的对人的肢体动作进行判断。该领域的主要实现还包括苹果的Siri,谷歌大脑以及无人驾驶汽车中的各种传感器等。在以上两个阶段的基础上,机器拥有了一定的决策和反馈的能力。无人驾驶汽车的蓬勃发展就是这两个里程碑很好的例证。Google的无人驾驶汽车通过各种传感器对周围的环境进行感知并处理人类的语言等指令,利用所收集的信息进行最后的决策,比如操作方向盘、刹车等。
人工智能已经渗透到生活中的各个领域。机器已经能识别语音、人脸以及视频内容等,从而实现各种人际交互的场景。在医学领域,人工智能可以实现自动读片和辅助诊断以及个性化t疗和基因排序等功能。在教育领域,机器也承担了越来越多的辅助教育,智能交互的功能。在交通领域,一方面无人车的发展表明无人驾驶是一个可以期待的未来,另一方面人工智能能够带来更加通畅和智能的交通。另外人工智能在安防、金融等领域也有非常广阔的发展前景。总之,人工智能在一些具有重复性的和具备简单决策的领域已经是一种非常重要的工具,用来帮助人们解决问题,创造价值。
参考文献
[1]阮晓东.从AlphaGo的胜利看人工智能的未来[J].新经济导刊,2016 (6):69-74.
卷积神经网络意义范文3
关键词:视觉注视;移动端;数据集;行为推测
中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2017)01-0254-03
Abstract: With the development of computer vision application technology, the behavior prediction of eye gaze has been widely concerned by many scholars at home and abroad, and also has important research significance in the field of biological information recognition. In the era of smart phone tablet popularity to improve human-computer interaction and accurate prediction of the mobile side of the user gaze behavior becomes particularly important. Based on the existing research on visual technology, this paper proposes a scheme to solve the gaze behavior of mobile users by using large data combined with machine learning and convolution neural network knowledge, and analyzes the importance of large-scale data sets in visual application.
Key words: visual gaze; mobile end; data set; behavior conjecture
1 概述
伴S着计算机软硬件性能和互联网技术的迅猛发展,大规模的并行计算技术突飞猛进,不断地发展使各种现有技术变得越来越成熟,同时机器学习和计算机视觉领域也都得到了飞速发展。视觉技术的发展变得越来越重要,并且可以应用到实际生活中的很多方面。人类大量的视觉信息现在可以利用计算机来辅助处理,并完成相关的一些工作。相对于生物信息识别技术这一计算机视觉领域的热点技术来说,也已广泛应用于日常生活中[1]。比如指纹识别器,人脸考勤器等平时在许多地方可以经常见到,还有居民家用的摄像头智能报警系统以及近期炒得火热的运用支付宝进行刷脸而完成的支付技术等,这些都是运用了生物信息识别技术。现实中的种种迹象已经表明运用生物信息识别的计算机技术已渐渐的渗透到人们的日常生活中并成为不可或缺的组成部分。时下发展较快也比较常见的生物特征有视网膜、指纹、人脸和人眼等。这些生物信息比如人脸具有个体差异性和自身稳定性特点,从用户的角度来看该特征具有便携和低侵入等一些优点。而人眼作为人脸中最显著的特征,又是人们获取外界信息最直接最方便的途径。都说眼是心灵的窗户,因为眼睛中蕴含着表情、意图等多种信息。因此,眼睛注视的行为预测受到了国内外众多学者的广泛关注,同时在生物信息识别领域中也具有重要的研究意义[2]。
2 注视预测问题
2.1 问题的背景
在心理、认知和用户交互研究中的注视跟踪最近已朝向移动解决方案发展,因为它们使得可以直接评估用户在自然环境中的视觉注意。 除了注意,注视还可以提供关于用户的动作和意图的信息:用户正在做什么以及接下来将做什么。然而,在自然状态下非结构化的任务中注视行为是相当复杂的,并且不能使用在受控的实验室环境中创建的模型来得到令人满意的解释。自然条件下和实验室环境有着很大的不同。为了演化在自然环境中对注视行为的推断,需要一种更加整体的方法,将从认知科学到机器学习的许多学科结合在一起[3]。
从人机交互技术到医学诊断到心理学研究再到计算机视觉,眼睛注视跟踪在许多领域都有应用。注视是外部可观察的人类视觉注意的指标,许多人试图记录它。对于眼睛视线方面的研究可以追溯到十八世纪后期。而现如今已经存在各种解决方案(其中许多是商业化的),但是所有的解决方案都具有以下一个或多个方面的问题:高成本(例如,Tobii X2-60),定制或侵入性硬件(例如,Eye Tribe,Tobii EyeX)。然而在现实中的自然条件下,这些因素对实际的应用会造成一些障碍影响,使得眼睛注视跟踪不能成为任何具有合理的相机(例如,智能手机或网络摄像头)的人应该可以使用的普及技术。如何才能使得这种技术普及并且得到应用,提出了一种解决方案。
2.2问题的提出
研究中首先要解决的就是用户的约束问题,也就是自然条件下使用过程中所受到的各种限制问题。到目前为止,基于注视数据推断用户动作的研究受到许多的限制,特别是在自然环境中。限制因素可能包括可用的商业解决方案的昂贵性,其专有性和封闭性以及缺乏实时交互能力等方面。目前的注视跟踪系统,只是尽量在移动设置中设置各种条件进行补救。商业化定制化的解决方案都有其独自的闭合性质,因此阻碍了注视跟踪算法的发展,并且使得不同方法之间的客观比较变得不可能[4]。此外,注视是一种复杂的现象,涉及认知过程的相互作用。这些过程在设置计算上的建模是非常困难的,尤其是涉及一些未知因素,使得构建实验设置成为一个很大的挑战。此外,来自跟踪实验的数据因为其商业化的原因很少共享,即使共享数据很大部分也是有其独立的实验条件。这些方面的问题都阻碍了跨学科方法在分析和利用注视数据和实验的相关研究与发展。
2.3 解决问题的研究方向
对基于注视的推断的个体贡献通常保持孤立,不能形成更大的整体以促进对注视动作行为的研究。随着这方面的技术发展和应用,最近出现了一些开源的解决方案。虽然在不同的应用和用户界面中使用注视已经相当有限,但是移动注视跟踪的新颖应用开始出现并得到了很快的发展。然而使用移动注视跟踪来推断用户动作的问题是高度多学科的,需要深入理解各个研究领域,包括人眼的功能,数学建模,计算机视觉,机器学习,信息技术,认知过程,用户交互以及心理学。任何一个研究员或甚至任何研究小组都不可能拥有所有研究领域的专家,因此需要相互的协作共同推进技术的发展[5]。
目前的研究主要是从以下几个方面进行:
1)研究移动注视跟踪的认知方面,例如增强对任务中的注视行为的理解或识别不同任务的特征和阶段;
2)开发用于从注视数据推断用户动作的计算方法,诸如应用机器学习用于行为推断,优选地实时地;
3)增强用于改善移动注视跟踪方法和性能的技术软件/硬件解决方案,并使得设备更容易访问;
4)发现注视数据在自然环境和虚拟和增强现实应用中的潜在用途,以及定义任务,其中注视可以是用户动作的有用的预测器。
3 解决方案
首先选择移动端进行研究,因为目前比较普遍的移动设备比如智能手机、平板电脑都有自己可靠的工作系统,且不需要外部附件。移动设备相对于其他平台具有以下优势:
1)使用的广泛性。据估计,到2019年,世界上超过三分之一的人口拥有智能手机,远远超过台式机/笔记本电脑用户;
2)软硬件技术升级的采用率较高。大部分的移动设备具有允许使用拥有计算复杂数据方法的实时的最新软硬件;
3)移动设备上相机的大量使用已经导致相机技术的快速开发和部署;
4)相机相对于屏幕的固定位置减少了未知参数的数量,潜在地允许开发高精度的校准跟踪应用。
3.1 注视类型分析
注视估计方法可以分为基于模型或基于外观[6]。基于模型的方法使用眼睛的几何模型,并且可以被细分为基于角膜反射和基于形状的方法。另一方面,基于形状的方法从观察到的眼睛形状观察注视方向。这些方法倾向于具有低的图像质量和可变的照明条件。基于外观的方法直接使用眼睛作为输入,并可能在低分辨率图像上工作。相比基于模型的方法,基于外观的方法被认为需要更大量的用户特定的训练数据。通过使用深度学习和大规模数据不必依赖于视觉,以实现准确的无校准注视估计。这种方案提出建立一个基于外观的数据模型,而不使用任何手工设计的功能,例如头部姿势或眼球中心位置。
3.2 技术方案
深度学习的最近成功在计算机视觉的各种领域中是显而易见的,但是它对改善眼睛跟踪性能的影响还是相当有限。因为深度学习是需要大量的数据作为支持,而视线追踪这方面的数据集还比较少,普通的研究所得到的稻菁比较有限,最大的数据集通常只是具有50个受试者左右,由于缺乏大规模数据的可用性,因此发展比较缓慢。因而提出了使用深度学习进行研究的一套方案,就是构造大规模的数据集。利用网络资源构造一个大规模的基于移动的眼动跟踪数据集,它包含来自各种背景的大量的受试者,在可变照明条件和不受限制的头部运动下记录[7]。运用现有的智能算法得到一个可以进行卷积神经网络学习端到端的注视预测的后台决策网络。不依赖任何预先存在的系统,不需要头部姿态估计或其他手动设计的特征用于预测。使用只有双眼和脸部的特征训练网络,在这个领域的性能优于现有的眼睛跟踪方法。虽然现在的决策网络在精度方面实现了很先进的性能,但是数据输入的大小和参数的数量使得难以在移动设备上实时使用。 为了解决这个问题,需要培养学习得到一个更小更快的网络,在移动设备上实现实时性能,使得精度损失进一步降低。
3.3 大规模数据集
为了达到这一方案的预测效果,首先要进行的是数据集的建立。网络上相关的研究中有许多公开的注视数据集[8]。总结对比这些相关的数据集,分析出有些早期的数据集不包含显著性的头部姿势变化或具有粗略的注视点采样密度。需要对这些数据进行筛选,使得到的数据具有随机分布特点。虽然一些现代数据集遵循类似的方法,但它们的规模(尤其是参与者的数量)相当有限。大多数现有的眼动追踪数据集已经由邀请实验室参与者的研究人员收集,这一过程导致数据缺乏变化,并且成本高且效率不高。因此需要大量的进行数据收集和筛选分析。大规模数据可以通过卷积神经网络有效地识别人脸(他们的眼睛)上的细粒度差异,从而做出准确的预测。
收集眼动跟踪数据应该注意的方面:
1)可扩展性。数据应该是自然条件下的使得用户具有灵活性;
2)可靠性。运用现有的智能移动设备真实的应用图像而非设计处理过的图像;
3)变异性。尽量使数据具有较大的变异性,使得模型更加稳健,适应各种环境下的操作。
4 结束语
文章介绍了一种针对移动设备的用户注视行为推测解决方案。首先建立一个大规模眼动跟踪数据集,收集大量的注视数据。大型数据集的重要性,以及具有大量各种数据以能够训练用于眼睛跟踪的鲁棒模型。然后,训练得到一个深层卷积神经网络,用于预测注视。通过仔细的评估,利用深度学习可以鲁棒地预测注视,达到一个较好的水平。此外,虽然眼睛跟踪已经存在了几个世纪,相信这种新方案的策略可以作为下一代眼动跟踪解决方案的关键基准。希望能通过这方面的研究,使人机交互得到更好的发展。
参考文献:
[1] 崔耀 视控人机交互系统技术研究与实现[D].西安,西安电子科技大学,2013.
[2] 迟健男, 王志良, 张闯.视线追踪[M].北京: 机械工业出版社, 2011.
[3] Alireza Fathi, Yin Li, and James M Rehg 2012 Learning to recognize daily actions using gaze In Computer VisionCECCV 2012. Springer, 314-327.
[4] Makeroni Labs 2016 Eye of Horus. https://hackaday.io/project/
6638-eye-of-horus-open-source-eye-tracking-assistance (2016) Accessed: 2016-02-26.
[5] Francisco J Parada, Dean Wyatte, Chen Yu, Brandi Emerick, and Thomas Busey,2015.Expert Eyes: Open-source, high-definition eyetracking Behavior research methods ,2015.
[6] 杨彩霞.基于近红外光源的非接触式视线跟踪技术研究 [D].山东:山东大学,2012.
卷积神经网络意义范文4
关键词:诱发脑电;事件相关电位;信号提取;生物医学信号处理
中图分类号:TP391文献标识码:B
文章编号:1004-373X(2008)22-139-03
Review of Methods for Extracting Evoked Potential
HUANG Rihui,LI Ting,FU Yan,WANG Zhaodong
(School of Information,Wuyi University,Jiangmen,529020,China)
Abstract:Estimation of Evoked Potential(EP)is one of the pop issues in biomedical signal processing.As the review of extracting evoked potential,the theories of EP estimation using the methods of coherent average,independent component analysis,wavelet transform,time sequence analysis and neural network in application are introduced.The problems in application with the upper five methods are indicated,it provids a theory basis for research.
Keywords:evoked potential;event related potential;signal extract;biomedical signal processing
诱发脑电(Evoked Potential,EP)是指人为地对外周感觉神经、感觉通路与感觉系统有关的任何结构进行施加适当刺激时所引起的脑电位变化,事件相关电位(Event Related Potential,ERP)是一种特殊的诱发脑电信号,两者区别主要在于EP是受感觉刺激(视、听或体感)后神经系统对刺激的直接电生理反应,ERP则是受试者受某一事件刺激后,对该事件所携带的某种信息的反应,涉及到人的高级认知活动。
在实际中,由于诱发脑电总是淹没在较强背景噪声(包括自发脑电、工频干扰、眼电、肌电、心电等) 中,其幅值只有0.2~20 μV,信噪比为0~10 dB,而且脑电信号本身又具有随机性和非平稳性,诱发脑电和自发脑电在频谱上有相当大的重叠区,使得从观测的脑电信号中提取诱发脑电更加困难。目前用于脑电信号提取的主要方法如下文所述。
1 相干平均
目前较多用于提取诱发脑电的方法是相干平均[1],采用相干平均法进行诱发脑电提取是基于以下3个假设的:
(1) 诱发脑电和噪声为加法性的关系,且相互独立;
(2) 每次刺激后所获得的诱发脑电波形是一致的,即诱发脑电为确定性信号;
(3) 噪声与刺激无关,且是零均值的随机信号。诱发脑电、噪声和记录到的信号表示如下:
由于各次记录下来的诱发脑电信号基本不变,而自发脑电及其他噪声信号却是随机呈现的,故式(2)中的第二项1N∑ni=1ni(n)=0。因此,叠加平均后得到的诱发脑电信号的信噪比提高了N倍。由于各次刺激和响应间的潜伏期有随机性[2]:
其中,ni是随机的潜伏期,在进行记录的信号xi(n)累加时不能简单地以刺激开始时刻作为对齐数据的参考点,而需要对齐各次记录信号后再进行叠加。用原始模板0(n)和xi(n)做互相关,由互相关极大处得到延迟ni,对齐后再做平均,并把平均后的结果作为新的模板。
相关平均可以减少不相关自发脑电、噪声干扰的影响,并可以突出诱发脑电;但这样需要耗费更多的时间来进行实验,而且并不是每次实验都会产生诱发脑电,相干平均后反而会使得诱发脑电更小[3]。
2 独立分量分析
独立分量分析(Independent Component Analysis,ICA)是信号处理领域在20世纪90年代后期发展起来的一种全新的处理方法。ICA的发展是和盲信源分离(Blind Source Separation,BSS)紧密联系的,并在通信、特征提取、生物医学信号处理、语音信号处理、图像处理等方面得到广泛的应用。近年来,ICA逐渐应用于脑电信号处理中,如用ICA进行眼电、肌电、工频干扰等脑电伪迹(artifact)的去除[4],及单次(或少次)的诱发脑电信号的提取[5],并比较了使用PCA和ICA进行脑电去噪的效果[6]:
(1) 后者适用于去除更多不同种类的脑电干扰;
(2) 分离分析不需要分开不同类型的干扰;
(3) 同时把EEG和干扰信号分离成独立分量;
(4) 在训练完成后,能同时提取各通道中的无干扰的脑电信号;
(5) 在大部分的情况下,ICA比PCA保留更多有用的脑电信号。
独立分量分析是基于信号高阶统计量的信号处理方法[7],其基本含义是将多道观测信号按照统计独立的原则通过优化算法分解为若干独立成分,复现出原来的独立信源。前提是各源信号为彼此统计独立的非高斯信号(最多有一个源信号符合高斯分布)。
在以往的多导信号处理中,主分量分析(Principal Component Analysis,PCA)和奇异值分解(Singular Value Decomposition,SVD)是较常用的方法之一,但按PCA或SVD分解出来的各分量,只能保证它们之前各不相关,除非它们都是高斯过程,才可以保证各分量之间相互独立。ICA不仅实现了信号的去相关,而且要求各高阶统计量独立。
ICA的基本原理框图如图1所示[8],多导观测信号X是由多个等效源S(独立信源)经混合系统A组合而成。ICA的任务是在假定各等效源S独立且S与A均为未知的条件下,求取最优的解混系统B,使得X通过B后得到的Y逼近S。
图1 ICA原理图
独立分量分析实际上是在某一衡量独立性的优化判据最优的意义下寻求其近似解,使Y中各分量尽可能独立;Y与S不但只是近似,而且在排列次序和幅度上都允许不同。较常用的判据如下:互信息极小化,信息极大化,极大似然判据,代价函数极小化等。
由于各种伪迹与脑电信号在时间上是相互独立的,而且观测信号可视为它们与脑电无延迟的线性组合,伪迹等效源的数目一般比头皮上测得的脑电导数要少,所以可以应用ICA来进行脑电去噪,并已经取得了很好的效果[4]。
也有一些研究者把ICA应用于诱发脑电信号的单次提取中[5],主要是假定诱发脑电和背景脑电EEG为相互独立的信号成分,通过寻找线性变换,在上述优化判据最优的意义下,将观测到的脑电信号分解为尽可能相互独立的成分。在将观察信号分解成相互独立的分量以后,为了达到增强或提取诱发脑电信号的目的,把不相干的分量置零或对其中的某些分量幅值做适当的衰减,然后再用处理后的独立分量重建原始信号。
3 小波变换法
如果信号x(t)∈L2(R),小波变换定义为信号x(t)和小波函数ψa,b(t)的卷积:
小波变换是同时具有时域和频域的良好局部化性质的时频分析方法。小波变换的主要优点在于它具有可变的时-频分析窗口,对于低频信号可用宽的窗口分析,对于高频信号可用窄的窗口分析。这样小波变换可以在所有频率范围内为信号分析提供最优的时-频分辨率。而且,由于小波变换窗口范围能够自动地适应每个尺度的瞬时事件,因此它能够精确地检测到神经信号定事件产生的时间、瞬变程度及其频率随时间变化的情况,所以特别适合于分析脑电信号等非平稳信号[9,10]。
在诱发脑电信号处理方面,主要应用小波变换的多分辩率分析,当尺度a较大时小波视野宽而分析频率低,可以观察信号的概貌;当尺度a较小时小波视野窄而分析频率高,可以观察信号的细节。但不同a值下分析的品质因数(指中心频率与带宽的比值)却保持不变。
如果把小波ψj,k对每一分辨率j所产生的L2子空间用Wj表示,当j∞时WjL2(R),包含整个平方可积的实函数空间。则空间L2可以分解成一系列的子空间Wj之和[9]:
L2=∑j∈ZWj(6)
定义子空间为:
Vj=Wj+1Wj+2…j∈Z(7)
子空间Vj是L2的多分辨率近似,它是由尺度函数φj,k经伸缩和平移产生的。对于子空间Vj会有一个与之相对应的正交子空间Wj:
Vj-1=VjWjj∈Z(8)
假设有一能量有限的离散信号x(n)a0(n),可依照下面的关系式连续对信号进行分解:
aj-1(n)=aj(n)dj(n)(9)
这里aj(n)∈Vj,它表示信号的概貌;而dj(n)∈Wj,它表示每一尺度(j=0,1,…,N)的细节。因此对每一分辨率N>0,信号的分解形式可表示为:
x(n)a0(n)=d1(n)+d2(n)+…+dN(n)+aN(n)(10)
因此每一分辨率分解把该级输入信号分解成一个低频的近似信号和高频的细节信号。
诱发脑电是由刺激引起的观测脑电信号中的变化,它与刺激作用存在锁时关系。尽管诱发脑电淹没在强背景噪声中(含自发脑电及其他干扰信号),而且部分EEG和EP在频率上重迭,但可根据它们时间位置的不同区别出来。如较常用着实验的P300(事件相关电位的一种),它是在受刺激后约250~400 ms期间脑电产生的正向波峰,频率范围集中在2~8 Hz间,与自发脑电中的θ波(4~8 Hz)和δ(0~4 Hz)在频率上有重叠。
利用小波变换的多分辨率分析后,把与P300有关频带的小波系数保留,然后从保留频带的小波系数中取出在250~400 ms之间的小波系数,用这些小波系数进行诱发脑电信号的重构,从而从强背景噪声中提取出微较的诱发脑电信号。
4 时间序列分析法
由于在诱发脑电中,信号与噪声频谱重叠,一般的滤波方式很难将其分开。有些学者试图通过时间序列分析方法,用AR或者ARMA模型对诱发脑电信号建立数学模型,再通过滤波等方法提取诱发响应信号。
1988年Sprechelsen[11]等的方案中,利用卡尔曼滤波对已知随机信号建立模型,根据前一个估值和最近一个观察数据估计信号的当前值,自动跟随信号统计性质的非平稳性,从而提取出诱发响应信号。
李鲁平[12]等还提出了带外输入的自回归算法和附加信号处理方法两种基于时间序列分析的方法;关力[13]的则提出了维纳滤波在诱发脑电信号处理上的应用。
5 神经网络法
Nishida[14]等1994年提出了用神经网络方法自动提取P300的方案。1999年Fung KSM[15]等提出了一种自适应信号处理与神经网络相结合的方法,文献[16]对这种方法进行了总结。
神经网络可以把专家知识结合进一个数学框架,并通过训练对专家的经验进行学习,而不需要任何对数据和噪声的先验统计假设;但它只能用于提取EP信号的特征,无法提取整个波形,因而丢失了部分重要的信息。
6 结 语
相干平均在实现上较为容易,但相干平均后只反映多次平均的结果,不能反映诱发脑电的逐次变化,而随着实验次数的增多,会使得受试者疲劳或不适,影响实验结果。独立分量分析和小波变换能从单次(或少次)刺激中提取出诱发脑电,但ICA后的各独立分量所对应的物理意义有待进一步研究;如何在减少检测通道数的同时,能有效地分离出各独立分量也是ICA在诱发脑电提取方面有待研究的方向。SVM能很好地区分观测信号中是否存在诱发脑电,但它只能提取特征,不能提取信号,因而丢失了部分信息。如何能有效地在单次(或少次)刺激中提取诱发脑电是这方面研究的发展方向。
参考文献
[1]胡广书.数字信号处理――理论算法实现[M].北京:清华大学出版社,1996.
[2]杨福生,高上凯.生物医学信号处理(二)[M].北京:高等教育出版社,1995.
[3]Bayliss J D.A Flexible Brain-computer puter Science Dept.,Univ.of Rochester,Rochester,NY,2001.
[4]Jung T P,Humphries C,Lee T W,et al.Removing Electroencephalographic Artifacts by Blind Source Separation [J].Psychophysiol,2000,37:163-178.
[5]Jung T P,Makeig S,Westerfield,et al.Analysis and Visuali-zation of Single-trial Event-related Potentials[J].Human Brian Mapping,2001,14(2):166-185.
[6]Jung T-P,Humphries C,Lee T-W,et al.Removing Electroencephalographic Artifacts:Comparison between ICA and PCA.Neural Networks Signal Processing,1998:63-72.
[7]Hyvarinen A,Oja E.Independent Component Analysis:Algorithms and Applications [J].Neural Network,2000,13:411-430.
[8]杨福生,洪波.独立分量分析的原理与应用[M].北京:清华大学出版社,2006.
[9]Quiroga R Quian.Obtaining Single Stimulus Evoked Potentials with Wavelet Denoising.Physica,2000,145(3):278-292.
[10]R.Quian Quiroga,Sakowitz O W,Basar E.Wavelet Transform in the Analysis of the Frequency Composition of Evoked Potentials.Brain Research Protocols,2001,8:16-24.
[11]Spreckelsen M V.Estimation of Single Evoked Cerebral Potentials by Means of Parametric Modeling and Kalman Filtering.IEEE Trans.BME,1988,35(9):691-700.
[12]李鲁平,吴延军,程敬之.诱发脑电动态提取方法研究[J].国外医学生物医学工程分册,1995(18):195-201.
[13]关力.诱发电位检测技术的进展[J].国外医学生物医学工程分册,1995(18):125-129.
[14]Nishida S,Nakamura M,Suwazono S,et al.Automatic Detection Method of P300 Waveform in the Single Sweep Records by Using a Neural Network[J].Med.Eng.Phys.,1994,14: 425-429.
[15]Fung K S M,Chan F H Y,Lam F L,et al.A Tracing Evoked Potential Estimator[J].Signal Processing,1994,36:287-314.
[16]朱常芳,胡广书.诱发电位快速提取算法的新进展[J].国外医学生物医学工程分册,2000(23):211-216.
作者简介
黄日辉 男,1982年出生,广东台山人,五邑大学在读硕士研究生。研究方向为脑电信号处理。
卷积神经网络意义范文5
关键词: 数字信号处理课程 教学改革 优化知识结构 加强实验教学 综合化教学模式
数字信号处理所涉及的内容非常繁多、广泛。其所应用的数学工具涉及微积分、随机过程、数值分析、复变函数和各种变换等;其理论基础包括网络理论、信号与系统、神经网络等;其应用领域包括通信、雷达、人工智能、模式识别、航空航天、图像处理、语音处理等。在GSM手机中应用数字信号处理技术可将语音压缩至13kps;在语音信箱、留言电话方面也均可以采用数字信号处理技术。
学生在学习数字信号处理课程时,常常会觉得枯燥乏味,不仅觉得概念抽象,而且对其中的分析方法与基本理论不能很好地理解与掌握。为了有利于学生系统地理解和掌握课程中的基本内容,充分锻炼实验的应用能力,我对数字信号处理课程的教学进行了针对性的改革与探讨。
1.优化知识结构
数字信号处理课程中知识点比较多,数学推导十分复杂。我通过对本门课程进行深入研究,类比各知识点,发现有一条线路贯穿于课程之中,只要在课程教学中把握好这条线路,复杂的数学推导将会变得清晰,容易识记。我将该课程优化成两大模块:变换域的知识结构和数字滤波器的知识结构。
1.1变换域的知识结构
变换域的知识结构是该课程的第一大模块结构。先引入时域离散信号与系统,通过时域采样定理对模拟信号进行采样得到离散时间信号(序列)内容进行展开讨论,对于几种典型序列和时域离散系统性质:线性、时不变、因果性和稳定性进行重点介绍。其次讲述DTFT、DFS、ZT(IZT)、DFT变换的定义、性质和定理。其中每个变换都遵循严密的数学推理,都围绕着变换的定义、性质和定理展开内容讲解。在教学过程中除了详细讲解各个知识点之外,还要建立之间的联系,归纳出变换之间的联系如图1所示。在建立联系时不仅要从数学公式上进行变换证明,而且要用物理意义进行直观的讲解,使学生能够完全掌握。例如DTFT是单位圆上的Z变换,DFT是DTFT的等间隔采样,等等。
1.2数字滤波器的知识结构
数字滤波器的知识结构是该课程的第二大模块结构,其主要围绕数字滤波器网络结构及其设计方法展开讨论。数字滤波器的网络结构分为:IIR网络结构和FIR网络结构。通过状态变量分析法对网络结构进行分析,确定状态变量,求出状态方程和输出方程。应用脉冲响应不变法和双线性变换法设计低通、带通IIR数字滤波器,分析理解两种具体方法的特点和区别,与分别设计的数字滤波器的频域特性。窗函数法和频率采样法是设计FIR滤波器基本方法,通过实验使学生熟悉线性相位FIR滤波器的幅频特性和相频特性,了解不同窗函数对滤波器性能的影响。数字滤波器的设计和网络结构分析如图2所示。
2.加强实验教学
数字信号处理课程中的理论和结论大都是经过数学推导得来的,比较抽象,也较难理解。MATLAB语言对诸如离散线性卷积、循环卷积、抽样定理、对Z变换进行等间隔采样实现DFT、数字滤波器设计等一系列问题都可通过图形建模使之可视化。实验教学平台可以选择MATLAB软件平台和DSP硬件平台,MATLAB软件平台主要用来演示数字信号处理的概念、性质和原理。例如序列的傅立叶变换、Z变换、离散傅立叶变换的概念和性质等;硬件平台主要实现数字信号处理的算法,例如卷积、FFT算法、FIR滤波器和IIR滤波器设计方法等。
2.1基于MATLAB基础理论实验
数字信号处理课程具有理论性强和应用性强等特点,在教学中教师要加强理论教学。实验教学的设计可以更好地让学生理解理论教学内容,具有启发性,能培养学生的思考能力和科研能力。
针对理论知识点的内容,可将实验各部分的内容划为:系统响应及系统稳定性;时域采样与频域采样;用FFT对信号作频谱分析;IIR数字滤波器设计及软件实现;FIR数字滤波器设计与软件实现。对于所涉及的实验教学内容,要突出强调对实验结果的“物理意义”的理解,使知识点覆盖基本完整且重点突出。
2.2综合性课程设计
在基础理论实验的基础上,为了充分调动学生主动学习的积极性,提高学生钻研科学的兴趣,综合性课程设计是非常有必要的。其可以充分发挥学生的主观能动性,更有利于培养他们独立思考、善于创造、综合运用知识的能力。
根据数字信号处理在双音多频拨号系统中的实际应用,我进行了综合性、设计性实验的探讨。双音多频(Dual Tone Multi Frequency,DTMF)信号是音频电话中的拨号信号。DTMF信号系统是一个典型的小型信号处理系统,它用数字方法产生模拟信号并进行传输,其中还用到了D/A变换器;在接收端用A/D变换器将其转换成数字信号,并进行数字信号处理与识别。
3.综合化教学模式
由于数字信号处理的DTFT、DFS、ZT(IZT)、DFT变换的定义、性质和定理和数字滤波器设计的内容涉及的公式繁多、概念抽象,在学习过程中,学生对其都具有犯难情绪,因而在授课中需要采用形象化教学方法、多样化教学手段、创造自主化学习情境,提高学生的学习兴趣,帮助学生理解公式的物理意义,便于对知识的识记和应用。
3.1形象化教学方法
数字信号处理课程中大量的抽象概念都是用繁琐的公式来描述,其推导过程也相当复杂。在实际的教学中,教师需要采用课程板书的形式,让学生跟上你的思路一步一步去解析公式,完全细化每一个变换的来源。而不是急于把最新的知识、最新的技术一股脑地塞给学生。教师在教学中,必须从公式所代表的具体意义去理解公式,注重物理意义的表达,也要相信学生在打好基础后,能举一反三,学一知十,例如:X(k)=X(e)|k=0,1,…,N-1,说明X(k)为x(n)的傅里叶变换X(e)在区间[0,2π]上的N点等间隔采样。在讲解相关抽象化的知识点时,教师可采用绘制波形图或框图的方法将抽象概念形象化,用直观图形进行解读公式的意义。在教学中,教师可采取合理应用形象化的方法,培养学生看到公式可以联想到公式的物理意义,突破公式难懂难记的问题。
3.2多样化教学手段
在习题课和一些基本原理、基本方法的推导和证明中,教师要采用课堂板书形式,解答思路清晰,在板书的过程中,也要留给学生足够的时间进行领会。
对于难以理解的抽象概念,需要用形象化的图形来进行解析,采用多媒体教学手段,可以节约大量的板书时间,可以化抽象为形象,化枯燥为生动,增加课堂信息量,使学生把重点放到加深对抽象概念的理解上。同时,PPT要有一定的吸引力,比如适当地粘贴一些图片性内容,远比文字要形象和生动,还可以粘贴一些调节气氛的有意思图片,但不可太花哨,速度要放慢,讲一行放一行,切不可地所有的一次都放出来,否则容易误导学生去费劲地阅读PPT上的文字。多媒体教学手段与传统的板书教学相融合,不但可以发挥多媒体手段信息量大、形象、直观等优势,而且板书可以对多媒体的推导细节进行补充,放慢上课节奏,使教学逻辑更严密、交互性更强,其实际效果比单独使用其中的一种都要好。
3.3自主化学习情境
在实际教学中,教师要站在学生的立场上,找到学习入门的最好切入点:结合课堂提问、作业布置、习题讲解等手段,使学生达到基本的教学要求。适当地提问,可以检验学生学得怎么样,将学生的状况及时的反馈给老师,老师再适当地在教学中作调整,将取得很好的教学效果,同时也可加强与学生的双向交流,活跃课堂气氛。
由于该门课程比较抽象,公式又相对繁琐,单靠课堂讲解学生当时可能听得明白,但是课后若不加以巩固,掌握情况也不会太理想,因此每次课后要给学生布置适量的作业,通过批改作业来发现存在的问题并及时解决。
3.4完善化考试模式
本门课程的成绩考核采取传统模式,即由平时表现成绩、期末笔试成绩按比例综合计算。这样的考核方式简单易于操作,这也是一些学生不重视实验、不注重如何应用所学知识解决实际问题的原因之一,结果造成理论联系实际和解决实际问题的能力差。
完善化考试模式,增加上机考试,要求MATLAB上机考试,这能极大地强化学生的自主学习能力及动手实践能力。
4.结语
我针对数字信号处理课程的特点,应用知识的连贯性,建立了各个知识点之间的联系,便于学生理解与联想记忆。MATLAB的引入为数字信号处理教学提供了全新的方法,激发了学生的学习兴趣,变被动学习为主动探索,加强了理论与实践相结合,提高了综合运用知识及解决实际问题的能力。采用了传统板书和多媒体教学相结合的手段,提高了学生的学习兴趣,做到了用中学、学中用,使学生大大增强了学习的兴趣。
参考文献:
[1]高西全,丁玉美.数字信号处理[M].陕西:西安电子科技大学出版社,2008.
[2]A・V・奥本海姆,R・W・谢弗.离散时间信号处理[M].西安:西安交通大学出版社,2001.
[3]姜恩华.数字信号处理课程“教与学”探索[J].淮北煤炭师范学院学报,2009,30,(3):78-81.
[4]王祥春.“数字信号处理”教学方法探讨[J].科技创新导报,2010,16:248.
卷积神经网络意义范文6
关键词:拉格朗日力学; 图像预测; 图像追踪; 天气雷达; 临近预报
DOIDOI:10.11907/rjdk.162240
中图分类号:TP317.4
文献标识码:A文章编号:1672-7800(2016)012-0001-04
0 引言
多普勒天气雷达(以下简称雷达)是现代气象业务研究及应用中不可或缺的重要工具,基于雷达回波及图像的追踪与外推是短时临近预报的关键性技术,也是长期以来的难点问题。准确而及时的雷达外推预报,可以为局地龙卷风、雷暴、短时强降水等极端灾害性天气提供预警,以便做好防御措施,最大限度保障人民及生命财产安全。
近半个世纪以来,很多学者在基于雷达资料的预报领域作出了大量卓有成效的贡献,并逐步形成了一系列较为通行的方法。例如,TREC算法通过逐区域寻求相邻时刻雷达反射率的最大相关,跟踪整个回波区域的移动,并且假设回波具有一致的移动方向[1]。CTREC算法则利用交叉相关分析,跟踪反射率因子大于一定阈值区域的移动,进而推算回波的发展[2]。TITAN是由美国国家大气研究中心(NCAR) 研发的一套风暴识别、跟踪、分析和预报系统,其利用雷达一次完整体扫所构成的三维结构数据对强回波中心进行识别追踪[3-4]。SCIT算法则更加侧重对雷暴单体的有效追踪和预测[5-7]。近年来,又有一些学者试从图形图像学中的光流技术入手,通过分析雷达回波时序图像中的光流场特征进行回波强度和位置的外推预测[8-11]。此外,还有基于神经网络、模式匹配等多种方法[12-14]。
总体来说,这些方法的共同之处是需要分析相邻时刻雷达图像(或基数据)中区域的相似性,而该相似性的度量,如最大相关法,虽然可以计算出最匹配的位置,但匹配和外推结果往往表现出发散性或多个最优解。并且,基于窗口平移的模板匹配算法无法适应区域图像的旋转和变形等情况。
为了克服相关性度量算法所遇到的问题,本文考虑对位移场的分析加以分层,也就是每个特征运动被认为是确定在相对粗糙的空间分辨率下的平稳变化趋势的总和,然后衍生为更高的空间分辨率下的小幅度局部修正,并对此过程进行多次迭代。对于位移场的分析,将充分考虑雷达回波所指示风暴的动力学特征,运用拉格朗日力学相关理论构建预测模型。该方法的研究意义在于进一步提高中小尺度、强对流天气事件的预测能力,且相对于光流等一些大运算量算法,本方法运算规模更小,进而能够更好地满足短临预报业务高时效性的要求。
1 理论与方法基础
1.1 雷达回波外推预测
大量研究表明,合理的外推预测算法可以为降水、雷暴、冰雹等对流天气的预报提供重要支撑[15-17]。基于外推预报的一般性描述为:
其中,pt(x,y)表示任一位置的回波强度,U和V分别表示回波在水平和垂直方向上的偏移量,由U和V共同组成回波移动的速度矢量。g表示一个函数,用来计算单位时间间隔后回波强度的变化。根据式(1),Δpt(x,y)反映了任一点(x, y) 在t 时刻回波强度的变化情况,U和V反映了回波移动的方向和速度。此外,函数g代表一个拉格朗日动力学过程,在此过程中雷达回波的强度是由其沿回波路径移动时在拉格朗日坐标系统中的历史变化推导出的,也就是用当前回波演变的趋势预测回波未来的位置和强度。究其趋势预测的方法,多年来诸多学者作出很多研究,本文主要从拉格朗日力学角度进行分析,提出一种雷达回波图像追踪预测的方法。
1.2 拉格朗日力学
拉格朗日力学是由Joseph Lagrange[18-19]最早提出的一种力学分析方法。由于该方法引用了广义坐标的概念,使得对力学相关问题的研究更具普适性。
在雷达回波图像预测研究中,如何准确得到回波运动矢量是预测需要解决的关键问题。在不考虑天气系统的非线性变化时,拉格朗日力学模型能够满足构建回波发展演变过程的算法要求,式(1) 可以改写为:
有研究表明,对整个回波图像采用统一的U和V所构成的位移矢量,可适用于对大尺度天气系统的预测分析,如对卫星图像的外推预测和云导风的分析[20]。但对于局地强对流天气系统,预测结果往往与实际偏差较大。因此,这也是本文将重点阐述解决的问题。
2 雷达图像追踪预测
2.1 基于拉格朗日力学的追踪算法
在上述理论基础上,根据大气运动演变发展的规律及其在雷达回波图像上的表征特点,构建基于拉格朗日力学的追踪算法模型,如式(3) 所示。
该模型假定所预测的回波图像是当前和过去若干个回波图像以固定时间间隔而变化的函数。f2表征一个用于估测单位时间间隔前后回波图像各相应网格点回波强度值变化率的函数,即回波的演变趋势。在不断生消、发展的对流系统中,ΔP可以为正,也可以为负数。式(4)~式(6) 进一步表明了函数f1和f2,即回波移动矢量及回波强度的计算方法。
2.2 中心极值滤波
为了降低雷达杂波对位移矢量计算的不良影响,本节提出采用一种滤波器对雷达基数据进行滤波处理。其基本思想是:逐网格分析回波强度特征,如果某格点的值大于周边最相邻一圈(共8个网格)的最大值,或者该值小于周边最相邻一圈的最小值,则将当前网格点回波强度值用上述8个网格的最大值或最小值替代。
如图1所示,位于当前中心点的数值39大于其最邻近一圈8个网格的最大值。因此,使用数值23替换当前网格的39。
从图像上看,该滤波方法可显著降低图像中的椒盐噪声,从实际效果上看,该方法可以有效过滤单点的杂波奇异值,较传统的均值滤波和中值滤波更好地保留了回波细节[21-22],特别是回波中梯度变化较大的边缘区域。
2.3 分层外推预测算法
由于天气系统复杂多变,特别是尺度较小的局地强对流,其生命周期短的只有几分钟到几十分钟,由于其空间尺度小,生消速度快,因此,包括基于拉格朗日力学在内的各种线性关系外推算法,其预测准确性都存在一定的局限性。为了改善这一问题,本节提出采用分层的外推预测方法。该思想最早由Bellerby等 [20]提出,并研究应用于卫星图像的云顶平流场分析中。
该算法的关键流程为:先将当前雷达回波图像逐级抽稀,降低图像的分辨率,以模糊回波细节,由此粗略估算出回波主体的移动趋势;然后再反向逐级提高图像分辨率,在较粗的移动趋势基础上,细化和订正位移矢量的细节。从而产生一个在空间上连续和平滑的且不受模板边界不连续性影响的矢量场。计算方法如式(7)所示:
对于每一级抽稀计算,都是将当前一级各网格点的回波强度值经由公式(7)计算,并往复迭代。其中P表示某一点的回波强度,L和L-1代表抽稀的层级,在本文下述实验中,采用的最高层级为4。
在计算两个相邻时刻图像中回波的位移时,可以借鉴交叉相关法,计算方法如式(8),在每个选定的匹配窗口遍历出最大相关矩阵的位置,从而输出位移矢量。
式(8) 中,P和P’ 分别表示相邻两个时刻(如t-Δt与t)的回波,(x, y) 表示图像中的某一点,X和Y表示匹配窗口的大小。再将两幅回波图像之间的网格还原或内插到其先前空间分辨率的两倍,重复上述匹配。该迭代过程还考虑到了由非矩形网格代表的局部扭曲,结合这些局部扭曲,使外推预测算法能够适应旋转、扩展、缩小等回波图像形态上的变化。如此插值和匹配计算,迭代直到网格分辨率达到原始雷达图像分辨率。
3 实验与结果分析
3.1 实验数据说明
为检验所述方法的预测效果,本实验数据使用2016年6月南京地区多普勒天气雷达的基数据文件。该雷达使用VCP-21体扫模式,探测周期为6分钟。实验选用1.5°和2.4°仰角的基本折射率数值。为方便计算,实验前将原始数据由极坐标系统转换为平面直接坐标系统,数据的图像分辨率为920×920。为减少样本数量,从全部7199个基数据文件中筛选出以230库长为半径,其覆盖区域内具有大面积强回波的数据文件,共计880个。
3.2 实验结果分析
为检验雷达回波图像预测的准确性,使用与预测同一时刻的雷达实际探测数据作比对分析,计算过程采用交叉相关检验法。
首先以自然日为单位,统计逐日样本数据中每份预测结果与实况交叉检验的相关系数的平均值,如图2所示。
图2中3种图案标记分别表示预测6分钟、30分钟和60分钟的检验结果,每个值代表当日所有样本检验结果的平均值。横坐标为2016年6月的逐个日期,纵坐标为相关系数,其中横坐标4、5、9、10等日期没有标记图案,原因是这些日期的当日为晴天或少云,体现在雷达上没有强的大面积回波,因此没有列入样本数据进行分析。从图2中还可以看出,本方法预测未来6分钟的结果与实况相比,相关系数超过87%,平均达到93%以上,而随着预测时效的延长,预测准确率逐步下降,在未来60分钟的预测中,全月平均相关系数为70%左右。
进一步统计分析每次预测准确率的稳定性。以6月19日全天样本数据为例,统计每批样本所预测6、12、18至60分钟结果分别与实况交叉相关检验的情况,如图3所示。
图3中,每个柱状条的顶端和底端分别表示检验的相关系数的最大值和最小值,柱状条中间的黑色方形表示相关系数的均值。可以看出,随着预测时效的增长,其预测准确率的个体差异也随之增大。在前6分钟的预测中,该差异约为3%,30分钟时约为8%,而到预测60分钟时,差异进一步增大到20%。结果与强对流天气系统具有生命史短、突发性强,水气生消发展变化快的特点是相一致的。
4 结语
由于天气系统复杂多变,特别是对于中小尺度的对流系统,其生消、发展时间短、变化快,如何进行准确、有效的预报是提升当今短时临近预报的关键环节之一。考虑到大气中水气等物质的移动变化应遵循一般力学规律,而拉格朗日力学正是表征和计算动力学问题的普适性方法,因此,本文的预测动力模型建立在拉格朗日力学关系基础之上。又由于天气系统的变化表现在雷达图像上,其回波图形具有相当的不确定性,因此,本文提出采用分层的位移场分析方法,先假定位移矢量是在相对粗糙的空间分辨率下的平稳变化趋势的总和,然后在更高空间分辨率下作小幅度局部修正,并如此进行多次迭代。为了减少低仰角杂波对实验结果的影响,提出采用中心极值滤波对实验数据进行处理。结合上述理论构建起基于拉格朗日力学的追踪预测模型及算法流程,以雷达基本反射率因子作为输入场,追踪和预测回波在空间和时间上的位移矢量,并由此预测未来一段时间雷达回波的位置和强度。
实验部分采用1个月样本数据对本算法模型进行检验,通过预测结果与同时刻实况的比对分析,得出两者的相关性和个例稳定性等评价指标。结果表明,该方法能够较好地预测局地天气系统的演变过程,在未来30分钟的预测中准确率平均超过80%,且对于辅助预报未来60分钟内的局地龙卷风、强降水、雷暴等灾害性事件具有实践应用的价值。
参考文献:
[1] 刘红艳,魏鸣.多普勒雷达风场资料在临近预报中的应用[J].大气科学学报,2015(4):483-491.
[2] 郑永光,林隐静,朱文剑,等.强对流天气综合监测业务系统建设[J].气象,2013(2):234-240.
[3] 周康辉,郑永光,蓝渝.基于闪电数据的雷暴识别、追踪与外推方法[J].应用气象学报,2016,(2):173-181.
[4] DIXON M, WIENER G.TITAN:thunderstorm identification,tracking,analysis,and nowcasting―a radar-based methodology[J].Journal of Atmospheric & Oceanic Technology, 1993, 10(6):785-797.
[5] SHAH S, NOTARPIETRO R, BRANCA M.Storm identification,tracking and forecasting using high-resolution images of short-range X-band radar[J].Atmosphere, 2015, 6(5):579-606.
[6] 庄旭东,胡胜,陈荣,等.“雨燕”中风暴算法与新一代雷达SCIT产品的对比分析[J].热带气象学报,2011(3):299-306.
[7] DUAN Y, XU Y, ZHI S.Application analysis of the hail suppression operation based on the improved SCIT Algorithm[J].Meteorology & Disaster Reduction Research, 2014(15):23-29.
[8] 曹春燕,陈元昭,刘东华,等.光流法及其在临近预报中的应用[J].气象学报,2015(3):471-480.
[9] GARCIA F, CERRI P, BROGGI A, et al.Data fusion for overtaking vehicle detection based on radar and optical flow[J].2012, 7(2272):494-499.
[10] 王兴,王新,苗春生,等.基于GPU加速的雷暴追踪外推方法研究[J].南京师范大学学报:工程技术版,2015(1):35-42.
[11] STAINVAS OLSHANSKY I, BILIK I, BIALER O.Doppler-Based Segmentation and Optical Flow in Radar Images: US20160084953[P].2016.
[12] 盛仲飙.BP神经网络在数据预测中的应用[J].软件导刊,2016(1):147-148.
[13] 王利卿,黄松杰.基于多尺度卷积神经网络的图像检索算法[J].软件导刊,2016(2):38-40.
[14] WANG X, GU Y H, MIAO C S, et al.Parallelization and performance optimization of radar extrapolation algorithm with OpenCL[J].Journal of Internet Technology, 2016(17):323-330.
[15] .雷达外推预报与暴雨数值模式融合预报降水方法研究[D].北京:中国气象科学研究院,2013.
[16] 张蕾.多普勒雷达回波演变的动力学分析及临近预报算法改进[D].南京:南京信息工程大学,2015.
[17] FOX N I, WEBB R, BALLY J, et al.The impact of advanced nowcasting systems on severe weather warning during the sydney 2000 forecast demonstration project:3 November 2000[J].Weather & Forecasting, 2004, 19(1):97-114.
[18] 李艳艳.相似空间中不变的欧拉-拉格朗日方程[J].河南大学学报:自然科学版,2014,03:273-276.
[19] ERICKSEN R E, GUITERAS J J, LARRIVEE J A, et al.A parachute recovery system dynamic analysis [J].Journal of Spacecraft & Rockets, 1967, 4(3):321-326.
[20] BELLERBY T J.High-resolution 2-D cloud-top advection from geostationary satellite imagery[J].IEEE Transactions on Geoscience & Remote Sensing, 2006, 44(12):3639-3648.