卷积神经网络的主要思想范例6篇

前言:中文期刊网精心挑选了卷积神经网络的主要思想范文供你参考和学习,希望我们的参考范文能激发你的文章创作灵感,欢迎阅读。

卷积神经网络的主要思想

卷积神经网络的主要思想范文1

关键词:卷积神经网络;点击率预测;搜索广告

中图分类号:TP391.41 文献标识号:A 文章编号:2095-2163(2015)04-

Click-Through Rate Prediction for Search Advertising based on Convolution Neural Network

LI Siqin, LIN Lei, SUN Chengjie

(School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001, China)

Abstract: Click-Through Rate (CTR) prediction is the foundation of search advertising. Nowadays, lots of researches have been explored to predict CTR, and most of those researches either rely on liner model or employ method of recommendation system. However, the relations between different features in CTR predication have not been fully explored in previous works, and the relations between different features also cannot be fully embodied. In this paper, CTR prediction for search advertising based on convolution neural network is proposed, and process of convolution neural network simulating the process of human thought on feature learning is explained. Furthermore, the performance of different features have been analyzed in the task of predicting CTR. Experiments are conducted on the dataset of KDD Cup 2012 Track2 and the proposed method achieves 0.7925 in AUC, demonstrating the effectiveness of the proposed approach.

Keywords: Convolution Neural Network; Click-Through Rate Prediction; Search Advertising

0 引 言

随着Web搜索技术的成熟,搜索广告已经成为互联网行业的主要收入来源之一,其根据用户输入的查询词,在搜索的结果页面呈现出相应的广告信息。广告媒介的收益通过每次点击费用(CostPerClick,CPC)与广告点击率(Click-Through Rate,CTR)预测共同影响而得到,即CPC*CTR。由于用户点击广告的概率随着广告位的排放顺序呈递减趋势,因此对CTR进行准确高效的预测,并将CTR高的广告投放在搜索结果页面靠前的位置,不仅能增加广告媒介的收益,还能提高用户对搜索结果的满意程度。

广告点击率预测是广告算法中最核心的技术,近年来被学术界广泛关注。部分学者使用基于推荐方法的模型来解决CTR预测问题。霍晓骏等人[1]采用协同过滤算法,为页面找到与其相似的其他邻居页面,实现CTR的预测,以此作为基础进行广告推荐,但当相似页面的数量增加时,该方法的结果质量会严重下滑。Kanagal等人[2]提出了一种聚焦矩阵分解模型,针对用户对具体的产品的喜好以及相关产品的信息进行学习,解决因用户-产品交互活动少而造成的数据稀疏问题。在文献[2]的基础上,Shan等人[3]提出了一种立方矩阵分解模型,通过对用户、广告和网页三者之间关系的立方矩阵进行分解,利用拟合矩阵的值来预测CTR,虽然立方矩阵分解模型增加了一维交互关系,但所刻画的交互关系仍然十分局限,不能在CTR预测中充分挖掘广告所有特征之间的联系。

作为典型的预测问题,很多研究中通过将CTR预测问题看作分类或者回归问题来解决,其中最常见的是应用线性模型来预测CTR。Chapelle等人[4]使用动态贝叶斯网络,通过对用户产生的点击过程建立模型,考虑级联位置的信息模拟出特定位置与相近位置的相关性,以判断该位置上的广告是否满足用户搜索要求。Chakrabarti等人[5]利用点击反馈的相关性,通过在网页和广告词等特征上使用逻辑回归模型提高广告检索和预测的效果。Wu等人[6]基于融合的思想,将不同线性模型的实验效果相结合,来提高搜索广告CTR预测的结果。真实的场景中CTR的预测并非简单的线性问题,因此,一些学者开始使用非线性模型来解决CTR的预测。Dave等人[7]在搜索广告点击信息以及广告商账户信息上提取语义特征,使用基于投票思想的梯度提升决策树模型,提高了CTR预测的效果。Zhang等人[8]利用神经网络模型对影响搜索广告点击率的因素进行的探索,从特征因素方面提高CTR预测的结果,但是资源单一,数据交互的关系没有获得良好的利用。

本文对基于卷积神经网络(Convolution Neural Network,CNN)的CTR预测进行研究,通过卷积与亚采样操作的结合,能更好地学习出数据特征之间的关系,不仅解决了线性模型无法模拟真实广告数据场景的问题,也解决了浅层学习模型无法深入挖掘特征间相互关系的问题,并且较之于传统的神经网络,CNN能更好地理解特征之间的关系。在真实的数据集上的实验验证了本文的方法能够提高搜索广告中CTR预测的AUC值。

1卷积神经网络模型

1.1 卷积神经网络基本模型

卷积神经网络作为人工神经网络之一,目前已成为深度学习领域中研究的热点,权值共享以及局部窗口滑动的特点使之能更好地模拟出生物神经网络。卷积神经网络在结构上有两个重要的组成部分:卷积层和亚采样层。如图1所示。

图1 卷积层与亚采样层结构

Fig.1 Convolution layer and sub-sampling layer structure

在卷积层中,原始特征通过卷积核进行卷积得到输出的特征,使用不同的卷积核就可以得到一系列不同的输出特征。对卷积层的计算,有如下公式:

(1)

这里, 是sigmoid 函数, , ; 代表输入特征上选定的窗口,即在卷积过程中当前卷积核在计算时所对应在输入特征上的位置; 和 分别是第 层输入特征和第 层输出特征上相应的值; 是卷积核的权重值; 是特征的偏置,每一层对应一个。

卷积过程,一个卷积核通过滑动会重复作用在整个输入特征上,构建出新的特征。同一个卷积核进行卷积时,共享相同的参数,包括同样的权重和偏置,这也使要学习的卷积神经网络参数数量大大降低了。而当我们使用不同的卷积核进行卷积时,可以得到相应的不同的输出特征,这些输出特征组合到一起,构成卷积层的输出。

在亚采样层,前一个卷积层的输出将作为该层的输入特征,首先设定大小的窗口,然后通过滑动,用窗口区域中最大(或平均)的特征值来表示该窗口中的特征值,最后组合这些特征值得到降维后的特征。亚采样过程可表示如下:

(2)

这里,类似于卷积层, 和 分别是第 层输入特征和第 层输出特征上相应的值, 是特征的偏置; 表示取最大值 或者平均值 的函数。

典型的卷积神经网络通常由n(n>=1)个卷积层和亚采样层以及最末尾的m(m>=1)全连接层组合而成。一个亚采样层跟随在一个卷积层后出现,通过这若干卷积层和亚采样层后得到的特征,将经过全连接层与输出层相连。全连接层公式如下:

(3)

这里, 是sigmoid函数, 是计算第 层到第 层时的权重值。

1.2基于卷积神经网络的CTR预测模型

研究中使用卷积神经网络对搜索广告的CTR进行预测,网络结构如图2所示。

图2 卷积神经网络在搜索广告点击率预估中的应用

Fig.2 Convolution neural network in search ad click rate through prediction

实验中一共设置了两个卷积层、两个亚采样层以及一个全连接层。首先从历史日志中提取相应的特征构建出输入(Feature_Input),设置好卷积的窗口大小后根据公式(1)对输入特征进行卷积,每一次卷积是对窗口内所有值的组合,因此卷积过程相当于特征融合过程。对卷积后得到的特征,设置亚采样的窗口并根据公式(2)进行最大值-采样,选取出窗口中的最有表达能力的特征值(最大特征值)表示整个窗口的特征,因此亚采样过程相当于特征的萃取过程。整个卷积和亚采样过程的结合,模拟出了人对事物的理解和总结的过程。最后将特征经过一层全连接后连接到输出,得到最终的预测结果。

在一次特定的卷积(或亚采样)全过程中即训练的一次迭代过程中,权值并不会随着窗口的滑动而改变,即在计算中,所有窗口滑过的特征享受同样的权值。这也是CNN区别于其他神经网络的特点――权值共享。如此即使得CNN更方便训练,更能多角度地对特征进行学习。

2特征构建

本文所采用的实验数据集为KDD Cup 2012中Track 2提供的数据集。该数据由腾讯公司下的搜索品牌搜搜(SOSO)搜索引擎提供,因为涉及公司商业信息,数据经过哈希处理。实验数据集中,每条记录包含12个属性,各属性详解如表1所示。

研究按照实际含义将这12个属性构造了四大类特征:历史点击率特征、相似度特征、位置特征和高影响力特征。

2.1基于卷积神经网络的CTR预测模型

历史点击率特征是不同类别ID在历史数据中的点击率,虽然比较简单但十分有效,因为历史点击率在一定程度上代表了类别ID对某个广告感兴趣程度的高低,当一个ID对某个广告的历史点击率高时,意味着其对这个广告更感兴趣,后续点击的概率也更大。

历史点击率( )是点击数( )与展示数( )之比,在统计计算过程发现有很多情况下有些类别信息没有点击实例,因此研究采用了平滑方法解决零值问题,根据公式(4)来计算平均点击率。计算公式如下:

(4)

公式中的 和 是调节参数,根据公式(4)计算出AdID,AdvertiserID,QueryID,KeywordID,TitleID,DescriptiomID,UserID的历史点击率。

2.2相似度特征

相似度特征用来刻画属性两两之间的相似程度,用户搜索的内容与被投放的广告属性相似度高时,广告被点击的概率更大。例如当搜索内容Query与广告关键字属性Keyword相似度高时,意味着网页投放的广告与用户期望搜索的广告结果相似度高,更符合用户点击广告的动作。

通过对Query、Keyword、Title、Description的属性描述文件构造出相关的TF-IDF向量,Query为用户搜索内容,Keyword,Title,Description是广告的相关属性,数据集提供的属性信息都是经过哈希后的数字形式,但是属性之间的相对含义不变,然后计算相互之间的余弦相似度作为特征。

2.3位置特征

该特征描述的是指定广告在搜索结果页面中的位置信息。用户搜索时需求的多样化要求在对广告进行排序和投放时,在结果页面靠前的位置中尽可能地投放满足用户需求的广告,从而最大化用户的满意度、提高用户点击的兴趣[9]。因此,研究即用当前预测广告的相对位置Pos来刻画该广告在结果页面中排序靠前的程度,其定义如下:

(5)

这里, 指页面投放的广告总数, 指当前所预测广告的位置。

2.4位置特征

在预测模型中,ID属性信息通常采用one-hot形式的特征编码方式,在将不同的属性经过one-hot编码后的特征向量组合在一起,这样方式简单直观,却使得特征的维度巨大并且非常稀疏。然而在这庞大且稀疏的特征中,绝大部分维度上的特征值对整个模型的预测结果贡献非常小甚至为零,只有少数维度上的特征值对预测结果有较高的影响力。因此研究采用L1范数正则化的方式,在逻辑回归模型的代价函数中加入L1范数[10],使得模型学习得到的结果满足稀疏化,在学习参数中按大小顺序取出前N维权重较大的,将这N维权重对应位置上的特征值构建新的特征,称为高影响力特征,考虑到实验硬件,取N=180。

3 实验结果与结论分析

3.1数据准备

实验目标是通过给定的信息预测搜索网页的广告点击率,由于数据量过大并且正负样本不平衡,实验中从训练集随机采样10%作为本文实验中模型训练的训练集,既缩小了样本空间,同时随机采样也保持了原始数据的分布信息。实验中随机抽取部分样本作为验证集用于参数的调节。本文所用测试集为 KDD Cup 2012中track 2的全部测试数据,因此本文的结果与KDD Cup 2012中track 2比赛的结果具有可比性。数据的统计信息如表2所示。

这里, 、 分别表示结果中预测对的正样本数和负样本数, 、 分别表示结果中预测错的正样本数和负样本数。对于广告点击率预测问题,较大的AUC值代表了较好的性能。

3.2实验设置和结果分析

实验的操作系统为Ubuntu 12.04 LTS OS,卷积神经网络在4G RAM 的NVIDIA GeForce GT 610 GPU条件下运行。过程中选用了Dense Gaussian对卷积层、亚采样层的边和节点进行初始化,用常数初始化输出层,学习卷积神经网络各边权值时的优化函数使用梯度下降算法,其中学习率为0.01、动量项为0.9,训练步数为100,设置公式(4)中参数α=0.05,β=75。实验时使用逻辑回归模型(LR)、支持向量回归模型(SVR)和深度神经网络(DNN)作为对比方法,所有方法都使用相同的特征,其中DNN的层数以及每层的节点数与卷积神经网络相同。

具体地,首先探究了卷积神经网络中节点的设置,因为在CNN中后续层的节点数根据第一个卷积层和每层卷积(或亚采样)滑动窗口的大小计算得到,并以第一个卷积层节点的设置为实验变量,同时控制DNN中每层的节点数均与CNN相同,在验证集上的实验结果如图3所示。

从图3可以看出,随着节点的增加,AUC的值也在不断增长,在一定范围内,节点数越多,实验的结果越好。但随着节点数的增大,模型的训练时间也在延长,对设备的开销需求也在升高,综合上述因素,最终将第一层的节点数设为9 216。

CNN与各对比实验的实验结果如表3所示,可以看出CNN的效果最佳,此外在表中还列出了KDD Cup 2012 track 2比赛中第一名的结果。DNN的AUC值优于LR和SVR,验证了深度学习模型比浅层学习模型更适合解决CTR预估问题,同时CNN的结果高于DNN,说明CNN中卷积层的特征融合和亚采样层的特征萃取过程是有效的。本文中CNN目前的实验结果略低于KDD Cup 2012 track 2中第一名的结果,原因是比赛队伍使用了多模型融合并提取了庞大的(千万维)输入特征。

进一步地,实验探索了每一类特征对搜索广告点击率预测的贡献。在所有特征的情况下,去掉某一类特征来进行预测,实验结果如表4所示。实验结果表明,去掉任意一类特征都将使得实验效果有所下降。其中去掉历史点击率特征效果下降得最明显,说明用户是否点击广告,与其之前的点击行为非常相关。而去掉位置特征时,效果下降得最为不明显,因为在实验使用的数据集中,每个页面最多仅呈现三个广告,页面中的广告数少时,位置对用户点击的影响小。

4 结束语

对搜索广告点击率的有效预测不但能够更好的提高在线广告投放的性能,增加广告商的收益,还能增强用户的体验。研究使用卷积神经网络CNN对搜索广告点击率进行预测,对特征因素的分析之后,在真实数据的环境下对搜索广告点击率进行预测的实验本文的方法的效果相对于其他方法有明显的提高。本文的主要贡献有:(1)本文提出了基于卷积神经网络的搜索广告点击率预测的方法。(2)针对高维特征,提出了一种特征选择策略,可以在计算能力受限的情况下使用CNN模型来解决广告点击预测问题,并取得较好效果。在未来的工作中,一方面要继续研究更有效的特征来提高对点击率的预测效果,另一方面也将尝试对CNN模型的内部细节进行改进,使之更适合我们的预测场景。

参考文献:

[1] 霍晓骏,贺牛杨燕. 一种无位置偏见的广告协同推荐算法[J]. 计算机工程, 2014, 40(12): 39-44.

[2] BHARGAV K, AHMED A, PANDEY S, et al. Focused matrix factorization for audience selection in display advertising[C]// Data Engineering (ICDE), 2013 IEEE 29th International Conference on, Brisbane , Australia: IEEE, 2013:386-397.

[3] SHAN Lili, LEI Lin, DI Shao, et al. CTR Prediction for DSP with Improved Cube Factorization Model from Historical Bidding Log[M]// C K Loo, et al(Eds.): Neural Information Processing. Switzerland:Springer,2014,8836:17-24.

[4] OLIVIER C, ZHANG Ya. A dynamic bayesian network click model for web search ranking[C]//Proceedings of the 18th international conference on World wide web. Madrid: ACM,2009:1-10.

[5] DEEPAYAN C, AGARWAL D, JOSIFOVSKI V. Contextual advertising by combining relevance with click feedback[C]//Proceedings of the 17th international conference on World Wide Web. Beijing: ACM,2008:417-426.

[6] WU Kuanwei, FERNG C S, HO C H, et al., A two-stage ensemble of diverse models for advertisement ranking in KDD Cup 2012[J]. KDDCup, 2012.

[7] DAVE K S, VARMA V. Learning the click-through rate for rare/new ads from similar ads[C]// Proceedings of the 33rd international ACM SIGIR conference on Research and development in information retrieval, Geneva, Switzerland:ACM,2010.

[8] ZHANG Ying, JANSEN B J , SPINK A. Identification of factors predicting clickthrough in Web searching using neural network analysis[J]. Journal of the American Society for Information Science and Technology, 2009, 60(3): 557-570.

[9] 林古立.互联网信息检索中的多样化排序研究及应用[D].华南理工大学,2011.

卷积神经网络的主要思想范文2

关键词:人脸识别技术;病毒管控;人工智能;神经网络

互联网在今天的社会中发挥着举足轻重的作用。如今社会,随着许多人工智能技术、网络技术、云计算等互联网技术不断发展,像人脸识别等技术的应用越来越广泛,在控制病毒传播途径等场合发挥了巨大作用,不断地提高着社会的安全性和便利性,不仅提高了防控中病毒检测效率,也为病毒的控制提供了可靠的技术方法,能够及时发现和控制公共场所的安全隐患因素,避免对社会经济、居民生活造成破坏,。但目前的人脸识别等技术还存在许多缺陷,需要完善和革新,充满着巨大的潜力和进步空间。

1人脸识别技术研究意义

人脸识别技术是一种生物特征识别技术,最早产生于上世纪60年代,基于生理学、图像处理、人机交互及认知学等方面的一种识别技术。相比于其他人类特征像指纹识别、声纹识别、虹膜识别等技术,人脸识别虽然存在人脸识别单一性低,且区分度难度高、易受环境影响等不足。但是人脸识别技术拥有速度快、大范围群体识别及非接触、远距离可识别等优势,都是其他生物识别识别技术所不具备的,而在传播性强、感染风险大的病毒传播过程中,这些显然是必须要考虑的重要影响因素。通过将人脸识别等人工智能技术引入信息管理系统,综合集成视频监控、图像处理、深度学习和大数据等技术,结合非接触测温、定位等技术,助力病情防控,在一定程度上推动病毒病情防控信息化、智能化发展进程。可作为加强公共场所的人员的体温实时监测、地址信息定位的监控管理,规范公共场所针对病毒传播的预防行为。

2人脸识别技术

2.1人脸检测技术

人脸检测是自动人脸识别系统中的一个关键环节。早期的人脸识别研究主要针对具有较强约束条件的人脸图象(如无背景的图象),往往假设人脸位置静止或者容易获取。人脸检测分为前深度学习时期,AdaBoost框架时期以及深度学习时期。前深度学习时期,人们将传统的计算机视觉算法运用于人脸检测,使用了模板匹配技术,依赖于人工提取特征,然后用这些人工特征训练一个检测器;后来技术发展,在2001年Viola和Jones设计了一种人脸检测算法,它使用简单的Haar-like特征和级联的AdaBoost分类器构造检测器,检测速度较之前的方法有2个数量级的提高,并且保持了很好的精度,称这种方法为VJ框架。VJ框架是人脸检测历史上第一个最具有里程碑意义的一个成果,奠定了基于AdaBoost目标检测框架的基础,使用级联AdaBoost分类器进行目标检测的思想是:用多个AdaBoost分类器合作实现对候选框的分类,这些分类器组成一个流水线,对滑动窗口中的候选框图像进行判定,确定检测目标是人脸还是非人脸。Adaboost框架技术的精髓在于用简单的强分类器在初期快速排除掉大量的非人脸窗口,同时保证高的召回率,使得最终能通过所有级强分类器的样本数数量较少。在深度学习时期,开始将卷积神经网络应用于人脸检测领域。研究方向有两种:一是将适用于多任务的目标检测网络应用于人脸检测中;另一种是研究特定的的人脸检测网络。人脸检测技术具有特殊唯一性和稳定性,在现今社会对于构建居民身份识别系统,病毒传播防控系统,以及计算机视觉交互模型的构建具有广泛的应用。人脸检测技术不仅作为人脸识别的首要步骤,也在许多其他领域发挥巨大影响,如人脸关键点提取、人脸追踪、基于内容的检索、数字视频处理、视频检测、安防监控、人证比对、社交等领域都有重要的应用价值。数码相机、手机等移动端上的设备已经大量使用人脸检测技术实现成像时对人脸的对焦、图集整理分类等功能,各种虚拟美颜相机也需要人脸检测技术定位人脸。评价一个人脸检测算法好坏的指标是检测率和误报率,我们定义检测率为:算法要求在检测率和误报率之间尽量平衡,理想的情况是达到高检测率,低误报率。

2.2人脸识别技术

目前主要流行的人脸识别技术包括几何特征识别,模型识别,特征脸识别和基于深度学习/神经网络的的人脸识别技术等。人脸特征识别主要通过对人脸面部结构特征如眼睛、鼻子等五官几何特点及其相对位置分布等,生成图像,并计算各个面部特征之间的欧式距离、分布、大小等关系该方法比较简单,反应速度快,并且具有鲁棒性强等优点,但是在实际环境下使用容易受检测的环境的变化、人脸部表情变化等影响,精度通常不高,细节处理上不够完善。模型识别技术主要包括隐马尔可夫模型、主动表象模型、主动形状模型等,识别率较高,并且对表情等变化影响较小。特征脸识别来源于主成分描述人脸照片技术(PCA技术),从数学上来讲,特征脸就是人脸的图像集协方差矩阵的特征向量。该技术能有效的显示人脸信息,效率较高。基于深度学习的人脸识别是获取人脸图像特征,并将包含人脸信息的特征进行线性组合等,提取人脸图像的特征,学习人脸样本数据的内在规律和表示层次。可以采用如三层前馈BP神经网络。BP神经网络是1986年由Rumelhart和McClelland为首的科学家提出的概念,是一种按照误差逆向传播算法训练的多层前馈神经网络,是应用最广泛的神经网络模型之一。BP网络本质上是一种能够学量的输入与输出之间的映射关系的输入到输出的映射,从结构上讲,BP网络具有输入层、隐藏层和输出层;从本质上讲,BP算法就是以网络误差平方为目标函数、采用梯度下降法来计算目标函数的最小值。BP神经网路输入层有n个神经元节点,输出层具有m个神经元,隐含层具有k个神经元,采用BP学习算法训练神经网络。BP算法主要包括两个阶段:向前传播阶段和向后传播阶段。在向前传播阶段,信息从输入层经过逐级的变换,传送到输出层。这个过程也是在网络完成训练后正常运行时执行。将Xp作为输入向量,Yp为期望输出向量则BP神经网络向前传播阶段的运算,得到实际输出表达式为向后传播阶段主要包括两大步骤:①计算实际输出Op与对应理想输出Yp之差;②按极小化误差方法调整带权矩阵。之所以将此阶段称为向后传播阶段,是对应于输入信号的正常传播而言的,因为该阶段都需要收到精度要求进行误差处理,所以也可以称之为误差传播阶段。(1)确定训练集。由训练策略选择样本图像作为训练集。(2)规定各权值Vij,Wjk和阈值Φj,θk参数,并初始化学习率α及精度控制参数ε。(3)从训练集中取输入向量X到神经网络,并确定其目标输出向量D。(4)利用上式计算出一个中间层输出H,再用本式计算出网络的实际输出Y。(5)将输出矢量中yk与目标矢量中dk进行比较,计算输出误差项,对中间层的隐单元计算出L个误差项。(6)最后计算出各权值和阈值的调整量。所以,卷积神经网络算法是通过训练人脸特征库的方式进行学习生成,对不同环境下不同表现情况的人脸图像识别有更高的精确性。

2.3人脸识别软件实现方式

(1)采集人脸数据集,然后对数据集进行标注,对数据进行预处理变成训练格式。(2)部署训练模型,根据训练算法所需依赖部署电脑环境。(3)训练过程,下载预训练模型,将人脸数据集分批次作为输入开始训练,最终输出为训练好的模型。(4)部署训练好的模型,捕获画面即可对画面中的人脸进行实时检测。

3人脸识别在病毒传播防控中的应用

通过人脸识别技术,可以实现无接触、高效率的对流动人员进行信息的收集、身份识别、定位地址信息等操作,大大减少了传染的可能性,切断了病毒传播途径,大大提高了工作效率。通过提前收录人脸信息,采用深度学习对人脸特征模型的训练学习,即可获取人脸识别特征模型,再次验证时即可实现人脸识别和个人信息快速匹配。AI人工智能帮助人们更好的解放双手,为人们的生活和工作提供了重要的帮助。本文还提出了在人脸识别的系统基础上,可以加入定位系统、测温系统等,依托物联网技术和云计算大数据,更加优化管控系统的效率。病毒传播防控中人脸识别系统流程可以概括为图2。

4结语

本文研究了一种人脸识别技术在病毒传播管控系统中的应用,并分析设计了人脸识别实时监测及病毒管控系统的流程,大大提高了信息管理的效率,减弱了传播风险。作为一门新兴技术,目前的人脸识别技术还存在着诸多不足之处,像存在环境光的影响、人脸表情变化、妆容变化、佩戴口罩等都会影响到系统识别精度;另外安全问题也引人深思:现今人脸支付方式迅猛发展,录入的人脸模型信息数据库存在有一定的安全风险,一旦被不法分子盗取信息后果不堪设想,所以模型数据库安全、网络安全,也是系统开发中必须重视的问题。人脸识别为代表的人工智能技术的研究,在病毒传播管控作出重大贡献,依托我国领先的计算机网络技术和5G等技术,加强人工智能技术与5G通信技术的结合,优势互补,以此来加快大数据、人工智能和物联网技术发展进程,对我国社会进步,促进城市建设和管理朝着高效、秩序、和谐稳定的方向不断发展,增强我国的经济实力有着重大价值和研究意义。

参考文献

[1]王彦秋,冯英伟.基于大数据的人脸识别方法[J].现代电子技术,2021,44(7):87-90.

[2]李刚,高政.人脸自动识别方法综述[J].计算机应用研究,2003,20(8):4-9,40.

[3]马玉琨,徐姚文.ReviewofPresentationAttackDetectioninFaceRecognitionSystem[J].计算机科学与探索,2021,7(15):1195-1206.

[4]余璀璨,李慧斌.基于深度学习的人脸识别方法综述[J].工程数学学报,2021,38.

[5]王红星,胡永阳,邓超.基于LBP和ELM的人脸识别算法研究与实现[J].河南理工大学学报(自然科学版),2005.

[6]钟陈,王思翔,王文峰.面向疫情防控的人脸识别系统与标准研究[J].信息技术与标准化,2020,6,11-13,1671-539X.

[6]彭骏,吉纲,张艳红,占涛.精准人脸识别及测温技术在疫情防控中的应用[J].软件导刊,2020,10,1672-7800.

卷积神经网络的主要思想范文3

本文作者:工作单位:安徽埃夫特智能装备有限公司

从控制系统设计角度来说,可以采用辩证法内外因基本原理来分析影响重载机器人控制品质的因素,首先,如果系统存在动力学耦合、柔性等非线性因素,仅仅采用传统的线性控制很难获得良好的控制品质,底层伺服回路的控制缺陷是影响机器人控制品质的内因。第二,如果运动规划环节处理不当,传输给底层运动控制回路的运动指令不合理,即存在位置不连续,速度不连续,加速度跃变等情况,对系统会产生严重的冲击,即便底层伺服控制设计再优秀,同样也会严重影响系统控制品质,这就是所谓的外因。下面就从内外因角度对目前在机器人运动规划和底层伺服控制方面的相关进展进行综述。机器人运动规划方法运动规划与轨迹规划是指根据一定规则和边界条件产生一些离散的运动指令作为机器人伺服回路的输入指令。运动规划的输入是工作空间中若干预设点或其他运动学和动力学的约束条件;运动规划的输出为一组离散的位置、速度和加速度序列。运动规划算法设计过程中主要需要考虑以下三个问题:(1)规划空间的选取:通常情况下,机器人轨迹规划是在全局操作空间内进行的,因为在全局操作空间内,对运动过程的轨迹规划、避障及几何约束描述更为直观。然而在一些情况下,通过运动学逆解,运动规划会转换到关节空间内完成。在关节空间内进行运动规划优点如下:a.关节空间内规划可以避免机构运动奇异点及自由度冗余所带来种种问题[1-4];b.机器人系统控制量是各轴电机驱动力矩,用于调节各轴驱动力矩的轴伺服算法设计通常情况也是在关节空间内的,因此更容易将两者结合起来进行统一考虑[5,6];c.关节空间运动规划可以避免全局操作空间运动规划带来的每一个指令更新周期内进行运动规划和运动学正逆计算带来的计算量,因为如果指令更新周期较短,将会对CPU产生较大的计算负荷。(2)基础函数光滑性保证:至少需要位置指令C2和速度指令C1连续,从而保证加速度信号连续。不充分光滑的运动指令会由于机械系统柔性激起谐振,这点对高速重载工业机器人更为明显。在产生谐振的同时,轨迹跟踪误差会大幅度增加,谐振和冲击也会加速机器人驱动部件的磨损甚至损坏[7]。针对这一问题,相关学者引入高次多项式或以高次多项式为基础的样条函数进行轨迹规划,其中Boryga利用多项式多根的特性,分别采用5次、7次和9次多项式对加速度进行规划,表达式中仅含有一个独立参数,通过运动约束条件,最终确定参数值,并比较了各自性能[8]。Gasparetto采用五次B样条作为规划基础函数,并将整个运动过程中加速度平方的积分作为目标函数进行优化,以确保运动指令足够光滑[9]。刘松国基于B样条曲线,在关节空间内提出了一种考虑运动约束的运动规划算法,将运动学约束转化为样条曲线控制顶点约束,可保证角度、角速度和角加速度连续,起始点和终止点角速度和角加速度可以任意配置[10]。陈伟华则在Cartesian空间内分别采用三次均匀B样条,三次非均匀B样条,三次非均匀有理B样条进行运动规划[11]。(3)运动规划中最优化问题:目前常用的目标函数主要为运行时间、运行能耗和加速度。其中关于运行时间最优的问题,较为经典是Kang和Mckay提出的考虑系统动力学模型以及电机驱动力矩上限的时间最优运动规划算法,然而该算法加速度不连续,因此对于机器人来说力矩指令也是不连续的,即加速度为无穷大,对于真实的电驱伺服系统来说,这是无法实现的,会对系统产生较大冲击,大幅度降低系统的跟踪精度,对机械本体使用寿命也会产生影响[12]。针对上述问题Constantinescu提出了解决方法,在考虑动力学特性的基础上,增加对力矩和加速度的约束,并采用可变容差法对优化问题进行求解[13]。除了以时间为优化目标外,其他指标同样被引入最优运动规划模型中。Martin采用B函数,以能耗最少为优化目标,并将该问题转化为离散参数的优化问题,针对数值病态问题,提出了具有递推格式的计算表达式[14]。Saramago则在考虑能耗最优的同时,将执行时间作为优化目标之一,构成多目标优化函数,最终的优化结果取决于两个目标的权重系数,且优化结果对于权重系数选择较为敏感[15]。Korayem则在考虑机器人负载能力,关节驱动力矩上限和弹性变形基础上,同时以在整个运行过程中的位置波动,速度波动和能耗为目标,给出了一种最优运动规划方法[6],然而该方法在求解时,收敛域较小,收敛性较差,计算量较大。

考虑部件柔性的机器人控制算法机器人系统刚度是影响动态性能指标重要因素。一般情况下,电气部分的系统刚度要远远大于机械部分。虽然重载工业机器人相对于轻型臂来说,其部件刚度已显著增大,但对整体质量的要求不会像轻型臂那么高,而柔性环节仍然不可忽略,原因有以下两点:(1)在重载情况下,如果要确保机器人具有足够的刚度,必然会增加机器人部件质量。同时要达到高速高加速度要求,对驱动元件功率就会有很高的要求,实际中往往是不可实现(受电机的功率和成本限制)。(2)即使驱动元件功率能够达到要求,机械本体质量加大会导致等效负载与电机惯量比很大,这样就对关节刚度有较高的要求,而机器人关节刚度是有上限的(主要由减速器刚度决定)。因此这种情况下不管是开链串联机构还是闭链机构都会体现出明显的关节柔性[16,17],在重载搬运机器人中十分明显。针对柔性部件带来的系统控制复杂性问题,传统的线性控制将难以满足控制要求[17-19],目前主要采用非线性控制方法,可以分成以下几大类:(1)基于奇异摄动理论的模型降阶与复合控制首先针对于柔性关节控制问题,美国伊利诺伊大学香槟分校著名控制论学者MarkW.Spong教授于1987年正式提出和建立柔性关节的模型和奇异摄动降阶方法。对于柔性关节的控制策略绝大多数都是在Spong模型基础上发展起来的。由于模型的阶数高,无法直接用于控制系统设计,针对这个问题,相关学者对系统模型进行了降阶。Spong首先将奇异摄动理论引入了柔性关节控制,将系统分成了慢速系统和边界层系统[20],该方法为后续的研究奠定了基础。Wilson等人对柔性关节降阶后所得的慢速系统采用了PD控制律,将快速边界层系统近似为二阶系统,对其阻尼进行控制,使其快速稳定[21]。针对慢速系统中的未建模非线性误差,Amjadi采用模糊控制完成了对非线性环节的学习[22]。彭济华在对边界层系统提供足够阻尼的同时,将神经网络引入慢速系统控制,有效的克服了参数未知和不确定性问题。连杆柔性会导致系统动力学方程阶数较高,Siciliano和Book将奇异摄动方法引入柔性连杆动力学方程的降阶,其基本思想与将奇异摄动引入柔性关节系统动力学方程一致,都将柔性变形产生的振动视为暂态的快速系统,将名义刚体运动视为准静态的慢速系统,然后分别对两个系统进行复合控制,并应用于单柔性连杆的控制中[23]。英国Sheffield大学A.S.Morris教授领导的课题组在柔性关节奇异摄动和复合控制方面开展了持续的研究。在2002年利用Lagrange方程和假设模态以及Spong关节模型建立柔性关节和柔性连杆的耦合模型,并对奇异摄动理论降阶后的慢速和快速子系统分别采用计算力矩控制和二次型最优控制[24]。2003年在解决柔性关节机器人轨迹跟踪控制时,针对慢速系统参数不确定问题引入RBF神经网络代替原有的计算力矩控制[25].随后2006年在文献[24]所得算法和子系统模型的基础上,针对整个系统稳定性和鲁棒性要求,在边界层采用Hinf控制,在慢速系统采用神经网络算法,并给出了系统的稳定性分析[26]。随着相关研究的开展,有些学者开始在奇异摄动理论与复合控制的基础上作出相应改进。由于奇异摄动的数学复杂性和计算量问题,Spong和Ghorbel提出用积分流形代替奇异摄动[27]。针对奇异摄动模型需要关节高刚度假设,在关节柔度较大的情况下,刘业超等人提出一种刚度补偿算法,拓展了奇异摄动理论的适用范围[28]。(2)状态反馈和自适应控制在采用奇异摄动理论进行分析时,常常要同时引入自适应控制律来完成对未知或不精确参数的处理,而采用积分流形的方式最大的缺点也在于参数的不确定性,同样需要结合自适应控制律[29,30]。因此在考虑柔性环节的机器人高动态性能控制要求下,自适应控制律的引入具有一定的必要性。目前对于柔性关节机器人自适应控制主要思路如下:首先根据Spong模型,机器人系统阶数为4,然后通过相应的降阶方法获得一个二阶的刚体模型子系统,而目前的大多数柔性关节自适应控制律主要针对的便是二阶的刚体子系统中参数不确定性。Spong等人提出了将自适应控制律引入柔性关节控制,其基于柔性关节动力学奇异摄动方程,对降阶刚体模型采用了自适应控制律,主要采用的是经典的Slotine-Li自适应控制律[31],并通过与Cambridge大学Daniel之间互相纠正和修改,确立一套较为完善的基于奇异摄动模型的柔性关节自适应控制方法[32-34]。(3)输入整形控制输入整形最原始的思想来自于利用PosicastControl提出的时滞滤波器,其基本思想可以概括为在原有控制系统中引入一个前馈单元,包含一系列不同幅值和时滞的脉冲序列。将期望的系统输入和脉冲序列进行卷积,产生一个整形的输入来驱动系统。最原始的输入整形方法要求系统是线性的,并且方法鲁棒性较差,因此其使用受到限制。直到二十世纪九十年初由MIT的Signer博士大幅度提高该方法鲁棒性,并正式将该方法命名为输入整形法后[35],才逐渐为人们重视,并在柔性机器人和柔性结构控制方面取得了一系列不错的控制效果[36-39]。输入整形技术在处理柔性机器人控制时,可以统一考虑关节柔性和连杆柔性。对于柔性机器人的点对点控制问题,要求快速消除残余振荡,使机器人快速精确定位。

这类问题对于输入整形控制来说是较容易实现的,但由于机器人柔性环节较多,呈现出多个系统模态,因此必须解决多模态输入整形问题。相关学者对多模态系统的输入整形进行了深入研究。多模态系统的输入整形设计方法一般有:a)级联法:为每个模态设计相应的滤波器,然后将所有模态的时滞滤波器进行级联,组合成一个完整的滤波器,以抑制所有模态的振荡;b)联立方程法:直接根据系统的灵敏度曲线建立一系列的约束方程,通过求解方程组来得到滤波器。这两种方法对系统的两种模态误差均有很好的鲁棒性。级联法设计简单,且对高模态的不敏感性比联立方程法要好;联立方程法比较直接,滤波器包含的脉冲个数少,减少了运行时间。对于多模态输入整形控制Singer博士提出了一种高效的输入整形方法,其基本思想为:首先在灵敏度曲线上选择一些满足残留振荡最大幅值的频段,在这些特定的频带中分别选择一些采样频率,计算其残留振荡;然后将各频率段的残留振荡与期望振荡值的差平方后累加求和,构成目标函数,求取保证目标函数最小的输入整形序列。将频率选择转化为优化问题,对于多模态系统,则在每个模态处分别选择频率采样点和不同的阻尼系数,再按上述方法求解[40]。SungsooRhim和WayneBook在2004年针对多模态振动问题提出了一种新的时延整形滤波器,并以控制对象柔性模态为变量的函数形式给出了要消除残余振动所需最基本条件。同时指出当滤波器项数满足基本条件时,滤波器的时延可以任意设定,消除任何给定范围内的任意多个柔性振动模态产生的残余振动,为输入整形控制器实现自适应提供了理论基础[41],同时针对原有输入整形所通常处理的点对点控制问题进行了有益补充,M.C.Reynolds和P.H.Meckl等人将输入整形应用于关节空间的轨迹控制,提出了一种时间和输入能量最优的轨迹控制方法[42]。(4)不基于模型的软计算智能控制针对含有柔性关节机器人动力学系统的复杂性和无法精确建模,神经网络等智能计算方法更多地被引入用于对机器人动力学模型进行近似。Ge等人利用高斯径向函数神经网络完成柔性关节机器人系统的反馈线性化,仿真结果表明相比于传统的基于模型的反馈线性化控制,采用该方法系统动态跟踪性能较好,对于参数不确定性和动力学模型的变化鲁棒性较强,但是整个算法所用的神经网络由于所需节点较多,计算量较大,并且需要全状态反馈,状态反馈量获取存在一定困难[43]。孙富春等人对于只具有关节传感器的机器人系统在输出反馈控制的基础上引入神经网络,用于逼近机器人模型,克服无法精确建模的非线性环节带来的影响,从而提高机器人系统的动态跟踪性能[44]。A.S.Morris针对整个柔性机器人动力学模型提出了相应的模糊控制器,并用GA算法对控制器参数进行了优化,之后在模糊控制器的基础上,综合了神经网络的逼近功能对刚柔耦合运动进行了补偿[45]。除采用神经网络外,模糊控制也在柔性机器人控制中得以应用。具有代表性的研究成果有V.G.Moudgal设计了一种具有参数自学习能力的柔性连杆模糊控制器,对系统进行了稳定性分析,并与常规的模糊控制策略进行了实验比较[46]。Lin和F.L.Lewis等人在利用奇异摄动方法基础上引入模糊控制器,对所得的快速子系统和慢速子系统分别进行模糊控制[4748]。快速子系统的模糊控制器采用最优控制方法使柔性系统的振动快速消退,慢速子系统的模糊控制器完成名义轨迹的追踪,并对单柔性梁进行了实验研究。Trabia和Shi提出将关节转角和末端振动变形分别设计模糊控制器进行控制,由于对每个子系统只有一个控制目标,所以模糊规则相对简单,最后将两个控制器的输出进行合成,完成复合控制,其思想与奇异摄动方法下进行复合控制类似[49]。随后又对该算法进行改进,同样采用分布式结构,通过对输出变量重要性进行评估,得出关节和末端点的速度量要比位置量更为重要,因此将模糊控制器分成两部分,分别对速度和位置进行控制,并利用NelderandMeadSimplex搜索方法对隶属度函数进行更新[50]。采用基于软计算的智能控制方法相对于基于模型的控制方法具有很多优势,特别是可以与传统控制方法相结合,完成对传统方法无法精确建模的非线性环节进行逼近,但是目前这些方法的研究绝大部分还处于仿真阶段,或在较简单的机器人(如单自由度或两自由度机器人)进行相关实验研究。其应用和工程实现受限的主要原因在于计算量大,但随着处理器计算能力的提高,这些方法还有广泛的应用前景。

卷积神经网络的主要思想范文4

关键词: 动态纹理分类; 慢特征分析; 深度学习; 堆栈降噪自动编码网络模型

中图分类号: TN919?34 文献标识码: A 文章编号: 1004?373X(2015)06?0020?05

Dynamic texture classification method based on stacked denoising autoencoding model

WANG Cai?xia, WEI Xue?yun, WANG Biao

(School of Electronics and Information Engineering, Jiangsu University of Science and Technology, Zhenjiang 212003 China)

Abstract: To overcome the shortcomings of extracting the feature descriptors by manual operation and too high feature dimension for dynamic scene classification, a deep learning network model is proposed to extract dynamic texture features. Firstly, the slow feature analysis method is used to learn dynamic characteristics of each video sequence through before hand, and the learned feature is used as input data of deep learning to get the advanced representation of the input signal. The stacked denoising autoencoding model is selected for the deep learning network mode. SVM classification method is used for its classification. The experimental result proves that the feature dimension extracted by this method is low and can effectively describe dynamic textures.

Keywords: dynamic texture classification; slow feature analysis; deep learning; stacked denoising autoencoding model

0 引 言

动态纹理是指具有空间重复性、并随时间变化的视觉模式,这种模式形成了一系列在时间域上具有某种不变性的图像序列[1]。不同的动态纹理可能具有相似的外观,但是却具有不同的运动形式,所以表观和运动是动态纹理特征的两大方面。在目前的动态视频分析系统中,最关键的步骤是如何提取有效的动态纹理特征描述符。在过去几十年里,对纹理的研究大部分都集中在静态纹理特征的研究,动态纹理的研究相对静态纹理而言起步要晚的多。动态纹理的研究最早始于20世纪90年代初,由Nelson和Polana采用建立线性系统模型的方法对其进行研究[2],并且将视觉运动划分为三类[3]:行为、运动事件以及动态纹理。随后,Szummer 和 Picard提出采用时空自回归模型(Spatio?Temporal Auto Regressive,STAR)[4]对动态纹理序列进行建模。基于光流的识别法是目前比较流行的动态纹理识别法,因为其计算效率高,并且以一种很直观的方式来描述图像的局部动态纹理特征,Fazekas和Chetverikov总结出,正则性(Regulated)全局流与普通流(Normal Flow)相比,普通流可以同时包含动态特性和形状特性[5]。基于LBP的动态纹理方法是最近几年才提出的一种有效算法,典型的是Zhao等人提出的两种时空域上的描述子:时空局部二值模式(Volume Local Binary Pattern,VLBP)[6]和三正交面局部二值模式(Local Binary Pattern from Three Orthogonal Planes,LBP?TOP)[7],有效地结合“运动”和“外观”特征。2007―2008年是动态纹理研究最多的两年,各大期刊杂志连续刊登有关动态纹理的研究文章。

本文试图解决动态自然场景的分类问题(例如:烟火、河流、风暴、海洋、雪花等)。在计算机视觉领域,过去采用较多的是手动提取特征来表示物体运动信息(例如:HOF、基于STIP的HOG算法等),实验表明该类方法对人体行为识别非常有效。但是由于自然环境比较复杂,动态纹理表现不稳定,易受光照、遮挡等影响,而手动选取特征非常费力,需要大量的时间进行调节,所以该类方法并不适用于动态场景分类。Theriault等人提出利用慢特征分析的方法来提取动态视频序列的特征[8]。该方法虽然能有效表示动态纹理特征,但是其提取的特征维数较高。深度学习是机器学习研究中一个新的领域,其动机在于建立、模拟人脑进行分析学习的神经网络,近几年深度学习网络模型在大尺度图像分类问题中成功应用使得其得到越来越多人的重视。卷积神经网络、深度置信网络和堆栈自编码网络是三种典型的深度学习网络模型,而堆栈自编码网络模型不仅对高维数据有很好的表示,而且采用非监督的学习模式对输入数据进行特征提取,这对于传统的手动提取特征。利用堆栈自编码网络模型对慢特征进行进一步学习,不仅能降低数据维度,而且还能提取出数据更有效的特征表示。

1 基于堆栈自编码网络模型的慢特征分析法

1.1 慢特征分析法

文献[9?10]中提到,慢特征分析算法的目标是从不断变化的输入信号中学习不变量,即除了无意义的常值信号外,最具不变性质的信息,其实质也就是从快速变化的信号中提取缓慢变化的信号特征,这种特征是从混合信号中提取出来的源信号的高级表示,表征信号源的某些固有属性[11]。

实验证明,慢特征分析法在人体行为识别中有很好的描述作用,这为动态纹理分类提供了一个很好的选择。慢特征分析算法的核心思想是相关矩阵的特征值分解,其本质是在经过非线性扩展特征空间对目标函数进行优化,寻找最优解的线性组合。

给定一个时域输入信号序列:

[vt=v1t,v2t,…,vDtT]

目标就是学习一组映射函数:

[Sv=S1v,S2v,…,SMv]

使得输出信号[yt=y1t,y2t,…,yMtT]的各个分量[yj=Sjvt]的变化尽可能缓慢,而且仍然保留相关的重要信息。选用时域信号一阶导数的均方值来衡量输出信号个分量的变化率:

[minSj<y?2j>t] (1)

且满足以下条件:

(1) [<yj>t=0];

(2) [<y2j>t=1];

(3) [?j<j':<yj,yj'>t=0]。

其中:[<y>t]是[y]的时域平均值;[y?j]是[yj]的时域一阶导数。这三个约束条件保证慢特征分析的输出信号的各分量的变化率尽可能小,其中条件1和条件2确保输出没有无意义的常信号值,条件3确保输出各分量之间是非相关的,且不同慢特征承载着不同信息。值得注意的是,函数[Sv]是输入信号的瞬时函数,所以输出结果不能看成是通过低通滤波器的结果,慢特征处理速度要比低通滤波器快很多。如图1所示。

<E:\王芳\现代电子技术201506\现代电子技术15年38卷第6期\Image\42t1.tif>

图1 时域输入信号慢特征的提取

输出信号各分量按照变化率从小到大排列,且互不相关,其最优解问题可以看成以下公式的解特征值问题:

[Sj:<v?v?T>tSj=λjSj] (2)

求解得到的特征值按从小到大的顺序排列,即[λ1≤λ2≤???≤λM],输出信号的慢特征和最小特征值息息相关。输入信号[vt]可以是多种模式的图像特征(例如色彩,梯度,SIFT特征,HOG特征)。

这里采用的是v1特征[12?13],该特征对图像有很好的表示,确保预先学习到的慢特征能达到最优。

1.2 堆栈自动编码模型

自动编码器模型是深度学习网络模型之一,其尽可能复现输入信号,捕捉代表输入信号的主要成分。

如图2所示,对于给定输入信号[x],根据式(2)得到输出[y],此过程为编码过程:

[y=fθx=sWx+b] (3)

式中:[sx=11+θ-x];[W]是[d′×d]维权重矩阵;[b]是偏移向量。

为了验证输出[y]是否准确表达原输入信号,利用式(2)对其进行重构,得到重构信号[z]。此过程为解码/重构过程:

[gθ′y=sW′y+b′] (4)

从输入到输出的权值记为[θ=W,b],从输出到输入的权值记为[θ′=W′,b′]。逐层进行参数[θ]和[θ′]的优化,式(5)为其目标函数:

[θ?,θ′*=argminθ,θ′Lx,zLx,z=12x-z2] (5)

调整参数,使得重构误差达到最小,因此可以得到[x]的第一层表示。

<E:\王芳\现代电子技术201506\现代电子技术15年38卷第6期\Image\42t2.tif>

图2 普通DA和降噪DA

降噪自动编码器(Denoising Auto Encoder,Dae)是在自动编码器的基础上给训练数据加入噪声,编码器需要学习去除噪声而获得没有被噪声污染的输入信号,因此获得输入信号更加鲁棒的表达。堆栈自动编码模型(Sda)是将多个Dae堆叠起来形成的一种深度网络模型。利用优化后的参数[θ]得到当前层的输出[y](即下一层的输入),将得到的[y]作为新一层的输入数据,逐层进行降噪自动编码的过程,直到到达多层神经网络中间隐层的最后一层为止,算出该层输出,即为输出特征,如图3所示。

<E:\王芳\现代电子技术201506\现代电子技术15年38卷第6期\Image\42t3.tif>

图3 多层神经网络结构图

1.3 基于Sda的慢特征分析法

基于Sda的慢特征分析方法利用慢特征分析法预先学习动态视频序列的慢特征,将该特征作为模型输入,进行多层降噪自动编码网络模型参数的学习,最后使用SVM分类器对该模型的输出特征进行分类,具体步骤如图4所示。

2 实 验

2.1 实验数据集与评估准则

实验所用数据由10类动态场景构成(包括海滩,电梯,森林烟火,高速公路,闪电,海洋,铁路,河流,云,街道),且每一个类别由30个250×370 pixels大小的彩序列构成。这些视频序列全部来自于加拿大约克大学计算机视觉实验室于2012年的YUPENN动态场景数据集[14],该数据库主要强调的是对象和表层在短时间内场景的实时信息。如图5所示。

<E:\王芳\现代电子技术201506\现代电子技术15年38卷第6期\Image\42t4.tif>

图4 基于Sda的慢特征分析步骤图

<E:\王芳\现代电子技术201506\现代电子技术15年38卷第6期\Image\42t5.tif>

图5 YUPENN动态数据库

将所有彩序列进行尺度缩放,分别放大和缩小1.2倍,1.4倍,1.6倍,并且在每一个尺度上进行旋转,旋转角度分别为[2°,4°,6°,-2°,-4°,-6°]。所以样本总数为(10×30)×(6×6)=10 800个。实验性能使用混淆矩阵(Confusion Matrix)进行衡量。混淆矩阵是多分类问题中常用的衡量准则,它使得分类结果一目了然并能指出错误预测的影响。分类矩阵通过确定预测值是否与实际值匹配,将模型中的所有事例分为不同的类别。然后会对每个类别中的所有事例进行计数,并在矩阵中显示总计。实验中一共有14个类别的数据集,所以最后会产生一个大小为14×14的混淆矩阵。

2.2 实验结果与分析

实验选用线性SVM分类器,采用Leave?One?Out 分析法进行分类。所有视频序列全部转换成灰度视频进行慢特征分析,输出大小为4 032维的慢特征向量作为Sda网络模型的输入数据。

2.2.1 Sda网络模型大小

堆栈降噪自动编码器网络层数以及每一层的大小对输出特征的鲁棒性和SVM分类结果有重要的影响。当网络层数不一样时,模型学习到的特征也就不一样,网络层数过低,学习力度可能不够,特征达不到最佳表示效果,网络层数太高,可能会出现过拟合现象,隐层的大小和最后的分类结果也息息相关,所以选取不同网络层数和隐层大小分别进行实验,如图6所示,选取网络层数分别为1,2,3,隐层大小分别为500,1 000,2 000。由图6可知,当隐层大小为500时的分类得分显然比1 000和2 000时高很多;在隐层大小为500时,随着网络层数不断增加,实验结果不断提升,当网络层数由2层上升到3层时,实验结果已经非常接近(网络层数为2时score=95.9%,网络层数为3时score=96.3%)。可以得知,随着网络层数不断增加,分类的效果逐渐提高,当网络层数为3时,分类结果已非常接近。

<E:\王芳\现代电子技术201506\现代电子技术15年38卷第6期\Image\42t6.tif>

图6 不同网络层数和隐层大小的分类结果

2.2.2 噪声

Sdae对每一层的输入加入噪声,编码器自动学习如何去除噪声而获得更加鲁棒的动态纹理特征,因此每一层所加入的噪声的大小对提取的特征有很大的影响。因此,选取不同大小的噪声分别进行实验,如图7所示,选取噪声大小分别为10%,15%,20%,25%,30%,35%,40%,45%,50%,固定网络层大小为[500,500,500];由图可知,加入噪声对分类得分的影响呈类似抛物线形状,对每一层输入数据加入25%的噪声时score=0.964为最大值。

2.2.3 混淆矩阵以及实验与现有方法的比较

图8为实验最优参数所计算出的混淆矩阵,由图可知,海滩、电梯、高速公路以及海洋的分类效果达到100%,喷泉(Fountain)的分类效果虽然最差,但也已经达到83%左右,其容易被误分成森林火灾(17%错误分类)。由该混淆矩阵可以得知,实验所用方法能够达到将近96.4%平均得分。表1是本文所用方法与现有几个比较常用的动态纹理特征提取方法的比较,分别有HOF[15],GIST[16],Chaos[17],SFA[8]。由表格可以得知,SFA是几个方法中效果最好的,可以达到76.7%的分类效果,而本文所用方法SFA+Sda比SFA方法提高了将近20%的分类得分,并且在每一个动态场景中分类效果总是优于其他几种方法。

<E:\王芳\现代电子技术201506\现代电子技术15年38卷第6期\Image\42t7.tif>

图7 加入不同噪声的分类结果

<E:\王芳\现代电子技术201506\现代电子技术15年38卷第6期\Image\42t8.tif>

图8 混淆矩阵

表1 本实验与现有方法比较

3 结 语

本文提出一种基于多层降噪自动编码网络模型的动态纹理分类方法:预先学习动态视频序列的慢特征,以此作为多层降噪自编码网络模型的输入数据进行非监督的深度学习,网络最顶层的输出即为所提取的动态纹理特征,采用SVM分类器对该特征进行分类。本文对实验中的各种影响参数如网络模型的深度、每一层的大小以及加入噪声的大小做了充分的研究,实验证明,该方法所提取的特征对动态纹理有很好的表示作用,分类效果不错,在动态场景分类问题中有很大的应用价值。

参考文献

[1] DORETTO G, CHIUSO A, WU Y, et al. Dynamic textures [J]. International Journal on Computer Vision, 2003, 51(2): 91?109.

[2] NELSON R C, POLENA P. Qualitative recognition of motion using temporal texture [J]. CVGIP: Image Understanding, 1992, 56(1): 78?89.

[3] POLANA R, NELSON R. Temporal texture and activity recognition [J]. Motion?Based Recognition: Computational Imaging and Vision, 1997, 9: 87?124.

[4] SZUMMER M, PICARD R W. Temporal texture modeling [C]// Proceedings of 1996 International Conference on Image Processing. [S.l.]: [s.n.], 1996: 11?16.

[5] FAZEKAS S, CHETVERIKOV D. Normal versus complete ?ow in dynamic texture recognition a comparative study [C]// 2005 4th International Workshop on Texture Analysis and Synthesis (ICCV 2005). [S.l.]: [s.n.], 2005: 37?42.

[6] ZHAO G, PIETIK?INEN M. Dynamic texture recognition using volume local binary patterns [C]// European Conference on Computer Vision. [S.l.]: [s.n.], 2006: 165?177.

[7] PIETIK¨AINEN G Z M. Dynamic texture recognition using local binary patterns with an application to facial expression [J]. IEEE Transaction on Pattern Analysis and Machine Intelligence, 2007, 29(6): 915?928.

[8] THERIAULT Christian, THOME Nicolas, CORD Matthieu. Dynamic scene classification: learning motion descriptors with slow features analysis [EB/OL]. [2014?09?17]. http://.

[9] FRANZIUS M, WILBERT N, WISKOTT L. Invariant object recognition with slow feature analysis [C]// ICANN 18th International Conference. Berlin: Springer?Verlag, 2008: 961?970.

[10] WISKOTT L, SEJNOWSKI T. Slow feature analysis: Unsupervised learning of invariances [J]. Neural Comput., 2002, 14: 715?770.

[11] 马奎俊,韩彦军,陶卿,等.基于核的慢特征分析算法[J].模式识别与人工智能,2011(2):79?84.

[12] DE VALOIS R, YUND E, HEPLER N. The orientation and direction selectivity of cells in macaque visual cortex [J]. Vision Research, 1982, 22: 531?544.

[13] HUBEL D, WIESEL T. Receptive fields of single neurons in the cat’s striate cortex [J]. Journal of Physiol, 1959, 4: 574?591.

[14] DERPANIS Konstantinos, LECCE M, DANIILIDIS K, et al. Dynamic scene understanding: the role of orientation features in space and time in scene classification [C]// International Conference on Computer Vision and Pattern Recognition. [S.l.]: [s.n.], 2012: 111?121.

[15] MARSZALEK M, LAPTEV I, SCHMID C. Actions in Context [C]// 2009 IEEE Conference on Computer Vision and Pattern Recognition. [S.l.]: IEEE, 2009: 2?6.

卷积神经网络的主要思想范文5

论文摘要: 当点扩展函数未知或不确知的情况下, 从观察到的退化图像中恢复原始图像的过程称为图像盲复原。近年来, 图像盲复原算法得到了广泛的研究。本文在介绍了盲图像恢复算法的现状的基础上进一步研究其的发展方向。

一、引言

图像恢复是图像处理中的一大领域,有着广泛的应用,正成为当前研究的热点。图像恢复的主要目的是使退化图像经过一定的加工处理,去掉退化因素,以最大的保真度恢复成原来的图像。传统的图像恢复假设图像的降质模型是己知的。而许多情况下,图像的降质模型未知或具有较少的先验知识,必须进行所谓的盲恢复。其重要性和艰巨性而成为一个研究热点。目前所能获取的观测图像是真实图像经过观测系统成像的结果。由于观测系统本身物理特性的限制,同时受观测环境的影响,观测图像和真实图像之间不可避免地存在着偏差和失真,称观测系统对真实图像产生了降质。图像恢复的目的就是根据降质的观测图像分析和计算得出真实图像。

二、图像盲恢复算法的现状

总体来说, 图像盲复原方法主要分为以下两类: 一是首先利用真实图像的特别特征估计PSF,然后借助估计得到的PSF,采用经典的图像复原方法进行图像的复原。这类方法将PSF的估计与图像的复原过程分为2个不同的过程,因而具有较少计算量的特点;二是PSF辨识和真实图像估计相结合,同时辨识PSF和真实图像。这类算法较为复杂,计算量较大。另外,对于点扩展函数也考虑了空间变化的复杂情况。针对目前的盲复原算法的现状,根据退化模型的特点, 重新将算法分为空间不变的单通道盲复原算法、空间不变多通道盲复原算法和空间变化图像盲复原算法3类。

(一)单通道空间不变图像盲复原算法

在这类算法中, 最为常用的是参数法和迭代法。

1)参数法。所谓参数法, 即模型参数法, 就是将PSF和真实图像用某一类模型加以描述, 但模型的参数需要进行辨识。在参数法中, 典型的有先验模糊辨识法和ARMA 参数估计法, 前者先辨识PSF的模型参数,后辨识真实图像, 属于第1 种类型的图像盲复原算法, 因而计算量较小;后者同时辨识PSF和真实图像模型参数, 属于第2种类型图像盲复原算法。

2)迭代法。所谓的迭代法, 不是通过建立模型而是通过算法的迭代过程, 加上有关真实图像和PSF的约束来同时辨识PSF和真实图像的方法。迭代法是单通道

图像盲复原算法中应用最广泛的一类算法, 它不需建立模型, 也不要求PSF 为最小相位系统, 因而跟实际更为接近。在这类算法中, 迭代盲复原算法(IBD), 基于非负性和决策域的递归逆滤波器算法(NAR2R IF) ,基于高阶统计特性的最小

熵算法等最为典型。

(二)多通道二维图像盲复原

多通道二维图像盲复原, 这类方法将数字通讯领域应用的一维多通道盲原分离算法扩展到二维情况并用于图像的盲恢复。这类算法中有两种代数方法, 一种是先辨识模糊函数, 再采用常规的恢复算法进行复原;另一种是直接对逆滤波器进行估计。此类算法的优点在于不需对初始图像进行估计, 也不存在稳定性和收敛性问题,对图像以及模糊函数的约束是松弛的,算法具有一般性。但是第1种算法要求采用复原算法具有收敛性;第2种算法对噪声敏感。

(三)空间改变的图像盲复原方法

在许多实际的应用中, 模糊往往是空间变化的,但由于处理工作的难度, 目前的研究较少,基本有相关转换恢复和直接法两类。

相关转换恢复的基本思想是区域分割, 即将整幅图像分为若干局部区域, 然后假设在各个局部区域模糊是空间不变的, 利用空间不变的图像复原有关算法进行复原。这类方法都是基于窗口的模糊辨识技术, 图像的估计取决于窗口的大小, 由于模糊参数是连续变化的, 在范围较大时空间不变的假设是不成立的, 因而模糊的估计精度较差, 而且这种方法只能针对部分空间变化的模糊进行处理, 缺乏通用性; 其次在区域的边上存在振铃现象。

直接法的基本思想是直接对图像进行处理。如采用简化的二维递推卡尔曼滤波器进行图像模型和模糊模型的直接转换方法, 其缺点是只能针对有限的模型, 而且模型数增加, 计算量会显著增大;采用共轭梯度迭代算法, 但只见到一个31×31 的文本图像处理的结果报道,对于大图像处理效果尚需进一步的研究;将空间变化图像系统建立成马尔苛夫随机模型,对复原过程,采用模拟退火算法进行最大后验估计的方法,这种方法避免了图像的窗口化, 并能克服模糊参数不连续性造成的影响,但这种方法只能局限于将模糊过程建立成单参数的马尔苛夫随机模型的情况,而且计算量也较大。

三、图像盲恢复的应用前景

(1)现有算法的改进以及新的算法研究。现有各种算法还存在许多不足,有必要对算法进一步改进。如IBD算法中, 如何选择初始条件才能保证算法的收敛;如何选择算法终止条件才能保证恢复的质量; 如何选择滤波器中的噪声参数才能减少噪声的影响。又如NAR2R IF算法中, 如何进一步解决噪声敏感问题,支持域的确定以及如何将算法扩展到非均匀背景的情况等。提出新的算法更好地解决图像盲复原问题, 也是今后研究的热点。

(2)基于非线性退化模型的图像盲复原算法。在实际应用中,严格来讲,所有的退化模型都是非线性的。对模型采用线性化的方法进行近似处理,虽然算法简单,但对非线性严重的情况处理效果并不理想。基于多项式以及神经网络两种参数模型处理非线性信号盲分离算法,算法扩展到二维图像情况需要进一步研究。研究基于非线性退化模型的图像盲复原算法也是下一步研究方向之一。

(3)去噪处理算法研究。加性噪声的存在,使图像的复原问题变成了一个病态问题,而且由于一般假设只知道噪声的统计特性,因此要从退化图像中完全去除噪声是不可能的。另外,由于噪声的存在,恢复的效果并不理想,结合降噪的图像盲恢复的算法研究有很现实的意义,这方面也进行了部分工作。为克服噪声的影响,一般采用先进行降噪,后进行复原;二是将降噪和复原同时进行这两类方法。目前,大多数算法中将噪声描述成高斯噪声进行研究, 在实际应用时有较大局限性。对于非高斯情况的研究采用基于噪声的高阶统计特性的去噪算法研究也是很重要的研究方向,也可采用其他类型的方法进行降噪,利用自组织映射的非线性独立组件分析方法进行图像降噪处理算法。

(4)实时处理算法。算法的的复杂性是制约算法应用的一个重要方面。可采用正则化的离散周期Radon变换的方法将二维的卷积转化为一维进行处理,以提高算法的速度;也可采用神经网络的实时处理算法。算法的实时性是算法实际应用的先决条件。

(5)应用研究。算法的应用是推动算法研究的动力。虽然图像盲复原算法在天文学、医学、遥感等方面获得了较大的应用, 但将算法应用到一般的工业图像实时检测、机器视觉、网络环境下的图像传输恢复、刑事侦破等方面还有大量的工作要做。

参考文献:

[1] 薛梅,杨绿溪.用于含噪二值图像的改进NAS-RIF图像盲复原算[J].数据处理.2006.17.(2).

卷积神经网络的主要思想范文6

关键词:PCB;图像处理;视觉检测

中图分类号:TP277文献标识码:A文章编号:1009-3044(2012)07-1648-06

当今世界科技发展日新月异,电子产业的发展直接制约着国民经济的腾飞与否,而PCB电路板制作工艺的提高对促进电子产业的发展至关重要,能否有效精确地检测PCB电路板的缺陷一直都是电子行业的研究热点。国外的印刷电路板自动检测技术一直领先于国内,国内的很多厂家不得不采用昂贵的外国技术,虽然近年国内的印刷电路板自动检测技术发展迅速,但大都没有取得令人非常满意的结果。加入研究这一领域的热潮,赶超外国的先进技技水平,打断外国垄断技术,对于发展国民经济具有十分重要的意义。

1 PCB检测系统的硬件设计

1.1 PCB检测系统的硬件组成框图

虽然本文所做的工作主要是软件方面,但对于硬件系统的设计也是至关重要的,它对于建立有效的计算机视觉识别检测系统,起着决定性作用。因此,必须在综合考虑系统性价比和系统性能的基础上,设计出合理的硬件系统[9]。PCB检测系统的硬件组成框图如图1所示:图1 PCB检测系统硬件组成框图

1.2系统的硬件组成

系统的硬件组成[10]主要包括:计算机主机、CCD摄像机、图像采集卡、照明系统及相关的设备。

2 PCB电路板缺陷检测识别

PCB电路板在电子工业中的应用越来越广泛,如何降低电路板的故障率、提高电路板的质量直接影响到整个产业的发展。因此,对于PCB电路板缺陷的识别技术的发展至关重要。PCB电路板的缺陷很多[16],主要有短路、断路、划痕、凸起、空洞、缺焊、过焊等等,由于实验室设备限制和个人水平所限,本文主要研究的内容是PCB电路板短路与断路的检测识别

近年来出现了很多图像检测算法,这些算法大致可分为三大类:有参考算法、无参考算法以及混合型算法。有参考算法分为两大类:图像对比法和模型对比法。无参考算法是一种不需要标准图像的检测算法,它是基于一定的设计规则来进行检测的。混合型方法是将有参考算法与无参考算法混合使用,从而发挥出各自的优点。比如,模板匹配法与数学形态学方法结合使用,或者连接表方法与数学形态学方法结合使用等。本文中短路与断路的检测识别采取了图像对比法,即将经过一定处理后的图像进行相减,从而分析相应的结果;而对焊点缺陷的识别主要采用模板匹配法与数学形态学方法结合使用。

2.1 PCB电路板缺陷检测识别的主要流程图

图2为子程序流程图;图3为主程序流程图。

2.2 PCB电路板短路与断路的检测识别

2.2.1边缘检测

在对图像进行基本的处理过后可以将图像与背景分割开来。边缘检测是图像处理和计算机视觉中的基本问题,边缘检测的目的是标识数字图像中亮度变化明显的点。图像属性中的显著变化通常反映了属性的重要事件和变化。

这些包括:深度上的不连续;表面方向不连续;物质属性变化;场景照明变化。边缘检测是图像处理和计算机视觉中,尤其是特征提取中的一个研究领域。

图像边缘检测大幅度地减少了数据量,并且剔除了可以认为不相关的信息,保留了图像重要的结构属性。有许多方法用于边缘检测,它们的绝大部分可以划分为两类[17]:基于查找一类和基于零穿越的一类。基于查找的方法通过寻找图像一阶导数中的最大和最小值来检测边界,通常是将边界定位在梯度最大的方向。基于零穿越的方法通过寻找图像二阶导数零穿越来寻找边界,通常是Laplacian过零点或者非线性差分表示的过零点。

1)Roberts算子

边缘,是指周围像素灰度有阶跃变化或屋顶等变化的那些像素的集合。图像的边缘对应着图像灰度的不连续性。显然图像的边缘很少是从一个灰度跳到另一个灰度这样的理想状况。真实图像的边缘通常都具有有限的宽度呈现出陡峭的斜坡状。边缘的锐利程度由图像灰度的梯度决定。梯度是一个向量,?f指出灰度变化的最快的方向和数量,如式2-1所示。

?f=(决定的。

因此最简单的边缘检测算子是用图像的垂直和水平差分来逼近梯度算子,式2-4所示。?f=(f(x,y)-f(x-1,y),f(x,y)-f(x,y-1))(式2-4)

因此当我们想寻找边缘的时候,最简单的方法是对每一个像素计算出(2,4)的向量,然后求出他的绝对值,然后进行阀值操作就可以了。利用这种思想就得到了Roberts算子,由式2-5所示。

R(i,j)=

(式2-5)

它是一个两个2×2模板作用的结果。

2)Sobel算子

该算法通过2个3*3的模板,对选定的二维图像中同样大小窗口进行卷积,通常是一个模板对一个边缘响应大,另一个模板对水平边缘响应大,两个卷积值对最大值作为该点对输出。对于图像上的任意点(i,j)进行卷积,可得其X方向上的差分由式2-6、式2-7所示。Δx=f(i-1,j+1)+2f(i,j+1)+f(i+1,j+1)-[f(i-1,j-1)+2f(i,j-1)+f(i+1,j-1)](式2-6)Δy=f(i-1,j-1)+2f(i-1,j)+f(i-1,j+1)-[f(i+1,j+1)+2f(i+1,j)+f(i+1,j+1)](式2-7)则输出图像公式如式2-8所示。

用sobel算子检测阶跃边缘得到的边缘宽度至少为两个宽度。3)Laplacian边缘检测算子

Laplacian算子定义由式2-9所示。

Δ2f(x,y)=

(式2-9)它的差分形式由式2-10所示。

Δ2f(x,y)={[f(x+1,y)-f(x,y)]-[f(x,y)-f(x-1,y)]}+{[f(x,y+1)-f(x,y)]-[f(x,y)-f(x,y-1)]}

=f(x+1,y)+f(x-1,y)+f(x,y-1)+f(x,y+1)+f(x,y+1)+4f(x+1,y)(式2-10)

Laplacian算子是一种各向同性算子,在只关心边缘的位置而不考虑其周围的灰度象素差值时时比较合适,Laplacian算子对孤立象素的响应要比对边缘或线的响应更要强烈,因此只适用于无噪声图像。

原图像与用三种边缘检测算子处理后的图像如下所示:图6 Sobel边缘检测图7 Laplacian边缘检测

从上面四幅图分析比较可得出结论:用Roberts边缘检测得出的图像较之其他方法更为清晰,噪点更少,图像更为连续,所以本文中采用Roberts算子来进行边缘检测。

2.2.2阈值分割

阈值分割法是一种基于区域的图像分割技术,其基本原理是:通过设定不同的特征阈值,把图像象素点分为若干类。常用的特征包括:直接来自原始图像的灰度或彩色特征;由原始灰度或彩色值变换得到的特征。设原始图像为f(x,y),按照一定的准则f(x,y)中找到特征值T,将图像分割为两个部分,分割后的图像为:

若取:b0=0(黑),b1=1(白),即为我们通常所说的图像二值化。

在数字化的图像数据中,无用的背景数据和对象物的数据经常放在一起,同时,图像中还含有各种噪声,因此可以根据图像的统计性质,从概率的角度来选择合适的阈值。

1)最大方差阈值法

把待处理图像的直方图在某一阈值处分割为两组,当被分割成的两组间的方差最大时,便可以决定阈值了。

设灰度图像f(x,y)的灰度级为0-L,灰度级I的像素为Ni,则图中:

总象素数N=∑j=0 i=LNi(式2-11)灰度级i出现的概率Pi= 1-ω(K)(式2-16)则两组间的数学期望为ω0μ0ω1μ1=μ(式2-17)两组间的方差为ρ2(k)

ρ2(k)是K的函数,计算k取从0,1,2…L时ρ2(k)的值,当多的值为最大时,K即为阈值。

2)双峰法

根据图像的直方图具有背景和对象物的两个峰,分割两个区域的阈值由两个峰值之间的谷所对应的灰度值决定。设灰度图像f(x,y)的灰度级为0-L,灰度i的像素为Pi,分别计算

因为实际PCB电路板有着许多的划痕、污点等,使用最大方差阈值法时,会在处理后的图像上产生许多误点,而影响实际结果的分析,而双峰法能够顺利地滤除这些干扰,这个结论在分析对比以上图像时也可得出。所以本文选用了双峰法来进行阈值分割。

2.2.3粒子分析与图像对比

经过边缘检测和阈值分割的图像中会存在许多瑕点,这些点会影响到最后的图像识别与分析,有可能会增加多余的残留图像。本文中利用NI VISION ASSISTANT中的REMOVE SMALL OBJECTS功能进行去除,如图11和图12所示。图11原图像图12粒子分析

将标准PCB图片减去缺陷缺陷PCB图片,便可以得到缺陷板的断路部分的图像,再利用NI ASSISTANT中的PARTICLE ANALYSIS可以得到断路部分的具体分析,如图13示。

将缺陷PCB图片减去标准PCB图片,便可以得到缺陷板的短路部分的图像,与上述相同的方法,便可以得到短路部分的具体分析,如图14所示。

3结束语

利用LABVIEW来进行PCB电路板缺陷的识别与检测是一项非常好的课题,它在近些年已经得到了一定的发展,并将得到更大的进步。限于本人能力和时间,本文的研究还未涉及很深的领域,可以在以下方面加以改进:

1)本文中只利用到NI公司的LABVIEW和IMAQ VISION,更好的设计可以再利用其他语言如VISUAL BASIC,C++等编程语言加以辅助设计,相信可以取得更加令人满意的结果。

2)由于实验设备等其他因素,本文中只重点研究了PCB电路板短路与断路的检测识别,PCB电路板的其他缺陷还有待于进一步的分析研究、分类和总结,并设计出更好的检测方法,以真正满足PCB电路板检测的需求。

3)照明设备的限制在很大程度上影响到了图像的检测效果,为取得PCB缺陷检测的进一步进展,在照明设备的选择上必须重视,并且设计出更好的图像采集系统。

4)在识别与检测手段上,可以引入更新更好的方法,而不要局限于在传统的方法中分析比较,例如基于BP神经网络的识别检测,图像的模糊决策等将有待于进一步研究。

总之,基于LABVIEW的机器视觉检测系统已经取得了不错的进展,高速发展的PCB制造技术和计算机技术对于PCB缺陷的检测提出了更高的要求,同时也大大地促进了PCB缺陷检测技术的发展。利用机器视觉检测在未来的较长的一段时间内将占据检测行业的半壁江山,相信在未来会取得更大的发展。

参考文献:

[1]程学庆,房晓溪.LabVIEW图形化编程与实例应用[M].北京:中国铁道出版社,2005.

[2]胡仲波.基于虚拟仪器技术的PCB视觉检测系统[D].南京:南京理工大学硕士学位论文,2006.

[3]段峰,王耀南.机器视觉技术及其应用综述[J].自动化博览,2002,19(3).

[4]周长发.精通Visual C++图像处理编程[M].北京:电子工业出版社,2004.

[5]陈锡辉,张银鸿.LabVIEW 8.20程序设计从入门到精通[M].北京:清华大学出版社,2007.

[6]郑伟.图像法检测印刷电路板缺陷[M].西安:西安理工大学,2002.

[7] National Instruments,IMAQ User Manual Concepts[Z].1999.

[8]李强.PCB板缺陷自动检测技术的分析研究[D].合肥:合肥工业大学,2002.

[9]傅茂名.基于形态边缘检测算法的一种改进[J].电子科技大学学报,2005(2).

[10]王思华.计算机视觉新技术及其在IC标记质量检验系统设计中的应用[J].电子技术应用,2000(9).

[11]岳永哲.图像处理技术在阅卷系统中的应用[D].北京:北京工业大学,2006.

[12] Bruce sehneier.Applied Cryptography protocols,Algorithms,and SourceCode[M].C Jolm Wiley & Sons,Inc,1994.

[13] William work Security Essentials:Applications and Standard[M].Prentice Hall/Pearson,2002.

[14]高育鹏,杨俊,何广军.基于图像识别的自动阅卷系统研究[J].现代电子期刊,2006(22).

[15]杨青燕,彭延军.基于灰度图像的答题卡识别技术[J].山东科技大学学报:自然科学版,2009(3).

[16]周海涛,韩晓军.基于数字图像处理的答题卡识别方法研究[J].电脑知识与技术,2008(28).

[17]周万珍,郑广,王建霞,等.数字图像处理技术在客观题阅卷中的应用[J].数学的实践与认识,2006(8).

[18]王胜春.基于SVM的信息卡识别系统[D].长沙:湖南师范大学,2008.

[19]吴志明.SMT系统中焊点位置的检测[D].哈尔滨:哈尔滨工业大学,2006.

[20]杨敏,王春青,邹增大,等.表面组装印刷电路板上焊点信息的自动获取[J].焊接学报,2005,39(6).