语音识别技术范例6篇

前言:中文期刊网精心挑选了语音识别技术范文供你参考和学习,希望我们的参考范文能激发你的文章创作灵感,欢迎阅读。

语音识别技术

语音识别技术范文1

关键词: 语音识别; 识别原理; 声学建模方法; 多维模式识别系统

中图分类号: TN912.3?34 文献标识码: A 文章编号: 1004?373X(2013)13?0043?03

Summary of speech recognition technology and its application

YU Lin?lin

(Naval Aviation Military Representative Office Stationed in Beijing, Beijing 100041, China)

Abstract: As a key technology of human?computer interface in information technology, speech recognition has great research significance and broad application value. the development history of speech recognition technology is introduced, the basic knowledge of speech recognition is expounded, such as concept, basic principle, the acoustic modeling approach. The application of speech recognition technology in various fields are briefly introduced.

Keywords: speech recognition; recognition principle; acoustic modeling approach; multi?dimension pattern recognition system

0 引 言

语言是人类相互交流最常用、最有效、最重要和最方便的通信形式,语音是语言的声学表现,与机器进行语音交流是人类一直以来的梦想。随着计算机技术的飞速发展,语音识别技术也取得突破性的成就,人与机器用自然语言进行对话的梦想逐步接近实现。语音识别技术的应用范围极为广泛,不仅涉及到日常生活的方方面面,在军事领域也发挥着极其重要的作用。它是信息社会朝着智能化和自动化发展的关键技术,使人们对信息的处理和获取更加便捷,从而提高人们的工作效率。

1 语音识别技术的发展

语音识别技术起始于20世纪50年代。这一时期,语音识别的研究主要集中在对元音、辅音、数字以及孤立词的识别。

20世纪60年代,语音识别研究取得实质性进展。线性预测分析和动态规划的提出较好地解决了语音信号模型的产生和语音信号不等长两个问题,并通过语音信号的线性预测编码,有效地解决了语音信号的特征提取。

20世纪70年代,语音识别技术取得突破性进展。基于动态规划的动态时间规整(Dynamic Time Warping, DTW)技术基本成熟,特别提出了矢量量化(Vector Quantization,VQ)和隐马尔可夫模型(Hidden Markov Model,HMM)理论[1]。

20世纪80年代,语音识别任务开始从孤立词、连接词的识别转向大词汇量、非特定人、连续语音的识别,识别算法也从传统的基于标准模板匹配的方法转向基于统计模型的方法。在声学模型方面,由于HMM能够很好的描述语音时变性和平稳性,开始被广泛应用于大词汇量连续语音识别(Large Vocabulary Continous Speech Recognition, LVCSR)的声学建模[2?3];在语言模型方面,以N元文法为代表的统计语言模型开始广泛应用于语音识别系统[4]。在这一阶段,基于HMM/VQ、HMM/高斯混合模型、HMM/人工神经网络的语音建模方法开始广泛应用于LVCSR系统,语音识别技术取得新突破。

20世纪90年代以后,伴随着语音识别系统走向实用化,语音识别在细化模型的设计、参数提取和优化、系统的自适应方面取得较大进展[5]。同时,人们更多地关注话者自适应、听觉模型、快速搜索识别算法以及进一步的语言模型的研究等课题[6]。此外,语音识别技术开始与其他领域相关技术进行结合,以提高识别的准确率,便于实现语音识别技术的产品化。

2 语音识别基础

2.1 语音识别概念

语音识别是将人类的声音信号转化为文字或者指令的过程[7]。语音识别以语音为研究对象,它是语音信号处理的一个重要研究方向,是模式识别的一个分支。语音识别的研究涉及微机技术、人工智能、数字信号处理、模式识别、声学、语言学和认知科学等许多学科领域,是一个多学科综合性研究领域[8]。

根据在不同限制条件下的研究任务,产生了不同的研究领域。这些领域包括:根据对说话人说话方式的要求,可分为孤立字(词)、连接词和连续语音识别系统;根据对说话人的依赖程度,可分为特定人和非特定人语音识别系统;根据词汇量的大小,可分为小词汇量、中等词汇量、大词汇量以及无限词汇量语音识别系统。

2.2 语音识别基本原理

从语音识别模型的角度讲,主流的语音识别系统理论是建立在统计模式识别基础之上的。语音识别的目标是利用语音学与语言学信息,把输入的语音特征向量序列[X=x1,x2,…,xT]转化成词序列[W=w1,w2,…,wN]并输出。基于最大后验概率的语音识别模型如下式所示:

[W=argmaxW{P(W|X)}=argmaxWP(W|X)P(W)P(X)=argmaxW{P(X|W)P(W)}=argmaxW{logP(X|W)+λlogP(W)}]

上式表明,要寻找的最可能的词序列[W],应该使[P(X|W)]与[P(W)]的乘积达到最大。其中,[P(X|W)]是特征矢量序列[X]在给定[W]条件下的条件概率,由声学模型决定。[P(W)]是[W]独立于语音特征矢量的先验概率,由语言模型决定。由于将概率取对数不影响[W]的选取,第四个等式成立。[logP(X|W)]与[logP(W)]分别表示声学得分与语言得分,且分别通过声学模型与语言模型计算得到。[λ]是平衡声学模型与语言模型的权重。从语音识别系统构成的角度讲,一个完整的语音识别系统包括特征提取、声学模型、语言模型、搜索算法等模块。语音识别系统本质上是一种多维模式识别系统,对于不同的语音识别系统,人们所采用的具体识别方法及技术不同,但其基本原理都是相同的,即将采集到的语音信号送到特征提取模块处理,将所得到的语音特征参数送入模型库模块,由声音模式匹配模块根据模型库对该段语音进行识别,最后得出识别结果[9]。

语音识别系统基本原理框图如图1所示,其中:预处理模块滤除原始语音信号中的次要信息及背景噪音等,包括抗混叠滤波、预加重、模/数转换、自动增益控制等处理过程,将语音信号数字化;特征提取模块对语音的声学参数进行分析后提取出语音特征参数,形成特征矢量序列。语音识别系统常用的特征参数有短时平均幅度、短时平均能量、线性预测编码系数、短时频谱等。特征提取和选择是构建系统的关键,对识别效果极为重要。

图1 语音识别基本原理框图

由于语音信号本质上属于非平稳信号,目前对语音信号的分析是建立在短时平稳性假设之上的。在对语音信号作短时平稳假设后,通过对语音信号进行加窗,实现短时语音片段上的特征提取。这些短时片段被称为帧,以帧为单位的特征序列构成语音识别系统的输入。由于梅尔倒谱系数及感知线性预测系数能够从人耳听觉特性的角度准确刻画语音信号,已经成为目前主流的语音特征。为补偿帧间独立性假设,人们在使用梅尔倒谱系数及感知线性预测系数时,通常加上它们的一阶、二阶差分,以引入信号特征的动态特征。

声学模型是语音识别系统中最为重要的部分之一。声学建模涉及建模单元选取、模型状态聚类、模型参数估计等很多方面。在目前的LVCSR系统中,普遍采用上下文相关的模型作为基本建模单元,以刻画连续语音的协同发音现象。在考虑了语境的影响后,声学模型的数量急剧增加,LVCSR系统通常采用状态聚类的方法压缩声学参数的数量,以简化模型的训练。在训练过程中,系统对若干次训练语音进行预处理,并通过特征提取得到特征矢量序列,然后由特征建模模块建立训练语音的参考模式库。

搜索是在指定的空间当中,按照一定的优化准则,寻找最优词序列的过程。搜索的本质是问题求解,广泛应用于语音识别、机器翻译等人工智能和模式识别的各个领域。它通过利用已掌握的知识(声学知识、语音学知识、词典知识、语言模型知识等),在状态(从高层至底层依次为词、声学模型、HMM状态)空间中找到最优的状态序列。最终的词序列是对输入的语音信号在一定准则下的一个最优描述。在识别阶段,将输入语音的特征矢量参数同训练得到的参考模板库中的模式进行相似性度量比较,将相似度最高的模式所属的类别作为识别中间候选结果输出。为了提高识别的正确率,在后处理模块中对上述得到的候选识别结果继续处理,包括通过Lattice重打分融合更高元的语言模型、通过置信度度量得到识别结果的可靠程度等。最终通过增加约束,得到更可靠的识别结果。

2.3 声学建模方法

常用的声学建模方法包含以下三种:基于模式匹配的动态时间规整法(DTW);隐马尔可夫模型法(HMM);基于人工神经网络识别法(ANN)等。

DTW 是较早的一种模式匹配的方法。它基于动态规划的思想,解决孤立词语音识别中的语音信号特征参数序列比较时长度不一的模板匹配问题。在实际应用中,DTW通过计算已预处理和分帧的语音信号与参考模板之间的相似度,再按照某种距离测度计算出模板间的相似度并选择最佳路径。

HMM是对语音信号的时间序列结构所建立的统计模型,是在马尔可夫链的基础上发展起来的,它是一种基于参数模型的统计识别方法。HMM可模仿人的言语过程,可视作一个双重随机过程:一个是用具有有限状态数的马尔可夫链来模拟语音信号统计特性变化的隐含的随机过程,另一个是与马尔可夫链的每一个状态相关联的观测序列的随机过程[10]。

ANN以数学模型模拟神经元活动,将人工神经网络中大量神经元并行分布运算的原理、高效的学习算法以及对人的认知系统的模仿能力充分运用到语音识别领域,并结合神经网络和隐含马尔可夫模型的识别算法,克服了ANN在描述语音信号时间动态特性方面的缺点,进一步提高了语音识别的鲁棒性和准确率。其中成功的方法就是在混合模型中用ANN替代高斯混合模型估计音素或状态的后验概率。2011年,微软以深度神经网络替代多层感知机形成的混合模型系统大大提高了语音识别的准确率。

3 语音识别的应用

语音识别技术有着非常广泛的应用领域和市场前景。在语音输入控制系统中,它使得人们可以甩掉键盘,通过识别语音中的要求、请求、命令或询问来作出正确的响应,这样既可以克服人工键盘输入速度慢,极易出差错的缺点,又有利于缩短系统的反应时间,使人机交流变得简便易行,比如用于声控语音拨号系统、声控智能玩具、智能家电等领域。在智能对话查询系统中,人们通过语音命令,可以方便地从远端的数据库系统中查询与提取有关信息,享受自然、友好的数据库检索服务,例如信息网络查询、医疗服务、银行服务等。语音识别技术还可以应用于自动口语翻译,即通过将口语识别技术、机器翻译技术、语音合成技术等相结合,可将一种语言的语音输入翻译为另一种语言的语音输出,实现跨语言交流[11]。

语音识别技术在军事斗争领域里也有着极为重要的应用价值和极其广阔的应用空间。一些语音识别技术就是着眼于军事活动而研发,并在军事领域首先应用、首获成效的,军事应用对语音识别系统的识别精度、响应时间、恶劣环境下的顽健性都提出了更高的要求。目前,语音识别技术已在军事指挥和控制自动化方面得以应用。比如,将语音识别技术应用于航空飞行控制,可快速提高作战效率和减轻飞行员的工作负担,飞行员利用语音输入来代替传统的手动操作和控制各种开关和设备,以及重新改编或排列显示器上的显示信息等,可使飞行员把时间和精力集中于对攻击目标的判断和完成其他操作上来,以便更快获得信息来发挥战术优势。

4 结 语

语音识别的研究工作对于信息化社会的发展,人们生活水平的提高等方面有着深远的意义。随着计算机信息技术的不断发展,语音识别技术将取得更多重大突破,语音识别系统的研究将会更加深入,有着更加广阔的发展空间。

参考文献

[1] 马志欣,王宏,李鑫.语音识别技术综述[J].昌吉学院学报,2006(3):93?97.

[2] RABINER L R, JUANG B H. An introduction to hidden Markov models [J]. IEEE ASSP Magazine, 1986, 3(1): 4?16.

[3] GALES M, YOUNG S. The application of hidden Markov models in speech recognition [J]. Foundations and Trends in Signal Processing, 2008, 1(3): 195?304.

[4] JELINEK F. Continuous speech recognition by statistical methods [J]. Proceedings of the IEEE, 1976, 64(4): 532?556.

[5] 倪崇嘉,刘文举,徐波.汉语大词汇量连续语音识别系统研究进展[J].中文信息学报,2009,23(1):112?123.

[6] 顾亚强.非特定人语音识别关键技术研究[D].长沙:国防科学技术大学,2009.

[7] 中华人民共和国国家质量监督检验检疫总局.GB/T21023?2007 中文语音识别系统通用技术规范[S].北京:中国标准出版社,2007.

[8] 王文慧.基于ARM的嵌入式语音识别系统研究[D].天津:天津大学,2008.

[9] 何湘智.语音识别的研究与发展[J].计算机与现代化,2002(3):3?6.

语音识别技术范文2

关键词:语音识别过程;动态时间规整;隐马尔科夫模型;人工神经网络;语音识别的应用

中图分类号:TN912.34

1 语音识别技术基本原理及过程介绍

语音识别系统由语音信号预处理、特征提取、模式匹配三部分构成。第一步预处理,主要有A/D变换、预加重和端点检测部分。经过预处理之后的语音信号,要进行第二步特征提取,该过程就是在原始语音信号中提取出所需要的特征参数,从而得到特征矢量序列,特征提取完成后,接下来就是语音识别的核心,也就是第三步模式匹配,也就是模式识别。系统框图如下[1]。

图1 一般语音识别系统框图

2 语音识别方法

目前,主要的语音识别方法主要有特征参数匹配法、隐马尔可夫法和人工神经网络法。

2.1 动态时间规整

动态时间规整(DTW)是早期的模式匹配方法。由于语音信号是一种随机性非常大的信号,例如相同的字,不同人说时的发音会不同,时间长短也会不同,即便是同一个人说相同的语句,发音结果也会不同,于是,在模式匹配时,要识别字词的时间轴将不断扭曲,以测试模板与参考模板对齐。DTW是一个比较典型的优化问题,它用满足一定条件的时间规整函数W(n)描述测试模板和参考模板的时间对应关系,求解两模板匹配时累计距离最小所对应的规整函数。动态时间规整也存在一些问题,它的计算量大,比较适合同一个人说话语音的识别,而且不能对样本做动态训练,语音信号的时序动态特性并没有很好地利用,所以DTW多用于孤立字词的识别。

2.2 隐马尔可夫模型

隐马尔可夫模型(HMM)是一种统计模型,用来描述随机过程的统计特性。它是由马尔可夫链演变来的。[2]

HMM可用三元组表示:λ=(π,A,B)

A:状态转移概率的集合。

B:观察概率的集合,表示每个状态输出相应观察值的概率。

π:系统初始状态的集合。

这三个元素π,A,B可以分为由π、A描述的Markov链和由B描述的随机过程。

HMM是一种理想的语音信号模型,如今,连续语音识别,非特定人识别系统大多是基于HMM模型的。HMM是对语音序列的时间序列结构建立统计模型的,HMM是数学上的双重随机过程:一个是具有有限状态数的Markov链来模拟语音信号统计特性变化的隐含的随机过程,另一个是与Markov链的每一个状态相关联的观测序列的随机过程[3]。

尽管马尔可夫模型是一种理想的语音信号模型,但是它还有很多不足。HMM有三个不现实的重要假设,假设一“状态转移的Markov假设”:系统在当前时刻的状态向下一时刻所处的状态转移的状态转移概率仅仅与当前时刻的状态有关,而与以前的状态无关。假设二“不动性假设”:状态与具体时间无关。假设三“输出值的Markov假设”:输出仅与当前状态有关。这三个假设之所以不合理,是因为任一时刻出现的观测值的概率不仅是依赖于系统当前所处的状态,也可能依赖于系统之前时刻所处的状态[4]。

2.3 人工神经网络

人工神经网络(ANN)是在模拟人脑神经组织的基础上发展起来的全新计算机系统。ANN是模拟人类思维中“信息的处理是通过神经元之间同时相互作用的动态过程来完成思维”。ANN是一种非线性动力学系统,它的特点在于信息的分布式储存和并行协同处理。单个神经元的结构简单,但是大量的神经元所构成的神经网络却是一种复杂的网络。ANN更接近于人的认知过程。人工神经网络也存在一些不足,它的训练、识别时间较长、动态时间规整能力较弱并且不容易实现。

3 语音识别的应用和前景

如今的科技领域,几乎每天都有新的技术,新的研究成果出现,而语音识别也是这科技研究的一热门领域,也应用到了人类生活的方方面面。

语音识别的应用非常广泛,语音输入技术的出现,可以使人们通过说话,而非手动输入来作出正确的响应,这样使输入变的更加简单,提高了工作学习的效率。语音识别技术可以应用于汽车,可以使驾驶员用语音指令操纵车载设备,提高汽车驾驶的安全性和舒适性。将语音识别、语言理解与大量的数据库检索和查询技术相结合,就能够实现更轻松的信息查询方式。比如,图书馆的资料信息将能够对来自用户的语音输入进行理解,并将它转化为相应的指令,从数据库中获取结果并返回给用户。这种技术同样可以运用于银行服务、医疗服务等方面。语音识别技术还可以应用于口语翻译,例如,可以让与聋哑人对话的对方带上一个智能语音识别的微型摄像装置,或者给聋哑人带上一种特制的手套,然后,就可以通过语音合成技术和语音识别技术将手语翻译成声音语言,同时,系统还能够完成将正常人的语言翻译成聋哑人的手语,这种口语翻译一种语音输入翻译为另一种语言的语音输出。除此之外,语音识别在军事,航空等领域也有广阔的应用空间。语音识别将不断发展,不断丰富人类的生活。

参考文献:

[1]赵力.语音信号处理第2版[M].北京.机械工程出版社,2009(05).

[2]何彦斌,杨志义,马荟.一种基于HMM的场景识别方法[J].计算机科学,2011(04):254-256.

[3]吕云芳,基于模板匹配法的语音识别系统研究与基本实现[D].天津:河北工业大学,2005.

[4]刘云中,林亚平,陈治平.基于隐马尔可夫模型的文本信息抽取[J].系统仿真学报,2004(03):507-510.

语音识别技术范文3

此外,对于超声科等医技科室,由于医生工作的特殊性,大多通过“一对一”聘请专业录入员的方式提高检查报告录入效率。有些医院为了节约人力,让医生把给病人检查时的语音通过录音设备录制下来,后续通过录入员测听音频文件进行转录,实现一个录入员服务多个医生,以此在一定程度上节约人力,但同时也延长了输出检查报告的时间。 在电子文本的录入过程中基于模板填写具体信息工作量还是比较大的。

另外,模板仅能解决一些常规情况的描述,如果完全按照模板填写,对每位患者的情况记录就缺少了个性化描述,不利于后续诊断使用。为提高文本录入效率,有些医生会使用“复制”、“粘贴”方式,通过在相似患者的病历上进行修改完成病历记录,但有漏改、漏删情况,这种方式在很大程度上增加了病历记录的出错率,对医疗文本录入的准确性是一个比较大的挑战。

语音识别技术在医疗领域的应用越来越多

语音识别技术在欧美国家医疗领域已使用将近10年,主要用于节约医生电子文本录入的时间,降低文本录入工作难度,提高医生工作满意度,让医生把更多时间和精力用在与患者及家俟低交流、为更多患者诊断等事情上。

美国Nuance公司的英文语音识别技术及电脑辅助病历抄写系统,医生可使用掌上移动型设备将病患看诊状况口述下来,存成语音档案,直接传送到语音识别服务器,10小时的语音可在5分钟内完成转录,大大缩短音频文件转录文本的时间。皇家飞利浦电子公司推出的面向医疗领域实时语音识别的专用麦克风,表面采用符合医疗专业要求的防菌抑菌材质,并定制了针对实时语音识别所需的声学硬件模块,使医院工作站实时语音识别实现成功应用,并已在欧美医院成功推广。在放射科等文本录入工作量很大的医技科室尤其受到欢迎。

从统计资料看,美国临床中使用语音识别录入的应用比例已达到10%~20%,主要用于放射科、病理科、急诊室等部门,有效控制电子文本记录及诊断报告生成时间和质量,明显提高工作效率。

语音识别技术是理想的人机交互方式之一,它能够让机器通过识别和理解过程把语音信号转变为相应的文本或命令。北京协和医院在国内首先提出使用语音识别技术录入医疗领域电子文本时,医生纷纷表示担忧,在国内的医疗中语音识别技术的使用和推广面临以下几个难点。

目前国内主流的HIS系统已做了大量工作减少医生输入病历、医嘱时的工作量,如提供大量结构化的病历。医生已习惯这种工作模式。通过语音识别来录入电子文本,尤其在超声科、门诊等环节,医生需要一个熟悉过程。

国内医生的工作环境较复杂,口音等问题也较国外更加突出,医疗特殊单位特殊符号较多,如何保证识别的准确率,让医生用的更加流畅,也是这个项目面临的重要挑战之一。国内移动医疗的趋势越来越明显,基于移动端小屏幕的文本输入一直是语音识别应用致力于解决的问题。如何保障医院复杂环境下移动端的语音识别效果是需要探讨的问题之一。

由于医疗行业的专业性较强,每个学科差异较大,所使用的信息化系统也比较分散,如影像科使用PACS,内科使用HIS等。需要录入文字的工作量较大,但使用的信息化系统较多,要求提供的语音录入文本解决方案,需同时支持多个信息化系统使用,且最大限度降低与原有系统的耦合性。

以上问题,经过为期1年的医疗领域语音识别应用探索和实践,都得到较好解决,超过95%的中文医疗垂直领域语音识别准确率已达到实用水平,中文医疗语音识别技术探索应用方案得到北京协和医院医生认可。

北京协和医院语音识别应用探索和实践

医疗语音识别技术的应用,能将医生口述的语音转成准确度高、完全格式化的初步文件,医生可快速加以核对、编辑,每天可节约1小时左右时间。医生普遍认为语音录入病历可提高文字输入效率,降低工作难度,从总体上提高医院收容处理病人的能力,同时缩短病人的无效等待时间,增加病人满意度。

针对中文医疗语音识别的技术难点,北京协和医院做了很多探索实践工作。

一是定制医疗领域语言模型:针对各科室业务进行梳理,整理了超过30G的医疗文本资料,并对这些资料进行分类、检索等处理。使得定制语音模型覆盖各个科室常用的病症、药品名称、操作步骤等关键信息,使语音识别准确率超过95%的水平。 二是定制个性化语言模型:不同科室的医生在录入医嘱时说的话也不同。北京协和医院语音录入系统和用户的账号系统绑定。医生登录HIS时会加载所在科室的语言模型,这样就可以有效降低模型大小,提高识别准确度。同时医生也可根据自己的使用习惯,向系统中添加自己常用的词汇。 三是一体化私有建设:实现一套私有化部署的语音云支持多渠道多终端的一体化建设。除支持HIS、PACS等PC端应用,还支持移动查房等pad端应用,真正实现跨平台的多渠道互联互通应用,大大降低医疗信息化建设成本。 医疗语音识别系统采用分布式计算,具有高健壮性、高度灵活性、高性价比等特点,主要包括操作系统层、引擎层、资源包和管理工具4个层次。操作系统层提供开发接口,以及开发人员关注的接口定义、功能和使用方法;引擎层提供核心的语音处理功能,作为应用接口的功能实现者;在引擎层之上提供覆盖医疗领域的资源包,为科室提供语音识别优化的功能。同时系统完美地支持传统API调用和手机APP开发,为医院原有信息化系统提供了相关接口和SDK。

北京协和医院医疗语音识别应用效果初现

据了解,医疗语音识别已在北京协和医院病房、医技科室、手术休息区进行了尝试使用。为更好地测试语音识别效果,北京协和医院组织医生进行了语音识别系统测试和主观体验,随机抽样了135例样本进行精确统计。

已上线科室使用医疗语音识别系统的医生表示,该系统的语音识别效果较好,可以有效提高工作效率,降低工作强度,减轻工作量,尤其对长段信息、自由医嘱录入的效果明显。超过50%的大夫认为语音识别技术每天可节约1小时左右时间。超过90%的大夫希望使用语音录入方式,以提高工作效率。

语音识别技术范文4

【关键词】竞争学习;广度优先搜索邻居;矢量量化;码本

1.引言

现存的一些矢量量化方法一般都需要预先确定码本大小,比如LBG[1],K-means算法等,然而在现实条件很难预先确定码本大小。由中山大学赖剑煌教授和王长东提出的基于能量的竞争学习算法[2]应用在图像分割中,这种算法能自动确定数据聚类个数,能够保持类的大小(即一个类中所包含的样本个数)和稀疏度(类中样本的稀疏程度)均衡,并且具有自适应学习速率;本文尝试将基于能量的竞争学习算法应用到特定人汉语数字0-9语音识别中,在基于能量的竞争学习算法确定初始化码字中,笔者用广度优先搜索邻居的聚类算法进行了改进。

2.基于能量的竞争学习算法及其改进

3.2 实验结果

4.结论

本文将EBCL学习算法运用在特定人的数字语音识别中,这个算法的优点就是能够自动初始化,自动确定码本的大小,这是此算法相对于以往的矢量量化算法所不具备的优点。从表1可以看出基于EBCL的数字语音识别可以达到较高的识别率,比经典的LBG算法的识别率还要高;LBG算法在码本提取中需要事先确定码本大小而EBCL能够自动确定码本大小,从表2中可以看出,在识别率相当的情况下,用EBCL算法获得的每个数字语音的码本大小不尽相同而LBG算法获得的码本大小是固定的;EBCL获得的码本的大小相对于LBG的更小,这样使得码本存储空间更小,EBCL算法识别时间更短。将此算法运用到非特定人数字语音识别中时我们今后工作的重点。

参考文献

[1]刘刚,刘晶,王泉.使用新的码字分割方法的快速LBG算法[J].计算机工程与应用,2009,45(28):199-202.

[2]Chang-DongWang,Jiang-HuangLai.Energybasedcompetitivelearning[J].Neurocomputing,2011,74:2265-2275.

[3]钱江波,懂逸生.一种基于广度优先搜索邻居的聚类算法[J].东南大学学报,2004,34(1):109-113.

[4]蔡莲红,黄德智,蔡锐.现代语音技术基础与应用[M].北京:清华大学出版社,2003:236-238.

[5][6]胡光锐,韦晓东.基于倒谱特征的带噪语音端点检测[J].电子学报,2000,28(10):95-98.

语音识别技术范文5

关键词:管道输油;安全隐患;识别技术;事故预防;对策

中图分类号:TB

文献标识码:A

文章编号:16723198(2014)05018101

1引言

管道输油安全是整个管道工程安全运行的重要内容,对确保油气资源的顺利输送,满足人们对油气的使用具有重要作用。然而在实际工作,由于受到人员、制度等因素的制约,管道输油安全隐患识别存在着一些不足,影响了安全事故的预防。为此在实际工作需提高安全隐患识别技术,并采取相应的事故预防策略,为管道输油的安全提供保障。

2管道输油安全隐患的种类与识别技术

(1)安全隐患的种类。根据分类标准的不同,管道输油的安全隐患可以分为外泄露、内泄露,或者是动泄露、静泄露等种类,导致这些泄露出现的原因是多方面,包括管道腐蚀、人为破坏、自然灾害等等,为确保管道输油的安全,必须采取相应的措施加强对安全隐患的识别和预防。

(2)安全隐患识别技术。具体的安全隐患识别技术有很多种,例如,负压波法、声波法、统计决策法、实时模型法、压力梯度法、应力波法、质量平衡法等等,在安全隐患识别的时候,需要根据具体情况选用,以达到最佳的识别效果。

3管道输油安全隐患识别存在的不足

(1)工作人员素质较低。很多管道输油工程缺乏专职安全管理人员,缺少必要的专业技能和知识,难以做好日常安全管理工作,安全隐患识别技术没有掌握,制约日常工作的开展,也难以采取有效的措施预防安全事故发生。

(2)安全管理制度不完善。对安全隐患识别不重视,安全管理机构设置不完善,安全隐患识别人员配置不齐全,难以对管道输油存在的安全问题进行有效识别,导致安全问题出现之后没有及时被发现,没来得及立即采取措施处理。

(3)安全隐患巡查不到位。在对管道输油进行安全隐患巡查时,工作人员不认真履行职责,相关记录填写不规范,不完善,不能全面反映管道输油的安全状况,制约了管道输油安全管理水平的提高。

4管道输油安全事故的预防对策

(1)提高管道设计、施工、安装水平。提高设计水平,避免不合理设计给管道输油带来的泄露等问题,管道设计、施工、验收要严格按照SH3501—2002的规范要求进行。整个管道系统在进行压力和气密性试验之后,确保系统无泄露,或者泄漏量在允许值范围内,才能竣工投产。

(2)改进管道输油安全隐患识别技术。高效先进的检测技术能够提高安全隐患识别水平,提高检测的精确度和可靠性,对管道输油事故的检测,应该以软件方法为主,硬件方法为辅,将二者有效的结合起来,将检测系统与SCADA系统结合起来使用,提高安全隐患识别水平。重视分布式光纤传感器的运用,采取相应措施,有效预防管道输油的破坏,例如,安装声光报警装置,110联动报警装置,微机监控系统等,提高安全防范水平,确保整个管道输油的安全。

(3)提高安全管理人员素质。企业必须重视对人员的管理,全面提高他们的素质。定期对安全管理人员开展培训,充实他们的理论知识,丰富他们的安全管理经验,提高他们的安全隐患识别技术,进而全面提高他们的综合素质,使他们具备严格的责任意识,履行好自己的职责,做好自己的每一项工作。还要注重引进和吸收优秀的安全管理人员,充实本企业安全管理队伍。完善奖惩激励机制,充分发挥激励作用,促进管理人员履行好自己的职责,出色的完成安全管理和安全隐患识别工作。

(4)完善管道输油安全管理制度。企业领导在思想上就要重视安全管理和安全隐患识别工作,完善安全管理制度,强化领导,健全安全管理组织机构,建立安全管理责任制,将管道输油安全管理和安全隐患识别的各项工作落实到相关单位和个人。管理人员应该明确施工安全管理的要求,提高本企业安全隐患识别意识,加强各项工作。做好管道输油的日常巡检工作,加强管道输油的日常监测和控制,及时发现存在的安全隐患,并立即采取措施处理。

(5)重视管道输油的日常巡查工作。对管道输油进行定期巡查,发现问题及时通知管理人员。管理人员也要对管道输油的安全状况进行全面检查。对存在的安全隐患要及时研究和分析,根据具体情况采取相应的安全控制措施,预防安全事故的发生。管理人员还要定期或不定期对管道输油的安全状况进行巡查,提高安全隐患识别技术,采取措施预防可能出现的事故,确保管道输油的安全。

(6)建立管道输油安全事故应急制度。在整个管道输油过程中,管理部门要重视风险管理理论的运用,对可能出现的隐患进行预测和管理,提前做好安全隐患识别,做好重大安全事故的预测预报和防治工作,对其中可能出现的隐患及时预测和评价,并采取措施进行控制。同时建立完善的应急救援制度,制定应急预案,一旦发生事故,立即采取措施处理,将出现的事故可能带来的影响降到最低,为管道输油的安全顺利运行提供保障。

5结束语

总之,在管道输油过程中,加强安全管理,做好安全隐患识别的重要作用是不言而喻的。今后在实际工作中,应该认识安全管理和安全隐患识别的重要作用,并根据具体情况采取相应的对策,提高安全隐患识别技术,加强对安全事故的预防和控制,为管道输油的安全运行提供保障。

参考文献

[1]高安东.原油长输管道安全生产管理措施浅析[J].安全健康环境,2013,(8).

[2]唐晓渭.输油管道安全生产运行控制措施的探讨[J].今日科苑,2013,(4).

语音识别技术范文6

关键词:语音识别;噪音监测;智能语音预警

中图分类号:TP18文献标识码:A文章编号:1009-3044(2011)23-5722-02

语音识别是解决机器“听懂”人类语言的一项技术。作为智能计算机研究的主导方向和人机语音通信的关键技术,语音识别技术一直受到各国科学界的广泛关注。

监狱是关押、改造犯人的场所,是重要的国家机器之一。监狱的安全防范工作关系着社会的稳定、国家的安宁。特别是在“构建和谐社会”的大环境下,构建好监狱的安全防范体系就显得格外重要。近年来,国家司法部大力提倡科技强警和监狱信息化,监狱安防作为其中的核心部分,受到了高度重视,全国各大监狱都在积极筹建现代化安防系统,“向科技要警力”已经成为一种趋势。

目前国内监狱安防系统主要还是以视频监控为主,再附带一些安防报警装置,通过安防设备之间的联动处理使得监狱达到一个高效的安防等级。但是安防系统很多业务大多时候只能用于事后处理和取证,无法起到预防、预警的作用。不过,随着语音识别技术研究的突破,以语音识别技术开发出的产品应用非常广泛,在安防系统中加入依靠语音技术开发出的智能语音预警功能将使安防系统的满足更多的要求,而且该技术国外一些监狱已经成功采用。

1 语音识别技术简介

语音识别技术,也被称为自动语音识别Automatic Speech Recognition,(ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同,后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。

早在计算机发明之前,自动语音识别的设想就已经被提上了议事日程,早期的声码器可被视作语音识别及合成的雏形。而1920年代生产的"Radio Rex"玩具狗可能是最早的语音识别器,当这只狗的名字被呼唤的时候,它能够从底座上弹出来。最早的基于电子计算机的语音识别系统是由AT&T贝尔实验室开发的Audrey语音识别系统,它能够识别10个英文数字。其识别方法是跟踪语音中的共振峰。该系统得到了98%的正确率。到1950年代末,伦敦学院(Colledge of London)的Denes已经将语法概率加入语音识别中。

1960年代,人工神经网络被引入了语音识别。这一时代的两大突破是线性预测编码Linear Predictive Coding (LPC), 及动态时间弯折Dynamic Time Warp技术。

语音识别技术的最重大突破是隐含马尔科夫模型Hidden Markov Model的应用。从Baum提出相关数学推理,经过Labiner等人的研究,卡内基梅隆大学的李开复最终实现了第一个基于隐马尔科夫模型的大词汇量语音识别系统Sphinx。此后严格来说语音识别技术并没有脱离HMM框架。

广泛意义上的语音识别按照任务的不同可以分为4个方向:说话人识别、关键词检出、语言辨识和语音识别。说话人识别技术是以话音对说话人进行区别,从而进行身份鉴别和认证的技术。关键词检出技术应用于一些具有特定要求的场合,只关注那些包含特定词的句子。语言辨识技术是通过分析处理一个语音片断以判别其所属语言种类的技术,本质上也是语音识别技术的一个方面。语音识别就是通常人们所说的以说话的内容作为识别对象的技术,它是4个方面中最重要和研究最广泛的一个方向,也是本文讨论的主要内容。

2 语音识别技术的实现方法

一般来说,语音识别的方法有三种:基于声道模型和语音知识的方法、模板匹配的方法以及利用人工神经网络的方法。其中模板匹配的方法发展比较成熟,目前已达到了实用阶段。在模板匹配方法中,要经过四个步骤:特征提取、模板训练、模板分类、判决。

一个完整的基于统计的语音识别系统一般由语音信号预处理与特征提取,声学模型与模式识别,语言模型与语音处理3部分组成. 4 总体上说,语音识别就是一个模式识别和匹配的过程,首先计算机必须根据人的语音特点来建立语音特征模型或字典库;然后对获取的语音输入信号经过噪声去除和端点检测等预处理后进行特征分析和提取,建立所需识别的语音信号模板;再采用模式识别理论和技术,将计算机中已经存在的语音模板特征与输入的语音信号特征进行比较,并根据一定的搜索和模式匹配的策略从语音特征库中找出最优的语音模版与输入语音进行匹配处理;最后通过查表或判别算法来给出识别结果.目前语音识别主要集中在特定人和非特定人语音识别、孤立词和连续语音识别、小词汇量和大词汇量的语音识别方面.其语音识别系统结构如图1所示。

常用的技术有三种:动态时间规整(DTW)、隐马尔可夫(HMM)理论、矢量量化(VQ)技术。

3 语音识别在监狱安防中的应用

在监狱安防系统中使用好语言识别技术能够在预警方面发挥作用。而且,笔者参与过的监狱安防项目中也采用了这一技术来实现噪音预警功能。噪音预警功能能够识别采集到的声音对群殴、哄监等异常事件做到事先预警的作用。

噪音预警是语音识别应用中相对容易实现的部分,技术难度不大,目前我们在监狱安防中应用的噪音预警功能是通过硬件支持和软件分析两部分来实现。硬件支持指的是拾音器设备,也就是音量采集设备,它将采集到的声源不间断的发给软件进行分析;软件分析指的是将硬件设备采集到的声源进行音量、音色、音调三个方面的分析。具体实现的思想如下:

1)通过识别音量的大小,我们可以对监舍以及一些公共场所进行噪音监测,当音量大小超过正常秩序下设定的音量值,就发出预警报警信息,相关摄像头也会自动切换到该区域,可以有效预防犯人大声吵架而可能引起的打架斗殴事件。

2)通过对玻璃破碎声、物品撞击声、洗漱器具与地面撞击声、餐饮器具与地面撞击声等的音色和音调进行分析,提取可识别的特征,当语音识别系统识别出与该特征相似的声音时,就发出预警报警信息,相关摄像头也会自动切换到该区域,可以有效预防犯人自杀、斗殴等事件的发生。

3)通过音调的快速变化可以识别(突然变高、突然变快),可以预测干警或者犯人遇到紧急情况。

4)通过敏感词汇(如逃跑、越狱、翻墙、挖地道等)音调的特征提取可以识别某一区域的人在讨论敏感信息发掘罪犯密谋信息,还可以加入多种方言音调特征,避免一些用方言密谋犯罪行为的遗漏。

5)通过声音特征和位置的特性,设计专门针对某一特殊点的的语音识别方式,在声音预警报警中往往能够发出意想不到的作用。如:禁闭室里采集到低频率的“砰砰”声,可能是犯人在撞墙;值班室里采集到闷哼声,可能是值班干警被不法分子捆绑并堵住嘴巴;监舍里采集到呼喊声,可能是发生斗殴事件;房间里采集到砸碎玻璃的声音,可能是犯人拿碎玻璃片自杀或者行凶等。

针对上述识别思想设计专门的音色模型库,通过拾音器设备采集到语音信号,再进行处理,然后提取该声音的特征与音色模型库里的声音进行比较,如果特征和音色模型库里的一种或多种音色模型相符,则发生预警信号;否则,拾音器将会继续采集。噪音预警分析流程如图2所示。

4 语音识别在监狱安防领域的发展方向

通过语音/噪音识别技术的介绍,可以发现语音识别技术在监狱安防中可以有更大的作为。如语音验证、智能语音识别预警等方面的实现与应用都会给监狱安防带来新的突破。

门禁语音识别验证:在门禁系统中加入语音验证模块,配合目前安防领域内的视网膜门禁、指纹识别门禁等一并使用,增加门禁的验证环节,大大提高了门禁系统的安防等级。

智能语音识别预警:只要建立强大的语音模型库,对一些紧急情况下的语音进行研究,收集大量的求救、呼喊类语音模型,尤其是对说话内容进行分析,只要采集到的声音文件经过分析后与语言模型库中的声音相符合就会立即发出预警信号提示值班干警通过视频查看现场状况。

5 结束语

语音识别技术发展到今天,语音识别系统的识别精度在不断提高,这些技术已经能够满足通常应用的要求。随着噪音环境下的语音识别技术、语言模型和声学模型的建立的进一步突破,使得语音识别技术的应用范围更广、识别精度更高,使得音色模型库更加丰富全面,从而为监狱安防中的语音预警功能提供了强有力的支持,相信不久的将来智能语音识别预警功能的定会被广泛使用,成为监狱安防系统“技防”中不可或缺的重要组成部分。

参考文献:

[1] 胡光锐.语音处理与识别[M].上海:上海科学技术文献出版社,1994.

[2] 赵立.语音信号处理[M].北京:机械工业出版社,2003.

[3] 拉宾纳 L,Rabiner Lawrence,阮平望,等.语音识别基本原理[M].北京:清华大学出版社,1999.

[4] 詹新明,黄南山,杨灿.语音识别技术研究进展[J].现代计算机,2008.