语音识别系统范例6篇

前言:中文期刊网精心挑选了语音识别系统范文供你参考和学习,希望我们的参考范文能激发你的文章创作灵感,欢迎阅读。

语音识别系统

语音识别系统范文1

关键词:语音识别;动态时间规整(DTW);数字信号处理器(DSP)

1 引言

语音识别按不同的角度有以下几种分类方法:从所要识别的单位,有孤立词识别、音素识别、音节识别、孤立句识别、连续语音识别和理解。目前已进入识别的语音识别系统是单词识别。以几百个单词为限定识别对象。从识别的词汇量来分。有小词汇(10-50个)、中词汇(50-200个)、大词汇(200以上)等。从讲话人的范围来分。有单个特定讲话人、多讲话人和与讲话者者无关。特定讲话人比较简单,能够得到较高的识别率。后两者难度较大,不容易得到高的识别率。 从识别的方法分。有模块匹配法、随机模型法和概率语法分析法。这三种都属于统计模式识别方法。

2 系统硬件及组成

2.1 系统概述

语音识别系统的典型实现方案如图1所示。输入的模拟语音信号首先要进行预处理,语音信号经过预处理后,接下来重要的一环就是特征参数提取,其目的是从语音波形中提取出随时间变化的语音特征序列。然后建立声学模型,在识别的时候将输入的语音特征同声学模型进行比较,得到最佳的识别结果。

2.2 硬件构成

本文采用DSP芯片为核心(图2所示),系统包括直接双访问快速SRAM、一路ADC/一路DAC及相应的模拟信号放大器和抗混叠滤波器。外部只需扩展FLASH存储器、电源模块等少量电路即可构成完整系统应用。

2.3 系统主要功能模块构成

语音处理模块采用TI TMS320VC5402, TMS320VC5402含4 KB的片内ROM和16 KB的双存取RAM,一个HPI(HostPortInterface)接口,二个多通道缓冲单口MCBSP(Multi-Channel Buffered SerialPort),单周期指令执行时间10 ns,带有符合IEEE1149.1标准的JTAG边界扫描仿真逻辑。语音输入、输出的模拟前端采用TI公司的TLC320ADSOC,它是一款集成ADC和DAC于一体的模拟接口电路,并且与DSP接口简单,性能高、功耗低,已成为当前语音处理的主流产品。16位数据结构,音频采样频率为2~22.05 kHz,内含抗混叠滤波器和重构滤波器的模拟接口芯片,还有一个能与许多DSP芯片相连的同步串行通信接口。TLC320AD50C片内还包括一个定时器(调整采样率和帧同步延时)和控制器(调整编程放大增益、锁相环PLL、主从模式)。TLC320AD50C与TMS320VC5402的硬件连接,如图3所示。

3 结论

本文以TMS320VC5402芯片为核心的系统硬件设计迸行了研究,通过TLC320AD50C对语音信号进行A/D转换,通过TMS320VC5402对语音信号“0”、“1”、“2”进行训练和识别,并由对于灯LED0、LED1、LED2亮来显示结果是否正确;该系统核心识别算法采用动态时间规整(DTW)算法,主要流程包括预处理、端点检测、提取特征值、模式匹配和模板训练,取得了很好的识别效果。

参考文献

[1] 朱铭锆, 赵勇, 甘泉. DSP应用系统设计 [M].北京:电子工业出版社,2002.

[2] 郭华. 自适应滤波算法及应用研究[D].兰州:西北师范大学,2007.

[3] 张雄伟..DSP芯片的原理与开发应用[M].北京:电子工业出版社,2009.

[4] 张德丰. 数字图象处理(MATLAB版)[M].北京:人民邮电出版社,2009.

作者简介

王宇,邵阳学院魏源国际学院电子科学与技术专业学生。

语音识别系统范文2

关键词:语音识别;数字信号处理器;美尔频率倒谱系数;动态时间规整

中图分类号:TP319 文献标识码:A 文章编号:2095-1302(2012)09-0014-02

Design of voice recognition system based on TMS320C6713

XU Fei-yan1, CHEN Tao2, SUN Xu3, FANG Zong-liang1, LI Li-rong1

(1. Department 2, Anti-Chemical Institute, Beijing 102205, China;

2. Beijing Research & Development Center of Xiamen Jiuhua Communications Equipment Factory, Beijing 100083, China;

3. Chengdu University of Technology, Chengdu 610059,China)

Abstract: Taking the TMS320C6713DSP with floating-point functions produced by Texas Instruments chip as the system core processor and the MSP430 microcontroller as a peripheral controller, a real-time speech recognition system is designed in the paper. The kernel algorithm for the system uses Mel-frequency cepstral coefficients as feature parameters for feature extraction and dynamic time warping (DTW) algorithm for pattern matching. Programming and debugging of the system indicate that the system has good flexibility and real-time capability and improves the performance in noise immunity, robustness and recognition rates. In many areas, it has a practical reference value.

Keywords: speech recognition; digital signal processing; Mel-frequency cepstral coefficients; dynamic time warping

0 引 言

语音识别[1]是一种最为理想的人机通信方式。随着计算机技术的进步,语音识别技术已经逐渐应用于控制、通信、消费等行业[2]。但是,语音识别系统在商品化的进程中还存在着诸如识别速度、系统鲁棒性以及更高的识别率等具体问题。如何提高语音识别系统的这些性能,使系统更快、更稳定地工作是目前研究的重点。本文正是基于这种思想,通过选用德州仪器公司带浮点功能的DSP芯片TMS320C6713(主频为200 MHz)作为语音信号处理的核心处理器,同时结合MSP430单片机作为控制器共同构建硬件系统, 以美尔频率倒谱系数作为语音信号特征参数,结合动态时间规整孤立词识别算法进行模式匹配,设计了一种具有良好实时性和高识别率及鲁棒性的语音识别系统。

1 系统硬件设计

本设计的整个硬件系统是以DSP为核心电路对语音信号进行采集和处理,再经过A/D转换电路把模拟语音信号转换成数字语音信号,然后送入DSP芯片进行匹配识别,最后将识别后的结果通过单片机控制模块外接的两个红绿颜色的二极管进行处理表示,其中红色表示拒绝命令,绿色表示接受命令。系统的硬件平台主要由DSP系统核心处理模块、语音信号采集模块、单片机控制模块、外扩存储器模块和电路等几个模块构成。系统的硬件设计总体方案框图如图1所示。

1.1 DSP系统核心处理模块

作为系统的核心模块DSP芯片采用TMS320C6713,该芯片的主频可达200 MHz。这是TI公司推出的一种新型的浮点DSP芯片,是继定点DSP芯片TMS320C62X系列后开发的。该芯片的内部结构在TMS320C62X的基础上进行了改进,内部同样集成了多个功能单元,可同时执行8条指令,其运算能力可达1G FLOPS。片内具有丰富的外设,如EDMA、EMIF、McBSP、HPI、GPIO等[4]。

TMS320C6713 以其出色的运算能力、高效的指令集、智能外设、大容量的片内存储器和大范围的寻址能力,十分适合对运算能力和存储量有高要求的应用场合。

语音识别系统范文3

关键词:语音识别;MYASR系统;XML语言

1.引言

在小词汇量的语音识别系统中,主要分为孤立词识别和基于词网模型的连续语音识别。前者通过词发音端点分割算法,把每个词的发音从整段语音中分割出来,然后再到模型集中去寻找最佳的匹配作为识别结果。XML同HTML一样,都来自SGML(标准通用标记语言)。SGML是一种在Web发明之前就早已存在的用标记来描述文档资料的通用语言。但SGML十分庞大且难于学习和使用。鉴于此,人们提出了XML 语言,它具有可扩展性、灵活性、自描述性、简明性的优点。

在MYASR系统中有多个功能模块,每个功能模块都有各自的参数,采用XML语言对这些参数进行描述更加直观,可读性更强。例如,MYASR中MFCC编码的XML描述如下:

<mfcc_params>

 <type_mask>  MFCC_0_D_A  </type_mask>

 <sample_rate> 16000 </sample_rate>

 <win_size>  400 </win_size>

 <win_shift> 160 </win_shift>

 <fft_size>  512 </fft_size>

 <low_freq>  200  </low_freq>

 <high_freq> 7000  </high_freq>

 <pre_enphasis> 0.97 </pre_enphasis>

 <mel_num>  26  </mel_num>

 <cep_num>  12  </cep_num>

 <cep_lifter>  10  </cep_lifter>

</mfcc_params>

MYASR通过XML解析器将XML元素中的参数提取出来,然后再传递给各个功能模块。当需要增加参数时,只要在XML文件中适当位置增加一个元素(Element)即可,具有良好的可扩展性。

3.系统开发

MYASR系统的模块结构如下所示:

3.1前端处理

MYASR的前端处理包括以下功能模块:自动增益控制(AGC)、噪音消除、预加重处理。其相应的XML描述如下:

<preprocess_bat workdir="d:worktmp">

 <params>

  <frame_ts> 20 </frame_ts>       //帧长

  <agc>

   <level> 0.5 </level>  

   <max_gain> 2.0 </max_gain>  //最大增幅

   <min_gain> 1.0 </min_gain>   //最小增幅

  <agc>

  <pre_enphasis> 0.97 </pre_enphasis>//预加重系数

  <denoise>1</denoise>    //噪音消除

 </params>

 <transcrip> pretrans.scp </transcrip>

</preprocess_bat>

其中属性"workdir"表示当前的工作目录,元素<agc>表示自动增益控制参数,元素<pre_enphasis>表示预加重参数,元素<denoise>表示是否对语音进行噪音消除。元素<transcrip>表示批处理文件,此文件中描述了目标文件名及处理后的文件名,内容如下:

"speech1.wav"  "speech1_dn.wav"

"speech2.wav"  "speech2_dn.wav"

"speech3.wav"  "speech3_dn.wav"

.........

3.2端点分割

在MYASR系统中,实现两种类型的端点分割:句子端点检测,词端点检测。采用的静音检测方法有【2】:基于短时能量、基于短时平均过零率、和基于GMM模型。其XML描述如下:

 <endpoint>

  <endpoint_method> SENT_CUT </endpoint_method>

  <vad_method> GMM_VAD </vad_method>

  <sil_interval> 500 </sil_interval>            //单位为毫秒

</endpoint>

元素<endpoint_method>表示端点分割方法:设置SENT_CUT表示句子端点分割,设置WORD_CUT表示词端点分割。元素<vad_method>表示静音检测的方法:设置GMM_VAD 表示采用基于GMM模型,PW_VAD表示基于短时能量,COS_VAD表示基于短时平均过零率。<sil_interval>元素表示检测对象之间允许的停顿时间,超过停顿时间意味着出现新的句子或词。

3.3特征提取

MYASR系统中目前采用MFCC结合动态差分参数作为特征矢量。将语音文件转换为MFCC编码的XML描述文件如下所示:

 <wav2mfcc workdir = "d:myworkdir">

  <params_xml>mfccparams.xml</params_xml>

  <transcrip> trans.scp </transcrip>

</wav2mfcc>

其中mfccparams.xml是MFC C特征参数的描述文件,内容如下:

<mfcc_params>

 <type_mask>  MFCC_0_D_A  </type_mask>//类型

 <sample_rate> 16000 </sample_rate>  //采样率

       <win_size>  400  </win_size> //帧长

 <win_shift> 160   </win_shift>    //帧移

 <fft_size>  512   </fft_size>   //FFT的窗长

 <low_freq>  200  </low_freq>   //截止的最低频率

 <high_freq>  7000 </high_freq>   //截止的最高频率

 <mel_num>  26  </mel_num>   //MEL滤波器数

 <cep_num>  12  </cep_num>   //MFCC维数

 <cep_lifter>  10  </cep_lifter>   //参数提升系数

</mfcc_params>

其中<type_mask>元素表示特征矢量标志,有6种类型:

表3-1  MYASR中MFCC编码类型

标志

含义

MFCC

MFCC参数

MFCC_0

MFCC参数加对数能量

MFCC_D

MFCC参数及其一阶差分

MFCC_0_D

MFCC参数加对数能量,及一阶差分

MFCC_D_A

MFCC参数及其一阶、二阶差分

MFCC_0_D_A

MFCC参数加对数能量,及一阶、二阶差分

<transcrip>元素中的trans.tsp文件描述了语音源文件及转换成MFCC的目标文件,内容如下:

"speech1.wav"  "speech1.mfc"

"speech2.wav"  "speech2.mfc"

"speech3.wav"  "speech3.mfc"

.........

3.4模型训练

MYASR采用了连续概率密度的HMM模型,模型参数初始化采用了"K-均值分割"算法,参数重估采用"Baum-Welch"算法。其XML描述文件如下:

<hmm_train workdir="d:worktmpmytimit">

 <label_scrip> phones.lst </label_scrip>    

 <featlep_scrip> trainmfcclabep.scp </featlep_scrip>  

 <hmm_params>

  <state_num>3</ state_num >      //HMM状态数

  <mixture>4</mixture>       //高斯分量个数

  <veclen>39</veclen>       //特征矢量维数

  <cluster>GMM_EM</cluster>     //聚类算法

  <feat_flag>MFCC_0_D_A</feat_flag>   //特征矢量标志

 </hmm_params>

 <model_file>modelhmmmodelEM4.xml</model_file> //输出文件

</ hmm _train>

其中,<label_scrip>元素中的文件phones.lst表示要训练的那些词或音子。

<featlep_scrip>元素中的文件trainmfcclabep.scp描述了特征矢量文件及其标注文件,内容如下:

"mfcspeech1.mfc"  "labspeech1.lab"

"mfcspeech2.mfc"  "labspeech2.lab"

"mfcspeech3.mfc"  "labspeech3.lab"

.........

标注文件".lab"中注明了每个单元的发音起点和终点,MYASR将根据标注文件从特征文件中读取特征矢量进行HMM模型的训练。标注文件内容如下:

0    191   sil

191  285   sh

285  358   ix

358  415   hh

415  548   eh

548  646   jh

646  720   ih

720  790   d

790  920   ah

....

其中时间单位为毫秒。

<cluster>元素表示"K-均值分割"算法中对B参数进行重估所采用的算法,有两种选项:GMM_EM表示EM算法,K_MEANS表示"K-means"算法。实验结果显示,EM算法比"K-means"算法具有更好的性能。

<model_file>表示训练输出的HMM模型文件,内容如下:

<hmm_set>

 <params>

  <feat_mask>MFCC_0_D_A</feat_ mask >

  <state_num>3</state_num>

  <mixture>4</mixture>

  <vec_len>39</vec_len>

 </params>

 <hmm >

  <state>

 <mixture> 1.906841e+001 1.900540e-001 ......</mixture> //均值

<var>     2.945649e+001 1.096035e+002......</var>    //方差

<weight>  2.212352e-001 </weight>  

 //权重

           </state>

           ......

</hmm>

......

</hmm_ set >

3.5词网构建

3.5.1 词网模型的双层结构

MYASR中的词网模型分为两层:一层是描述层,主要用于描述词网的结构,包括上下文无关文法和有限状态图;另一层是模型层,这一层由HMM模型构成的搜索网络,是搜索算法的输入。首先由用户定义语法规则,然后转换成有限状态图,最后结合HMM模型集和发音字典将其转化成搜索算法可以处理的模型层搜索网络。

3.5.2 描述层到模型层的转换

在模型层搜索网络中,按节点是否有词输出分为两类:空节点和词节点。空节点中不含有HMM模型,而只是作为词网中的一个过度节点,如起始节点(#START),终止节点(#END),中转节点(#L)都是没有词输出的节点。而词节点则包含了构成这个词的HMM模型。

词网模型的有限状态图转换成模型层搜索网络的过程为:当遇到空节点时,不作处理;当遇到词结点时,在字典哈希表找到这个词,并保存word_id,word_id是这个词在字典哈希表的索引,当搜索结束后,回溯时就是根据这个word_id找到哈希表中对应的词;同时根据这个词的发音,到HMM哈希表中查找子词的HMM模型,然后在这个词结点中创建指向子词HMM模型的指针。转换后的模型层搜索网络如图3-4所示。

    模型层搜索网络构建后,就可以用Token-Passing算法进行搜索。

4 总结

本文在研究语音识别理论的基础上,设计并开发了基于词网模型的连续语音识别系统-MYASR。MYASR提供了丰富的功能模块,使开发一个基于词网模型的连续语音识别应用系统更加方便,同时也是语音识别研究的实验平台。MYASR所采用的XML描述文件,使系统具有良好的可读性和可扩展性。通过在TIMIT语料库上单音子连续语音识别的实验显示,MYASR具有很高的识别性能和实时性能。当前系统只是在Windows平台上,为适应各种应用的需要,在后续的语音识别系统设计中,可考虑将系统移植到嵌入式平台。

语音识别系统范文4

【关键词】语音识别;TMS320VC5402DSP;Mel频率倒谱参数MFCC:DTW算法

1.引言

近年来,家居空调的语音智能控制已经成为一个非常活跃的研究领域,语音识别技术作为一种重要的人机交互手段,辅助甚至取代传统的遥控器,在智能控制领域有着广阔的发展前景。

语音识别是机器通过识别和理解过程把语音信号转变为相应的文件或命令的技术。随着DSP技术的快速发展及性能不断完善,基于DSP的语音识别算法得到了实现,并且在费用、功耗、速度、精确度和体积等方面有着PC机所不具备的优势,具有广阔的应用前景。

2.语音识别的基本原理

语音识别的过程是一个模式匹配的过程。首先根据语音特点建立语音模型,模型通常由声学模型和语言模型两部分组成,分别对应于语音到半音节概率的计算和半音节到字概率的计算。对输入的语音信号进行预处理后提取所需的语音特征,在此基础上建立语音识别所需的模板。在识别过程中,根据语音识别的整体模型,将输入的语音特征与已有的语音模板进行比较,找出最佳匹配对象作为识别结果。一般的语音处理流程如图1所示。

图1 语音识别系统的处理流程图

3.系统的硬件设计

通过对系统功能分析,最终确定系统由语音采集与输出模块、语音处理模块、程序数据存储器FLASH模块、数据存储器SRAM模块、系统时序逻辑控制CPLD模块、JTAG接口模块等组成,设计的框图如图2所示。

图2 语音识别系统的硬件结构框图

(1)语音采集与输出模块。该模块由高性能的立体声音频Codec芯片TLV320AIC23B来完成。模数、数模转换集成在一块芯片内,内置耳机输出放大器,支持MIC和LINE IN两种输入方式,输入和输出增益可编程设置。编程设置内部的11个16位寄存器可得所需的采样频率、输入输出增益和传输数据格式等。

(2)语音处理模块。采用TMS320VC5402 16位微处理器,处理速度快,最快运行速度可达100MIPS,功耗低,是一款理想的DSP处理器。作为系统的整个核心,其主要功能是接收来自A/D的数据,完成语音训练和语音识别。具有丰富的片内外设,主要包括通用I/O引脚、硬件定时器、软件可编程等待状态产生器、可编程块开关模块、增强型并行主机接口、两个多通道缓冲串口、时钟发生器、DMA控制器、JTAG接口,具有管理中断、循环运算和功能调用的控制结构。

(3)FLASH模块。由于TMS320VC5402片上没有FLASH且片内RAM只有16K,因此需要外扩外部存储器使其成为独立系统,这里选用了存储容量为256K的低功耗FLASH芯片SST39VF400B,RAM选用了64K SRAM CY7C1021。

(4)CPLD模块。用来对存储器的扩展实现逻辑译码,CPLD的供电电压和DSP相同为3.3V,并且可在线编程,方便修改译码逻辑。DSP的一些控制信号经过CPLD后输出了RAM和FLASH的片选及读写信号,从而实现DSP对FLASH与SRAM的读写操作。

(5)电源模块。电源设计的好坏直接影响到系统的稳定。这里选用了TI公司的TPS767D318电源方案,该芯片输入电压为+5V,输出3.3V和1.8V两路电压,能够很好的满足DSP系统的要求。

(6)空调控制器模块。该模块同传统的空调控制器,接收TMS320VC5402模块发来的功能控制命令,实现空调功能调整。

(7)电路模块。复位电路、时钟电路、串口电路和音频电路等。

4.系统的软件设计

信号采集为避免信号失真选用优质电容MIC作为输入音源。声音通过麦克风输入到语音信号处理板,通过TLV320AIC23B的A/D转换变成数字信号,经过DSP处理后通过D/A转换输出声音,然后对声音进行监测,并对采集的波形进行反复对比分析,以提取最佳的波形样本。程序设计流程图如图3所示。

图3 系统软件流程图

4.1 端点检测

语音的前端处理主要包括对语音采样、A/D变换、预加重、分帧、加窗和端点检测。端点检测是指从噪声中检测出说话人的语音命令,获得语音开始和结束的时间点。本系统采用短时平均幅度和短时过零率相结合的办法。在判断语音的起始点时,只要短时过零率或短时平均幅度有一个超出判决门限时,便开始保存信号,然后确定随后的几帧数据是否仍满足判决门限,这时才可以确定刚采集进来的数据是有效的,否则认为是噪声引起的,将重新进行起点的判定。语音信号的结束点采取过零率和幅度相结合的办法,如果语音信号的连续几帧的平均能量低于能量门限,那么就认为语音信号结束。

用于空调的常用命令控制词汇有:“开启”、“制冷”、“温度”、“睡眠”、数字“0~9”等,待识别的词汇范围相对较窄,较易识别,采用上述方法对空调命令的起止点判定达到了很好的效果,经多次反复试验,其准确率达98%。

4.2 特征参数提取

语音信号中含有非常丰富的信息,特征提取则可以去除冗余信息,以便用于后端模型的建立和匹配。语音识别中对特征参数的要求是:

(1)具有很好的区分性,能够有效地代表语音特征;

(2)各阶参数之间有良好的独立性;

(3)特征参数要计算方便,保证识别的实时实现。

现在较常用的特征参数有线性预测参数(LPCC)、Mel频率倒谱参数(MFCC)、线谱对(LSP)参数等。本文选择MFCC作为特征参数。它的核心思想是利用人耳的感知特性,在语音的频谱范围内设置若干个带通滤波器,每个滤波器具备三角或正弦滤波特性,计算相应滤波器组的信号能量,再通过DCT计算对应的倒谱系数,符合语音识别中对特征参数的要求。

MFCC求取主要步骤是:

(1)给每一帧语音加窗做FFT,取出幅度;

(2)将幅度和滤波器组中每一个三角滤波器进行Binning运算;

(3)求log,换算成对数率;

(4)从对数率的滤波器组幅度,使用DCT变换求出MFCC系数。

4.3 模板训练和语音识别

在识别系统后端,从已知模式中获取用以表征该模式本质特征的模型参数即形成模式库,再将输入的语音提取特征矢量参数后与已建立的声学模型进行相似度比较,同时根据一定的语法规则和判别规则决策出最终的识别结果。

目前语音识别中使用模板匹配技术比较常见的有隐马尔可夫模型(HMM)、人工神经元网络(ANN)和动态时间规整算法(DTW)。综合考虑到算法的复杂性和计算量的大小、算法在DSP系统实现的难易程度以及所需要的DSP资源,系统采用算法相对简单和计算量相对较小的DTW算法,并针对其存在的运算量大、识别性能严重依赖端点检测的精度、语音信号的时序动态信息没有被充分利用等问题加以改进。

DTW算法是把时间规整和距离测度计算结合起来的一种非线性规整技术,该算法基于动态规划的思想,解决了发音长短不一的模板匹配问题。算法原理是假设待测语音共有N帧矢量,参考模板共有M帧矢量,且N≠M,则动态时间规整就是寻找一个时间规整函数j=w(i),它将测试矢量的时间轴i非线性地映射到模板的时间轴j上,并使该函数w满足第N帧测试矢量和第M帧模板矢量之间的距离测度最小。通常规整函数w(i)被限制在一个平行四边形内,它的一条边的斜率为2,另一条边的斜率为1/2,规整函数的起始点为(1,1),终止点为(N,M)。

为了提高识别效率,本文对DTW算法的搜索宽度限制条件进行了改进。以局部约束路径为例,待测模板每前进一帧,对于点(I,j)只需用到其前一列(i-1,j),(i-1,j-1),(i-1,j-2)三点的累积距离,也就是j-1和j-2两行的累积距离。以此类推,整个过程中每一行的格点可以利用前两行格点的累积距离计算出该点的累积距离。在本系统应用中,DTW算法加入了一些搜索限制条件,实际的搜索范围基本上局限于对角线附近的带状区域。在识别的过程中,系统分配的存储空间是搜索宽度的3倍。

5.系统测试结果及误差分析

空调的语音识别系统在不同的环境中使用具有差异性,为了测试系统在复杂环境下的稳定性及识别率,进行两种测试:一是安静环境下的测试;二是复杂环境下的测试。

在实验室安静的环境下对男女声识别进行了测试。发音内容为常用的空调控制命令,录音时间大约长为1~1.5s,词语发音的时间大约为500~800ms,采样率为24KHz,帧长20ms,帧移10ms,其端点检测基本上能排除前面录音的无声段的噪音,识别率达到了96%以上,原DTW算法的识别时间是6~7s,而采用本文改进算法的识别时间减少到2~5s。因此,本文方法可以实现快速准确的简单语音识别。

当周围环境噪声较大,信噪比SNR<5dB时,识别率会有所下降。但是随着信噪比的不断增加,词汇错误率逐渐降低,并趋于稳定状态,系统的识别率保持在94%以上。实验证明,采用本系统,语音识别率高,且抗噪性能好,对复杂环境的适应性强。

录音过程中,本身含有较大的噪声,DSP程序中没有对语音信号作降噪处理,这是影响识别率的原因;另外,不同的人发同一个音的长度和强弱方面均有差异,这也是影响识别率的原因。

6.结论

该空调语音识别系统以TMS320VC5402DSP为核心处理器,采用Mel频率倒谱参数为语音特征,基于改进的DTW算法进行模式匹配,算法本身计算量小、速度快、识别率高,能够进行实时语音识别。此系统平台具有良好的实用性和稳定性,经实验测试表明,系统的特征数据传送稳定,压缩编码无明显失真,识别率达到94%以上,对特定人其识别率可达97%,达到了识别的要求。为取得更好的识别效果,今后应进一步优化系统算法。由于比传统键盘输入操作具有更多的优势,语音识别技术在未来的家居生活和商业应用会有更广阔的应用前景。

参考文献

[1]于志华.基于FPGA的实时固定语音识别系统研究与实现[D].信息工程大学,2013.

[2]斯芸芸.嵌入式语音识别系统的设计与实现[D].重庆大学,2012.

语音识别系统范文5

关键词:长沙;地铁;引导与识别;设计

地铁是现代化交通与经济发展的产物,高效而便捷。地铁环境引导与识别系统扮演着疏导、指示、规范的角色,多方面配合协调地铁的正常运营。目前,我省正处在精神文明和城市建设的飞速发展阶段,对长沙市地铁交通环境引导与识别系统进行设计探索,有利于改善省会城市标识设计现状,也能跟上长沙城区总体规划的发展步伐,美化城市。

1 长沙地铁引导与识别系统设计现状及问题

随着中国城市化进程的加快,目前我国成了世界上城市轨道交通发展最快的国家。虽然在视觉传达和环境设计等领域对相关引导与识别系统设计的研究比英美国家晚了许多,但如何创造跨越国界的地铁标识符号,以及从材质、位置、外观、文化、艺术等因素入手设计出能规范社会区域合理运行的标识是设计师一直关心的问题。

目前,长沙的轨道交通2号线一期工程已进入运营阶段,地铁的引导与识别系统有了初步建设。截至笔者发稿时,长沙地铁的指示性和警示性引导与识别系统能在流动交通环境内满足乘客乘车的基本需求,帮助乘客基本完成车站寻找、列车信息查询、购票、检票、乘车、车站服务设施寻找、出站线路寻找、车站周边信息查询等活动。同时,设备区的引导与识别系统、无障碍引导与识别系统、安全疏散引导与识别系统、服务性公共信息引导与识别系统以及行为引导与识别系统虽有建设但有待规范与完善。例如,可以增加“安全出口”或“紧急出口”的绿色标识在地铁顶棚处悬挂或者紧贴地面展示,完善地铁紧急事件中的安全系统,也应当统一服务性公共信息。例如,公安民警提示、紧急按钮、洗手间、问询、扶梯、电梯、电话、信息、存包、站务受理等,还可以增加“靠右站立”、“录像监控中”等限制和约束引导人们行为与识别的系统提示。此外,长沙地铁2号线刚投入正式运营,用来达到企业赢利目的的商业配套的引导与识别设计还不多。

鉴于与国内外优秀地铁设计的差距,我们需要重视引导与识别系统设计的规范统一和创新,向国内外先进的地铁设计学习。例如,学习伦敦地铁的完善和舒适,学习巴黎地铁的秩序与高效,学习莫斯科地铁的装饰与构思,学习东京地铁的功能与视觉,学习南京地铁的造型与科技,学习上海地铁的简洁与现代,学习香港地铁的色彩与经验。

2 长沙地铁引导与识别系统设计的策略探讨

2.1 依据信息传播的功能与特点开展设计

人类视觉认知有自己的特点,常常主动接受信息,包括信息提示牌、线路图、指示符号类的视觉传播信息和其他听觉传播信息。首先,从视觉信息的传播角度安排好信息密集区的信息传播秩序与层次。同一位置的广告和设施设置不能干扰过多,不能影响重要导向信息的传达。其次,在人们接收信息传达的关键点上落实系统信息设计。例如,在地铁空间中易发生识别或引导障碍的关键点设置信息,因地制宜,使墙面、天花、地面、立柱、空间形态等信息传播的载体充分发挥作用。再次,还原信息传播系统的易理解性,包括地铁信息传递的互逆性和识别系统的国际性。乘客进站与出站的行为互逆,其引导与识别系统设计要周全。为方便外国人够理解地铁信息系统所传播的信息,必要时可考虑选择两种以上的语言或使用图示表达。此外,重视信息传播的准确性和多元化。语言传播要清晰简洁、准确适时;充分利用电视显示系统,线路查询系统,语言播报系统;有效利用摄影、影视导向,POP导向以及多媒体动态影像系统等各种载体传达信息。

2.2 依据视觉传达的要素和方法探讨设计

地铁交通引导与识别系统能迅速引导与规范人们的交通行为,让地铁运营井然有序,即属于公共交通引导与识别系统也属于视觉传达设计的范畴,是现代城市规划设计中不可忽视的部分。

(1)注重地铁引导与识别图示设计的简洁。1933年,英国设计家亨利・贝克(Henryc.Beck)设计的伦敦地铁线路系统奠定了现代交通引导与识别版面设计的基础。该地铁拥有简化直观的线路指示,在图示上变革,把站点和线路简化成圆圈和直线,使乘客一目了然。我们在学习和借鉴运用中,尽量用具象图形并且不滥用错用图形,因为在地铁空间这样的环境中各个层次的乘客都有,而抽象图形要求信息收受者具备一定的文化知识背景,所以抽象图形不适合大面积使用。

(2)加强地铁引导与识别字体的规范与创新。设计能否有效传达信息,字体的选择很关键。为确保视觉传达内容的瞬间识别与准确判断,首先,要保证引导与识别字体的规范。伦敦地铁的字体设计师爱德华・琼斯顿创造的“铁路体”是世界上第一个在正式公共场所应用的无装饰线字体,清晰、明确、规范统一,后来设计师们依次开发出适合留出大面积空白且笔画宽窄不同的新字体,它们在现代反光材料的衬托下作为标牌在夜间更易识别。在我国,仿宋体字和老宋体字在远观或高速阅读的情况下,与同样大小的黑体字相比,笔画过细易产生错觉而不占优势。因此,在注重对字体本身结构的研究、选择和改造之外,设计者也要认真研究不同字体在黑字白底和白底黑字两种情况下人们阅读时的反应时间以及人们阅读的适宜距离。此外,还要合理考虑字体黑白使用所带来的视觉感受。通常,深色图白色字比白色图深色字更具扩张感,传达信息时字体比例要严格设计。采用灯光照明时,引导与识别字体中明度和鲜艳度高的字体透光性比较强。这些方法都可以成为长沙地铁引导与识别系统设计的依据和改良点。例如,长沙地铁橘子洲青莲站点关于廉政主题的黑白广告宣传字体的大小和视觉感受就有待改观。

(3)重视地铁线路主体色彩以及线网色彩的模块化设计。目前,长沙地铁的指示性与引导标识以黑色和蓝色为主,依据《长沙市轨道交通客运服务标识系统设计规范及应用导则》中的设计方法,将来地铁线路增多后,市民可以凭标识中的颜色快速辨识线路。在导向标识上,12条地铁将分别由12种主体颜色来表示。地铁线网图中将会有鲜明的线路色彩,但要遵循冷暖色穿插的原则进行模块化设计,避免出现色彩繁杂、含义混淆等情况。

2.3 运用心理学的影响改良设计

(1)利用环境心理、设计心理、知觉心理指导地铁引导与识别系统设计。地铁交通环境引导与识别系统的设计是以“人”与“环境”为研究内容的,我们了解心理学有助于正确分析该系统设计。其中,环境心理学强调和关注人们对环境的影响与反应;设计心理学关注人们在设计创造过程中的心态和心理反应,也关注如何使设计才能反映和满足人们的心理;在设计领域中,视觉知觉是心理学和视觉传达设计共同的研究方向。通常人们的短期记忆有限,必须借助信息巩固记忆,而视觉知觉起到了支撑作用。例如,在地铁引导与识别系统设计中采用约定成俗的符号加深人们的认知度,这既是视觉印象的积累也反映出知觉恒常性在设计中的作(下转第页)(上接第页)用。

(2)重视行为心理对引导与识别系统设计的影响。地下空间封闭有限,环境的可识别性差,缺少参照物时,人们更易失去方向感。如何让乘客在人流近乎跑动的瞬间,有效地充分注意引导与识别系统并获得有价值的信息是设计师应该重点考虑的问题。因此,在设计时需要重视人们的行为心理和感受。首先,认真考虑引导与识别系统和空间的尺度比例关系,把握好主次、节奏,通过诸如空间分割,景点分配,标志导语等安排观众动线。如果引导与识别系统流向、流动性不好,会增加人们的焦虑感和不安全感。其次,充分利用墙面、天花、地面等动态空间引导与识别,强调造型、色彩、灯光照明等方面的变化给人们的行为暗示。例如,长沙地铁橘子洲青莲站点利用墙面的质感、色彩、肌理、图案变化等传达政务和文化信息比较有特色,既体现了文化特点,又增加了人们的空间心理趣味感。此外,还可以多播放一些广告、影视和音乐,打破地下空间消沉感,克服没有光照以及温湿度的差异情况下人产生的不良生理反应和感觉。

语音识别系统范文6

关键词: 语音识别; 识别原理; 声学建模方法; 多维模式识别系统

中图分类号: TN912.3?34 文献标识码: A 文章编号: 1004?373X(2013)13?0043?03

Summary of speech recognition technology and its application

YU Lin?lin

(Naval Aviation Military Representative Office Stationed in Beijing, Beijing 100041, China)

Abstract: As a key technology of human?computer interface in information technology, speech recognition has great research significance and broad application value. the development history of speech recognition technology is introduced, the basic knowledge of speech recognition is expounded, such as concept, basic principle, the acoustic modeling approach. The application of speech recognition technology in various fields are briefly introduced.

Keywords: speech recognition; recognition principle; acoustic modeling approach; multi?dimension pattern recognition system

0 引 言

语言是人类相互交流最常用、最有效、最重要和最方便的通信形式,语音是语言的声学表现,与机器进行语音交流是人类一直以来的梦想。随着计算机技术的飞速发展,语音识别技术也取得突破性的成就,人与机器用自然语言进行对话的梦想逐步接近实现。语音识别技术的应用范围极为广泛,不仅涉及到日常生活的方方面面,在军事领域也发挥着极其重要的作用。它是信息社会朝着智能化和自动化发展的关键技术,使人们对信息的处理和获取更加便捷,从而提高人们的工作效率。

1 语音识别技术的发展

语音识别技术起始于20世纪50年代。这一时期,语音识别的研究主要集中在对元音、辅音、数字以及孤立词的识别。

20世纪60年代,语音识别研究取得实质性进展。线性预测分析和动态规划的提出较好地解决了语音信号模型的产生和语音信号不等长两个问题,并通过语音信号的线性预测编码,有效地解决了语音信号的特征提取。

20世纪70年代,语音识别技术取得突破性进展。基于动态规划的动态时间规整(Dynamic Time Warping, DTW)技术基本成熟,特别提出了矢量量化(Vector Quantization,VQ)和隐马尔可夫模型(Hidden Markov Model,HMM)理论[1]。

20世纪80年代,语音识别任务开始从孤立词、连接词的识别转向大词汇量、非特定人、连续语音的识别,识别算法也从传统的基于标准模板匹配的方法转向基于统计模型的方法。在声学模型方面,由于HMM能够很好的描述语音时变性和平稳性,开始被广泛应用于大词汇量连续语音识别(Large Vocabulary Continous Speech Recognition, LVCSR)的声学建模[2?3];在语言模型方面,以N元文法为代表的统计语言模型开始广泛应用于语音识别系统[4]。在这一阶段,基于HMM/VQ、HMM/高斯混合模型、HMM/人工神经网络的语音建模方法开始广泛应用于LVCSR系统,语音识别技术取得新突破。

20世纪90年代以后,伴随着语音识别系统走向实用化,语音识别在细化模型的设计、参数提取和优化、系统的自适应方面取得较大进展[5]。同时,人们更多地关注话者自适应、听觉模型、快速搜索识别算法以及进一步的语言模型的研究等课题[6]。此外,语音识别技术开始与其他领域相关技术进行结合,以提高识别的准确率,便于实现语音识别技术的产品化。

2 语音识别基础

2.1 语音识别概念

语音识别是将人类的声音信号转化为文字或者指令的过程[7]。语音识别以语音为研究对象,它是语音信号处理的一个重要研究方向,是模式识别的一个分支。语音识别的研究涉及微机技术、人工智能、数字信号处理、模式识别、声学、语言学和认知科学等许多学科领域,是一个多学科综合性研究领域[8]。

根据在不同限制条件下的研究任务,产生了不同的研究领域。这些领域包括:根据对说话人说话方式的要求,可分为孤立字(词)、连接词和连续语音识别系统;根据对说话人的依赖程度,可分为特定人和非特定人语音识别系统;根据词汇量的大小,可分为小词汇量、中等词汇量、大词汇量以及无限词汇量语音识别系统。

2.2 语音识别基本原理

从语音识别模型的角度讲,主流的语音识别系统理论是建立在统计模式识别基础之上的。语音识别的目标是利用语音学与语言学信息,把输入的语音特征向量序列[X=x1,x2,…,xT]转化成词序列[W=w1,w2,…,wN]并输出。基于最大后验概率的语音识别模型如下式所示:

[W=argmaxW{P(W|X)}=argmaxWP(W|X)P(W)P(X)=argmaxW{P(X|W)P(W)}=argmaxW{logP(X|W)+λlogP(W)}]

上式表明,要寻找的最可能的词序列[W],应该使[P(X|W)]与[P(W)]的乘积达到最大。其中,[P(X|W)]是特征矢量序列[X]在给定[W]条件下的条件概率,由声学模型决定。[P(W)]是[W]独立于语音特征矢量的先验概率,由语言模型决定。由于将概率取对数不影响[W]的选取,第四个等式成立。[logP(X|W)]与[logP(W)]分别表示声学得分与语言得分,且分别通过声学模型与语言模型计算得到。[λ]是平衡声学模型与语言模型的权重。从语音识别系统构成的角度讲,一个完整的语音识别系统包括特征提取、声学模型、语言模型、搜索算法等模块。语音识别系统本质上是一种多维模式识别系统,对于不同的语音识别系统,人们所采用的具体识别方法及技术不同,但其基本原理都是相同的,即将采集到的语音信号送到特征提取模块处理,将所得到的语音特征参数送入模型库模块,由声音模式匹配模块根据模型库对该段语音进行识别,最后得出识别结果[9]。

语音识别系统基本原理框图如图1所示,其中:预处理模块滤除原始语音信号中的次要信息及背景噪音等,包括抗混叠滤波、预加重、模/数转换、自动增益控制等处理过程,将语音信号数字化;特征提取模块对语音的声学参数进行分析后提取出语音特征参数,形成特征矢量序列。语音识别系统常用的特征参数有短时平均幅度、短时平均能量、线性预测编码系数、短时频谱等。特征提取和选择是构建系统的关键,对识别效果极为重要。

图1 语音识别基本原理框图

由于语音信号本质上属于非平稳信号,目前对语音信号的分析是建立在短时平稳性假设之上的。在对语音信号作短时平稳假设后,通过对语音信号进行加窗,实现短时语音片段上的特征提取。这些短时片段被称为帧,以帧为单位的特征序列构成语音识别系统的输入。由于梅尔倒谱系数及感知线性预测系数能够从人耳听觉特性的角度准确刻画语音信号,已经成为目前主流的语音特征。为补偿帧间独立性假设,人们在使用梅尔倒谱系数及感知线性预测系数时,通常加上它们的一阶、二阶差分,以引入信号特征的动态特征。

声学模型是语音识别系统中最为重要的部分之一。声学建模涉及建模单元选取、模型状态聚类、模型参数估计等很多方面。在目前的LVCSR系统中,普遍采用上下文相关的模型作为基本建模单元,以刻画连续语音的协同发音现象。在考虑了语境的影响后,声学模型的数量急剧增加,LVCSR系统通常采用状态聚类的方法压缩声学参数的数量,以简化模型的训练。在训练过程中,系统对若干次训练语音进行预处理,并通过特征提取得到特征矢量序列,然后由特征建模模块建立训练语音的参考模式库。

搜索是在指定的空间当中,按照一定的优化准则,寻找最优词序列的过程。搜索的本质是问题求解,广泛应用于语音识别、机器翻译等人工智能和模式识别的各个领域。它通过利用已掌握的知识(声学知识、语音学知识、词典知识、语言模型知识等),在状态(从高层至底层依次为词、声学模型、HMM状态)空间中找到最优的状态序列。最终的词序列是对输入的语音信号在一定准则下的一个最优描述。在识别阶段,将输入语音的特征矢量参数同训练得到的参考模板库中的模式进行相似性度量比较,将相似度最高的模式所属的类别作为识别中间候选结果输出。为了提高识别的正确率,在后处理模块中对上述得到的候选识别结果继续处理,包括通过Lattice重打分融合更高元的语言模型、通过置信度度量得到识别结果的可靠程度等。最终通过增加约束,得到更可靠的识别结果。

2.3 声学建模方法

常用的声学建模方法包含以下三种:基于模式匹配的动态时间规整法(DTW);隐马尔可夫模型法(HMM);基于人工神经网络识别法(ANN)等。

DTW 是较早的一种模式匹配的方法。它基于动态规划的思想,解决孤立词语音识别中的语音信号特征参数序列比较时长度不一的模板匹配问题。在实际应用中,DTW通过计算已预处理和分帧的语音信号与参考模板之间的相似度,再按照某种距离测度计算出模板间的相似度并选择最佳路径。

HMM是对语音信号的时间序列结构所建立的统计模型,是在马尔可夫链的基础上发展起来的,它是一种基于参数模型的统计识别方法。HMM可模仿人的言语过程,可视作一个双重随机过程:一个是用具有有限状态数的马尔可夫链来模拟语音信号统计特性变化的隐含的随机过程,另一个是与马尔可夫链的每一个状态相关联的观测序列的随机过程[10]。

ANN以数学模型模拟神经元活动,将人工神经网络中大量神经元并行分布运算的原理、高效的学习算法以及对人的认知系统的模仿能力充分运用到语音识别领域,并结合神经网络和隐含马尔可夫模型的识别算法,克服了ANN在描述语音信号时间动态特性方面的缺点,进一步提高了语音识别的鲁棒性和准确率。其中成功的方法就是在混合模型中用ANN替代高斯混合模型估计音素或状态的后验概率。2011年,微软以深度神经网络替代多层感知机形成的混合模型系统大大提高了语音识别的准确率。

3 语音识别的应用

语音识别技术有着非常广泛的应用领域和市场前景。在语音输入控制系统中,它使得人们可以甩掉键盘,通过识别语音中的要求、请求、命令或询问来作出正确的响应,这样既可以克服人工键盘输入速度慢,极易出差错的缺点,又有利于缩短系统的反应时间,使人机交流变得简便易行,比如用于声控语音拨号系统、声控智能玩具、智能家电等领域。在智能对话查询系统中,人们通过语音命令,可以方便地从远端的数据库系统中查询与提取有关信息,享受自然、友好的数据库检索服务,例如信息网络查询、医疗服务、银行服务等。语音识别技术还可以应用于自动口语翻译,即通过将口语识别技术、机器翻译技术、语音合成技术等相结合,可将一种语言的语音输入翻译为另一种语言的语音输出,实现跨语言交流[11]。

语音识别技术在军事斗争领域里也有着极为重要的应用价值和极其广阔的应用空间。一些语音识别技术就是着眼于军事活动而研发,并在军事领域首先应用、首获成效的,军事应用对语音识别系统的识别精度、响应时间、恶劣环境下的顽健性都提出了更高的要求。目前,语音识别技术已在军事指挥和控制自动化方面得以应用。比如,将语音识别技术应用于航空飞行控制,可快速提高作战效率和减轻飞行员的工作负担,飞行员利用语音输入来代替传统的手动操作和控制各种开关和设备,以及重新改编或排列显示器上的显示信息等,可使飞行员把时间和精力集中于对攻击目标的判断和完成其他操作上来,以便更快获得信息来发挥战术优势。

4 结 语

语音识别的研究工作对于信息化社会的发展,人们生活水平的提高等方面有着深远的意义。随着计算机信息技术的不断发展,语音识别技术将取得更多重大突破,语音识别系统的研究将会更加深入,有着更加广阔的发展空间。

参考文献

[1] 马志欣,王宏,李鑫.语音识别技术综述[J].昌吉学院学报,2006(3):93?97.

[2] RABINER L R, JUANG B H. An introduction to hidden Markov models [J]. IEEE ASSP Magazine, 1986, 3(1): 4?16.

[3] GALES M, YOUNG S. The application of hidden Markov models in speech recognition [J]. Foundations and Trends in Signal Processing, 2008, 1(3): 195?304.

[4] JELINEK F. Continuous speech recognition by statistical methods [J]. Proceedings of the IEEE, 1976, 64(4): 532?556.

[5] 倪崇嘉,刘文举,徐波.汉语大词汇量连续语音识别系统研究进展[J].中文信息学报,2009,23(1):112?123.

[6] 顾亚强.非特定人语音识别关键技术研究[D].长沙:国防科学技术大学,2009.

[7] 中华人民共和国国家质量监督检验检疫总局.GB/T21023?2007 中文语音识别系统通用技术规范[S].北京:中国标准出版社,2007.

[8] 王文慧.基于ARM的嵌入式语音识别系统研究[D].天津:天津大学,2008.

[9] 何湘智.语音识别的研究与发展[J].计算机与现代化,2002(3):3?6.