语音识别技术范例

前言:一篇好的文章需要精心雕琢,小编精选了8篇语音识别技术范例,供您参考,期待您的阅读。

语音识别技术

网络安全领域智能语音识别安全技术

摘要:人类获取信息的方式主要通过语言、图像、文字三种方式。语音识别技术也称之为自动语音识别技术AutomaticSpeechRecognition(ASR),通俗地讲,这是一项可以让机器听懂人类自然语言及意图并执行相关指令或操作的技术。人类对语音识别技术的研究可追溯到20世纪50年代,但技术的落地并快速嵌入产品应用的时间却在21世纪的第一个十年的尾声,在自动语音识别飞速发展的今天,所带来的网络安全风险与暴露的技术缺陷问题也日益凸显,对企业或个人造成的影响不可小觑。本文简单论述了自动语音识别技术的运用分析,通过研究,阐述了在网络安全领域中的风险以及利用自动语音识别技术的主要攻击手段。

关键词:自动语音识别技术;网络安全;攻击

1自动语音识别技术发展现状

人类对未知领域的探索从未停止,且脚步愈发加快。在自动语音识别技术领域的探索研究始于1952年AT&T贝尔实验室的Audry系统,该系统可识别0~9十个数字发音,从此,人类打开了自动语音识别技术的大门,并在21世纪开始了爆发式技术跃进,时至今日,自动化语音识别技术应用场景已开始实现到家居、车载、客服、教育、金融、网络安全等等各个方面,搭载有自动语音识别技术的产品数不胜数。其中在网络安全领域也得到广泛普及,例如利用自动语音识别技术监测网络语音数据及舆情监控。自动语音识别技术发展迅速,同时对国家经济发展和国家安全都有着很重要的作用。

2自动语音识别技术实现原理简要说明

自动语音识别系统本质上是一套模拟识别系统,须有硬件设备与操作系统作为支撑,同时需要海量语音样本数据作为基础,通过识别特征信息进行样本匹配,进而达到语义识别的目的。由上图可看出,自动语音识别技术的核心要点主要为:(1)训练;(2)识别。两者为自动语音识别技术的核心要点。

2.1训练

阅读全文

便捷式售货智能语音交互系统设计探究

摘要:文章将智能售货控制技术和智能语音识别技术进行嵌入融合,并通过无线通讯技术,设计了一款便捷式售货智能语音交互控制系统,系统由基本的硬件平台、基于Linux的软件平台以及语音识别处理平台构成,着重介绍了通过语音识别技术自动识别售卖系统,实现了零售机器内商品无接触、全语音化智能购买体验,为用户提供高效、快捷的零售智能交互体验。

关键词:智能售货;智能语音;交互控制

引言

随着居民生活水平的逐渐提高,以及科学技术的飞速发展,终端商品销售渠道向无人化趋势发展;其中无人售货机器将成为推动终端“新零售”的主力军,用户作为无人零售机器的终端用户,用户体验的便捷性、高效性直接关系到零售机器产品本身的销量和零售机器货物的销售额,传统零售机器的控制主要采用手动触摸显示屏,在触摸屏上选择购买的商品,电机结算,然后选择支付方式(刷脸支付或二维码支付),最后支付完成。对于智能化高度发展的今天,普通的点触方式已不能满足消费者的需求,在零售过程中如何更智能、更便捷地操作,成为亟需解决的问题,同时也影响着消费者的用户体验。随着智能语音识别技术的发展,语音识别率的逐渐增加,智能语音技术在智能家居场景开始不断应用,在智能语音零售机器的产品已成为未来的发展趋势,也将在未来市场中占有更高的市场保有率。本文将以智能零售控制技术为基础,结合智能语音识别技术,进行数据的嵌入融合,对智能语音控制系统进行设计,实现零售机器可通过语音完成商品的无接触购买,使得消费者拥有更便捷、高效的交互体验。

1设计方案

1.1系统设计和功能设计。系统包括软件和硬件系统,系统操作软件将在Linux平台下,运用语音识别技术和零售控制技术,实现零售的智能语音控制。包括嵌入式(Linux)软件平台、语音识别处理平台、通讯技术、硬件平台(Cortex-A7),实现零售机器的智能控制。总体设计如图1所示。嵌入式(Linux)软件平台包括语音识别处理APP、零售控制平台和无线通信处理模块,实现语音识别算法处理、语义分析处理、零售控制逻辑处理以及远程控制等功能。语音识别处理平台通过云知声识别模块,实现系统的语音唤醒、语音识别和语音合成。硬件平台(Cortex-A7)包括处理器模块、MIC语音输入、Speaker语音输入、显示模块、通信模块组成,实现语音采集、输出及通信控制[1]。系统主要实现以下功能:(1)实现语音控制零售机器开机和关机;(2)实现语音选择商品的种类、数量;(3)实现语音选择商品支付方式,并可刷脸支付;(4)实现智能语音对话,天气查询、地理信息查询等技能。

1.2硬件设计。在上述功能需求下,以及软件的要求,对市场中各硬件模块组件进行调研,筛查包括语音交互模块、处理器模块、显示模块、通讯模块等并对其进行分析:(1)语音交互模块:对市场中语音设备进行分析,语音硬件设备将选用同心双环阵列布局,根据同心双环特点车身外壳进行了对应的出音孔设计,最远可实现4米语音识别,识别率在95%以上;并配备有一个智能扩音器,同时受自身和外界杂音干扰小。(2)处理器模块:对比分析后选用Cortex-A7内核的RK3308处理器,四核、主芯片内置音频CODEC和ADC,为满足支持多唤醒词和命令词,选用64M内存和256M满足计算和存储要求,整体硬件系统支持多种唤醒词,可满足用户正常的零售商品购买需求[2][3]。(3)显示模块:选用高精度一体式工业显示屏,通过触屏可实现控制零售机器开启、关闭、购买、宣传等信息;语音购买流程的显示,以及下一步的提示都会在显示屏中呈现。(4)通讯模块:本系统通过总线与零售机器进行通讯,依据两芯双绞线实现无极性通信及供电,不用另外布置线束供电。

阅读全文

人工智能时代语音信号处理分析

摘要:本文在分析“语音信号处理”课程的传统教学内容结构及特点的基础上,通过拓展理论知识和开展综合创新课程项目,探索融入新理论和新技术的教学方法。激发学生学习的积极性和主动性,培养学生关注新方法和新技术的发展及其应用的能力,加强学生团队分工合作的意识及与教师的互动,提高教与学的质量。

关键词:语音信号处理;理论拓展;综合创新项目

0引言

“语音信号处理”课程是继“信号与系统”、“数字信号处理”课程之后的信息类专业重要的选修课程。它主要是针对语音信号的短时平稳特性,学习语音信号产生的过程、建模、时频域分析和各种处理方法与应用。因此该课程既包含基本概念、模型和方法,又涵盖了识别、增强、编码等很多技术与应用。因此,学生感觉这门课程的基础部分像数学课,首先要掌握短时傅里叶变换的定义和性质,学习同态滤波等很多理论知识。然后将这些理论知识和方法在实际中应用,了解如何解决实际语音信号处理领域中的问题[1~3]。近年来,随着人工智能技术的迅速发展,在语音信号处理的领域里,给语音识别、自然语言处理和语音合成等关键技术带来一个个的突破[4]。因此人工智能时代给“语音信号处理”课程的教学带来了挑战,在传统的课程结构中要引入新的理论和方法,让学生直观感受到基础知识与新技术的结合在语音信号处理中的重要作用,大大提高了学习兴趣,培养了追踪新理论知识应用于实际问题或科学研究的能力和意识。

1传统“语音信号处理”课程的结构及特点

“语音信号处理”课程主要包括三部分内容:①语音信号处理基础:了解语音信号处理的发展概况,掌握语音产生的过程及信号的特性,了解语音信号产生的数字模型。②语音信号的分析:首先讲授时域分析,包括经典的短时能量、过零和相关分析,然后针对语音信号的短时平稳特性,进行短时傅里叶分析。为了能从信号中分离出声门激励信号和声道冲击响应,需要进行同态滤波及倒谱分析。这些分析都是非参数化方法,在此基础上,学习由过去若干个语音信号的抽样组合来预测信号,掌握线性预测这种参数模型分析方法。在此基础上,讲授重要的一种隐马尔科夫模型,这种统计信号模型在语音识别应用中有非常重要的作用。信号要进行存储和传输,矢量量化是一种极其重要的信号压缩方法。③语音信号处理技术与应用:掌握了以上语音信号处理的基本分析和建模方法,可以将其发展到语音编码、合成、识别和增强等应用领域。从“语音信号处理”课程的主要内容可以看出该课程的特点:①基础性强:该课程从语音信号的产生、特性和数字模型这些基本概念开始,慢慢深入到短时时域分析、短时频域傅里叶变换、同态滤波、倒谱分析、线性预测分析、隐马尔科夫模型、矢量量化。这些都是语音信号处理领域的基本概念和基础知识。②理论性强:不管是短时傅里叶变换的定义、性质还是隐马尔科夫模型的建立,都要从数学的角度进行定义、推导和证明,从原理上学习语音信号处理的模型和算法。③应用性强:语音是一种传递和获取信息的重要途径,由于其传输和使用的便利性,因此有非常广泛的应用。学生可以从自己的学习和生活中切实感受到语音信号处理的应用。例如,一部智能手机就包含了很多语音信号处理技术的应用,诸如语音输入识别、语音导航和各种特殊音效处理。因此,“语音信号处理”课程自身的特点导致其重视基础理论知识和实际应用。在人工智能时代,其教与学的过程中要不断跟踪新理论和新技术的发展,并将其融入到“语音信号处理”课程的主要内容中,既能使学生更好地巩固掌握基础理论知识和相关算法,又能培养学生对新理论和新技术的追踪,并将其加以运用。

2人工智能发展带来的改革

阅读全文

轨道交通AFC系统自动售票机语音交互

摘要:随着互联网技术的快速发展,手机二维码支付得到广泛关注和研究,这种移动支付方式也受到广大市民乘客的接受和认可,通勤乘客对购票终端的需求进一步降低。在售票终端总量减少的前提下提升单台设备购票速率,丰富和满足乘客服务场景,将语音交互所需的语音识别、语义理解、语音合成引擎进行站内部署,并部署AI语义结构化可视化开发平台,支持购票、线网图查询、站内导航等语义技能的可视化开发,从而不断提升售票终端语音对话的智能度,更好服务乘客需求的作用

关键词:语音识别;语义理解;语音合成;语音购票

1引言

在大数据时代的背景下,轨道交通行业正面临新一轮信息产业革命的到来,数字化转型是必然的趋势。目前轨道交通网络化运营要求越来越高,对传统AFC系统是一种极大的挑战,传统的自动售票机运营模式已经不能满足现代化的运营要求,以互联网技术为基础的智能支付技术应用在轨道交通行业将占有越来越重要的地位,二维码支付技术已在自动售票机上得到广泛应用。AFC票务规则的复杂性和业务多样性,还有除售票、检票、充值以外的大量业务需要依赖人工实现,车站客服人员为进站、出站人群办理补票、更新、退票等服务,甚至承担了包括问询、指路、兑零等多种职能。随着移动支付、移动互联网技术等兴起,AFC系统也在积极探索寻求新的发展途径,尤其在智慧车站方面更加走向无人化、智能化。

2软件功能开发

2.1智能唤醒

多模态语音模组集成了人脸检测与唇动检测算法,会持续的从摄像头接收视频流信息并输出人脸检测结果,当用户走到设备前,可以自动检测到用户,并通过唇动检测进一步捕获用户开始说话和结束说话的节点,从而实现智能感知用户主动唤醒响应用户说话的效果。

阅读全文

人工智能大尺寸平板电脑系统研究

摘要:近几年随着大屏智能手机的快速发展及消费类小尺寸平板电脑市场的趋近饱和,消费类小尺寸平板电脑逐渐被大屏智能手机所替代。而大尺寸(10英寸及以上尺寸屏幕)平板电脑将广泛应用于设备自动化、智能医疗、智能零售、智能楼宇、智能家居、户外广告、智能健身、智能教育、智能会议、智能物流等行业。文章介绍大尺寸平板电脑如何结合人工智能关键技术,实现大尺寸平板电脑在以上各行业的智能化广泛应用。

关键词:大尺寸平板电脑;人工智能;行业应用

引言

《“十三五”国家科技创新规划》提出发展自然人机交互技术,重点是智能感知与认知、虚拟融合与自然交互、语义理解和智慧决策、云端融合交互等技术研发及应用。伴随着宽带无线接入技术、移动互联网应用技术、NFC近场感应技术、AI人工智能技术和5G移动通讯技术的飞速发展,大尺寸平板电脑智能终端综合以上技术将成为移动互联网内容和应用的重要载体,有着广阔的发展前景。

1平台设计

本文将充分利用智能语音识别技术、智能视觉识别技术、高性能移动通讯技术、对大尺寸平板电脑主体控制系统及配套硬件平台、软件系统研发、整机稳定性可靠性、智能制造等方面开展研究。最终实现大尺寸平板电脑主体控制系统对智能语音识别系统、视觉识别系统、显示触控系统、无线通讯系统、音频系统、电源系统、跑步机电机控制系统的良好控制。

2大尺寸平板电脑市场需求调查分析系统架构设计(见图1)。

阅读全文

语言服务行业创新技术研究

摘要:人工智能技术的兴起给语言服务行业的发展带来了新挑战。旨在分析人工智能背景下的语言服务行业发展趋势,在结合国内外语言服务需求的基础上,对语言服务中的创新技术应用和策略进行研究,寻找有效的互联网翻译技术及语言服务解决方案,推进大数据、人工智能与语言服务的协同创新发展。

关键词:人工智能;语言服务;翻译技术;语音识别

1语言服务行业发展趋势

随着社会语言服务需求的不断增长,人们对语言服务行业发展的研究不仅包含国家层面上的总体战略规划,并且逐渐开始向社会层面的各专业和业务领域深度发展研究延伸。语言服务行业涉及翻译服务、本地化服务、语言技术工具开发与应用(机器翻译MT与计算机辅助翻译CAT)、语言教学与培训等众多业务领域。人工智能语言服务的出现,突显了全球化大数据背景下的语言信息特点以及翻译智能技术平台时代的来临,未来即将是“一带一路”的专业化语言服务和智能化翻译需求激增的时代。目前国内语言服务行业的发展趋势和现状是:语言服务人才市场供求失衡,语言服务人才培养体系不完善,翻译技术和软件运用不足,语言类服务企业和高校的创新协同合作有待深入,网络翻译平台的开发与应用研究需要新技术和新实践等。

2人工智能技术背景下的语言服务需求

知识增长和技术发展往往呈现交替加速发展的特点,当今尤其以云计算、大数据、人工智能、物联网、5G等为代表的新技术正逐渐改变着人类生活的各个领域。人工智能技术正改变着智能制造、金融贸易、教育培训、公共事业、医疗应用等各个行业,并成为变革社会的重要推动力。世界各国都高度重视发展人工智能,加强人工智能领域的技术研发和创新。2017年国务院的《新一代人工智能发展规划》将发展人工智能作为国家重点发展战略之一。2018年教育部印发的《高等学校人工智能创新行动计划》中指出要加快人工智能在教育领域的创新应用。人工智能的应用开始涉及各行各业。目前,中国的人工智能在金融、安防、客服等行业领域已得到广泛运用。人工智能在语言服务行业的应用主要是自然语言处理技术(NLP),它是计算机科学、人工智能、语言学关注计算机和人类(自然)语言之间的相互作用的领域,主要包括机器翻译和语音识别技术。机器学习、语音识别、语义识别、图像识别技术等不同形态的语言产品将不同程度地融入新的智能技术平台,未来语言服务业的发展无疑会进入“语言智能+”的时代。语言智能的目标是实现自然语言与机器语言的连续交互,是人工智能的高级阶段,在未来人工智能的应用上有着非常重要的作用。

3语言服务行业技术应用与创新

阅读全文

人工智能下广播电视内容监测系统探析

摘要:随着广播电视行业的不断发展,节目内容形式多样丰富,监测内容的规模也在不断增大,给传统的人工监听监看模式带来了挑战。根据广播电视监测系统的特点和需求,结合当前广电行业人工智能新技术的应用情况,提出基于人工智能的广播电视内容监测系统,实现广告内容自动识别、新闻节目舆情监测、敏感人物监测等功能,可以有效提高内容监看监管的工作效率。

关键词:人工智能;广播电视;内容监测

近年来,中央对广播电视和视听新媒体监管工作的要求越来越高,监管的范围不断扩大,监管的内容不断增多,信息处理的复杂度不断提高,现有监管技术能力亟需提升,为提高广播电视监测工作效率,满足日益急迫的内容监测需求,要充分重视将先进的人工智能技术应用到广播电视内容监测这一领域,实现对视音频节目内容的智能化分析和处理,以保障广播电视和视听新媒体监管的科学性、精准性和有效性。早期,广播电视内容监测完全靠人力,这种以人工收听收看为主的内容监测方式,由于劳动强度大、工作效率低、主观差错率较高,已不能满足海量的内容监测需求。随着人工智能技术近几年的快速发展,视频中的人像、语音、字幕和场景等特征均可以通过机器学习的算法实现结构化,这也为视音频内容的识别和审核提供了方便,大大地减少人工审核的工作量,提高了广播电视播出安全性[1]。因此,将人工智能技术带入到广电监测领域是广播电视监测部门提升部门智能化工作能力的重要探索,是海量数据下高效监管的必然选择,是构建数字化监测网、保障广电安全的重要之举。本文针对广播电视内容监测的特点和需求,设计了一套基于人工智能的广播电视内容监测系统,从系统的硬件架构、系统功能和应用流程等方面进行阐述[2]。

1广播电视内容监测系统架构

随着对广播电视节目内容监管力度不断加大,各广播电视监测部门需及时掌握所辖区域内的广播电视节目内容的播出情况,是否存在广告、新闻等节目内容不符合总局相关规定要求的情况,因此,本系统主要功能集中体现在广告监管和新闻节目的内容监管。广播电视内容监测系统搭建在云计算平台上,由云平台提供统一的计算资源、存储资源和网络资源,主要分为广告监测区、新闻节目内容分析区、存储区、审核管理客户端区等4个部分。通过内容识别、检索等技术,针对辖区内广播电视节目播放的广告内容,自动发现、记录、汇总商业广告、公益广告以及各类违规广告的详细信息,及时掌握各类违规广告的播出动态,准确遏制违规广告的传播;同时对广播电视新闻节目进行内容分析,实现播出内容中重点敏感人物镜头片段的检出,快速查找新闻舆情视频片段,发现电视节目中的敏感内容,从而确保电视播出内容不存在相关的违规情况。系统硬件架构图如图1所示。根据系统需求在相应区域部署划分虚拟化服务器,广告监测区主要完成广告监测数据的分析、处理,并对外提供检索查询服务;广播电视新闻监测区主要完成新闻节目内容以及敏感人物的分析、处理,并对外提供检索查询服务。存储区为系统提供基础支撑,完成对所有广播电视节目的采集存储及特征码提取,并为各业务子系统提供文件访问、数据存储服务。客户端审核区为系统应用展示和操作,完成对服务器的配置与检出结果的数据审核,包括广告监测结果审核、新闻舆情监测结果审核、敏感人脸识别结果审核、敏感人名语音关键词结果审核。

2广播电视内容监测系统功能

2.1人工智能处理引擎。通过人脸识别、场景识别、语音识别、文字识别等技术,实现节目内容的智能拆条编目及标签化处理,便于进行查询、检索、分类,通过进一步挖掘分析,实现节目内容评估分析统计,最后生成节目内容分析报告。运用人工智能技术,实现对节目自动化、智能化的多业务识别分析,实现节目内容标签化处理。处理分析手段覆盖人脸识别、场景识别、语音识别、文字识别等技术。内容分析任务可根据“人脸识别”“场景识别”“OCR识别”“语音识别”等模块[3],选其中一个或多个进行定向任务分析。人脸识别:对节目画面中的人脸区域进行自动识别、标注、存储。能够快速、准确发现节目当中出现的政治人物、明星人物等,对重点人物出现时间,持续时长进行标注。场景识别:对节目画面中出现的各类景物对象、特定场景进行自动识别、标注、存储,后续即可利用关键词识别技术进行筛选,快速检索到目标数据;通过转场识别技术,有效识别节目的转场画面,以此判断转场出现的时间点,以此进行场景分割,对节目进行分割拆条。OCR识别:对节目画面中的文字区域进行自动识别、标注、存储,后续即可利用关键词识别技术进行筛选,快速检索到目标数据;自动识别标题板中的字幕、标题。当字幕和标题内容出现变化时,判断节目内容变化,以此为依据进行拆条。语音识别:对节目伴音进行语音转文字处理,后续即可利用关键词识别技术进行筛选,快速检索到目标数据;根据说话人的语音特征形成特定的分布,来辨别判断节目内容中说话人的变化,对节目进行分割拆条。

阅读全文

用户体验语音交互产品设计研究

摘要:随着人工智能技术的不断发展,语音交互产品在技术上逐渐完善,占据到更大的市场份额,受到大众广泛关注。本研究阐述了语音交互产品的发展历史、功能及其应用场景,并从用户体验的角度对语音交互产品设计提出了建议。

关键词:用户体验;语音交互;产品设计

语音交互产品指的是一系列通过语音建立起人与机器间沟通和联系的产品。语音交互的优点在于将人们的双手从以往繁琐的设备操作中解放出来,并以更符合人类自然交流的方式执行操作功能。现阶段,语音交互作为一种新型的交互方式受到大众关注,与之相对的,用户在使用语音产品时,也产生了新的需求,如何使用这种交互方式更好地服务于用户体验,是当前研究的重点。

一、用户体验概述

用户体验的概念最早由Norman提出,他认为好的用户体验应该做到在不使用户厌烦的情况下满足用户需求,提供简单、优雅、易于理解的产品,使用户得到愉悦的使用体验。在Norman提出的用户体验的概念中,一个非常重要的设计理念被称为“以用户为中心的设计”。他认为设计应该以用户的需求和利益为基础,以产品的易用性和可理解性为侧重点。设计人员在设计的过程中应该充分考虑到用户的心理特征,如鉴于人们短时记忆容量的局限性,系统应当提供技术上的帮助来增强用户的短时记忆;鉴于人们对控制感的需求,设计者应该让用户拥有对产品关键部分尽可能多的控制权,避免无意义和复杂的操作。同时,设计者要考虑系统状态与用户的需求、意图和期望之间的关系,尽可能地使用户需求得到及时的反馈。

二、语音交互产品的发展历史

早在上世纪70年代,美国就开始致力于语音识别技术的研究,语音识别技术从一开始只能识别特定对象、较少的词汇量逐渐发展到现如今能够识别非特定对象的语音和大量词汇,在识别速度和准确率方面也得到了极大地提高。早期的语音交互产品主要只是简单地记录声音,并将其转化为文字输出,还不具备语义理解的功能。在2000年左右,IVR(交互式语音应答系统)在我国的一些行业逐步得到应用,使语音产品在交互式应答上有了显著提升。交互式语音应答系统指的是在没有操作员的情况下,建立和管理完全自动的电话服务。语音系统能够简单地理解人们的自然语言,并进行简单的语音交互。如人们通过拨打电话查询话费,根据提示音进行按键反应,实际上就是在使用这类语音交互产品。现如今,各大主流公司的语音交互产品(Alexa、GoogleAssistant、Siri、Cortana)在语音识别率上都超过了90%,识别响应速度很快,在语义理解上也实现了极大突破,并已经可以为用户提供丰富的语音操作功能。

阅读全文