前言:中文期刊网精心挑选了解码技术论文范文供你参考和学习,希望我们的参考范文能激发你的文章创作灵感,欢迎阅读。
解码技术论文范文1
关键词:RGB YCbCr FPGA 色彩空间转换
中图分类号:TN911 文献标识码:A 文章编号:1672-3791(2014)09(a)-0023-01
1 常见色彩空间
我们主要介绍RGB和YCbCr色彩空间。RGB色彩空间是一种常用的色彩空间。它可以实现不同平台的映射而不严重损失颜色信息。任何一种颜色都可以由三基色红、绿、蓝混合叠加而成。RGB三个分量彼此相互独立,三个分量的值越小所代表的亮度越低。RGB色彩空间它所占用的带宽和存储量是很大的,如果使用该色彩空间进行图像传输,非常不利于图像的处理。所以引入另一种色彩空间YCbCr。该格式的色彩空间是演播室编码方案中使用的颜色模型。Y,Cb,Cr分别代表亮度、蓝度分量和红度分量。YCbCr色彩空间有以下优势。首先它的构成原理符合人类的视觉感知过程,再次它可以实现亮度和色度的分离,由于人眼对亮度的变化更敏感,所以我们在传输图像时减小带宽的同时引起的颜色损失小,人眼几乎无法察觉。
2 总体设计方案
系统的总体设计框图如图1所示。
基于FPGA的色彩空间的转换过程可以描述为:首先通过CCD摄像头进行视频图像采集,采集来的RGB图像为NTSC或PAL制式的,接着我们会把视频数据送到解码芯片TVP5150,它会将信号变为ITU-R BT.656格式的数据流。我们选取的TVP5150芯片是和FPGA主控芯片集成在一个开发板上,它的功耗非常低,芯片小巧利于便携。视频解码芯片在对视频信号处理之前总线会对其进行配置。从解码芯片出来的信号便进入FPGA芯片,进行串并转换、解交织等操作最终实现色彩空间的转换。最后信号送到ADV7123芯片进行编码,并通过D/A转换芯片在VGA显示器上显示出来。
3 仿真与硬件验证
硬件部分我们采用了Alera公司的FPGA芯片EP2C8Q208C8N作为核心处理芯片,该芯片内部含有丰富的可编程逻辑资源,可以非常方便的完成相关乘法器的例化。在使用乘法器IPCore时,我们需要进行优化设置。硬件部分包括CCD摄像头、FPGA主控芯片、视频解码芯片TVP5150、视频编码芯片ADV7123等。最终将VGA线和显示器的VGA口相连接,便可以通过显示屏观察结果。
硬件实物图如图2所示。
软件部分采用Quartusii 9.1进行Verilog语言的编写,并进行时序仿真。进行时序仿真的结果图3所示。
4 结语
生活中存在多种色彩空间,它们各自具有不同的特点。但是在很多情况下我们又得在它们之间进行转换,这无论对于科研研究还是消费市场都是很有必要的。本篇论文是通过硬件实现的RGB色彩空间到YCbCr色彩空间的转换,采用的Alera公司的FPGA芯片EP2C8Q208C8N作为核心处理芯片,利用其内部丰富的可编程逻辑资源实现空间的转换,并采用Quartusii 9.1进行软件编程与仿真,验证了模块的功能。
参考文献
[1] 唐晓燕,贾锋,韩磊.基于FPGA的视频颜色空间转换电路设计[J].电子与电脑,2006(8):47-49.
[2] 吴康,刘耀元,胡民山.用FPGA实现色彩空间RGB到YCbCr的转换[J].南昌高专学报,2007,22(6):140-142.
解码技术论文范文2
统计机器翻译在短时期能够得以迅速发展,除了技术进步外,很大一方面要归功于很多开放源码的统计机器翻译工具,有些时候,正是因为这些开放源码的工具才使得某项技术被广泛接受和使用。例如,20世纪90年代初IBM公司的Brown等人提出了5个模型来刻画统计机器翻译,取得了不错的效果,但是在此之后很长一段时间内都没有被大家认可和接受,原因是他们的模型非常复杂,难以理解和实现。直到1999年,开源软件包Egypt的出现,才使得IBM的模型被广泛研究和使用。可以说Brown等人的工作为现代统计机器翻译奠定了深厚的基础,但其影响却是通过开源软件才得以实现,由此可见开源软件对于统计机器翻译这样一个复杂的研究课题的重要性。
1. 首个开源统计机器翻译工具包Egypt
Egypt是在1999年约翰霍普金斯大学统计机器翻译夏季讨论班上,由一些研究人员共同合作开发的统计机器翻译工具包。它包括4个模块;
Whittle: 语料库预处理模块;
GIZA: 用于从句子对齐的双语语料库中训练词语对齐;
Cairo: 词语对齐的可视化工具;
Decoder: 解码器,用来执行具体的翻译过程模块,这一模块没有开放源码。
其中,用于训练词语对齐的模块GIZA现在仍然被广泛使用,利用它能够非常方便地从大规模的双语文本中获得统计知识。GIZA++是GIZA的改进版,GIZA++实现了IBM公司提出的5个模型,其主要思想是利用EM算法对双语语料库进行迭代训练,由句子对齐得到词语对齐。GIZA是独立于语言的,能够对任何两种语言进行训练,这也是统计机器翻译的优点之一。现在几乎所有的统计机器翻译系统都利用这一工具进行词语对齐的训练。
2.语言模型训练工具SRILM
SRILM是一个建立和使用统计语言模型的开源工具包,从1995年开始由SRI 口语技术与研究实验室(SRI Speech Technology and Research Laboratory)开发,现在仍然不断推出新版本,被广泛应用于语音识别、机器翻译等领域。这个工具包包含一组C++类库、一组进行语言模型训练和应用的可执行程序等。利用它可以非常方便地训练和应用语言模型。给定一组连续的词,调用SRILM提供的接口,可以得到这组词出现的概率。
3. 机器翻译的自动评测工具Mteval
在一些著名的统计机器翻译国际评测中普遍使用自动评测与人工评测相结合的方法,例如美国国家技术和标准研究所(NIST)举行的评测。Mteval便是他们开发的自动评测工具,最新版本是mteval-11b.pl,是用Perl语言写成的。
4. 首个基于短语的统计机器翻译系统“法老”(Pharaoh)
“法老”是较早公开的统计机器翻译系统,由美国南加州大学信息科学实验室(Information Science Institute)的菲利普•科恩(Philipp Koehn)在2004年做博士论文期间编写的。“法老”包括两大部分: 训练和解码。训练过程用来从语料库中获得统计知识。它利用了已有的开源软件GIZA++和SRILM,GIZA++用来训练词语对齐,SRILM训练语言模型,但解码没有公开源代码。“法老”原理简单,易于使用,它的出现对于推动机器翻译研究起到了非常大的作用。
5. 中国首个开源的统计机器翻译系统丝路(SilkRoad)
“法老”的出现揭开了统计机器翻译的神秘面纱,然而其核心部分――解码器的源码仍然没有公开。为此,中国的研究人员联合开发了一个完全开放源代码的统计机器翻译系统――“丝路”。该系统由中国的五家研究机构和高校(中科院计算所、中科院自动化所、中科院软件所、厦门大学、哈尔滨工业大学)联合开发,并在2006年中国第二届统计机器翻译研讨会上。“丝路”包括以下模块: 语料预处理及后处理模块“仙人掌”、词语对齐模块“楼兰”、短语抽取模块“胡杨”、以及三个解码器(“骆驼”、“绿洲”和“商队”)。这是第一次将一个完整的统计机器翻译系统公开,极大地促进了国内统计机器翻译的快速发展。
6.摩西(Moses)
“摩西”是“法老”的升级版本,它增加了许多功能,是由英国爱丁堡大学、德国亚琛工业大学等八家单位联合开发的一个基于短语的统计机器翻译系统。来自这些单位的研究人员于2006年在约翰霍普金斯大学召开了一次研讨会,利用6个星期的时间共同开发了这一系统。整个系统用C++语言写成,从训练到解码完全开放源代码,可以运行在Windows平台和Linux平台。
7. 基于句法的统计机器翻译系统GenPar
GenPar工具包实现了一个基于句法的统计机器翻译系统。基于句法的方法将句法结构信息引入到统计机器翻译中来,目前已成为统计机器翻译领域的研究热点。但是构建基于句法的统计机器翻译系统远比构建基于短语的要困难得多,为了让研究者们很快进入这一领域,在JHU2005夏季研讨会上,由纽约大学艾•丹•米拉姆德(I. Dan Melamed)等人组成的统计机器翻译组开发了GenPar。
GenPar的基本原理是利用多文本语法(Multi-Text Grammar)实现多语言的句法分析、结构对齐和翻译。多文本语法是一种多种语言的同步语法,理论上比较完善,功能强大。GenPar有很多特点:首先,该系统是一个纯粹基于句法的模型,在翻译过程中充分利用了句法结构信息; 其次,它具有很好的定制能力,可以实现各种不同类型的基于同步语法的统计机器翻译,很适合于作为实验各种理论的研究平台。总的来看,该系统功能比较强大,但由于其比较复杂,掌握起来比较困难,性能比现有的基于短语的模型稍差。(本文作者米海涛为中科院计算所博士研究生)
链接
统计机器翻译第一人与Google
在统计机器翻译中有一位颇具传奇色彩的人物,就是毕业于德国亚琛工业大学的博士生弗朗茨•约瑟夫•欧赫(Franz Joseph Och)。在1999年他开发出了著名的IBM模型训练工具Giza。在2002年NIST评测中,取得第一名的亚琛工业大学的机器翻译系统也是由他开发的。2002年,欧赫从亚琛工业大学毕业后进入美国南加州大学信息科学研究所(ISI/USC)工作,同时作为Language Weaver公司的顾问,后来于2004年加盟了谷歌(Google)公司。
他所工作的每一个单位都稳拿当年NIST机器翻译评测的第一名。尤其是2005年的NIST评测中,他所在的谷歌公司开发的汉英机器翻译系统取得了0.35的BLEU值,比第二名的南加州大学(即他原来所在的单位)系统的性能提高了近5个百分点。在2006年评测中,除了汉英机器翻译的受限语料项目,其他所有项目的第一名都是谷歌公司。
解码技术论文范文3
编解码技术。多媒体通信的一个显著特点就是要传输的信息量非常大,尤其是视频数据,其编解码技术在较大程度上影响着业务的质量。IPTV采用了先进高效的视频压缩编码技术,使得视频流在800Kb/s的有限带宽上接近DVD(MPEG2)的视觉效果(DVD的视频传输带宽通常为3Mb/s)。目前主要编解码技术是MPEG4、H.264与AVS三种。MPEG系列是重要的视频编码标准,所有的视频编码技术都参照了MPEG技术。H.264是新一代视频编码标准,H.264的压缩率是MPEG-2的2倍以上,是MPEG-4的1.5至2倍,这样超高的压缩率是以牺牲编码运算量为代价的,但其解码的运算量涨幅较小,比较容易实现用户接收播放。AVS是中国拥有自主知识产权的第二代信源编码标准音视频编码技术标准,是高清晰度数字电视、宽带网络流媒体、移动多媒体通信、激光视盘等数字音视频产业群的基础性标准。
流媒体传送技术。对于传送IPTV音视频数据流而言,流媒体传送技术极其重要,先进的技术可以节约系统带宽、减轻系统负担、优化系统。流媒体传送系统主要设备是中心/边缘流媒体服务器与存储分发网络。流媒体服务器具有较高的稳定性,支持多个并发流和直播流的需求,而存储分发网络由多个服务器组成,通过负载均衡(如CDN)来大规模组网。CDN网络除了提高用户响应速度之外,还有一个更为重要的作用,就是减轻巨大的数据流量对骨干网的压力。
数字版权管理(Digital Rights Management,DRM)。它是保护多媒体内容免受未经授权的播放和复制的一种方法,为内容提供者提供视频、音乐、彩铃、论文、图片等数字数据免受非法复制和使用保护的一种手段。数字多媒体内容是IPTV中最为关键的节目来源。有了DRM技术,可使各个平台(无论是因特网、流媒体还是交互数字电视)的内容提供商们放心地提供更多的内容,采取更灵活的节目销售方式,同时有效地保护知识产权。
IP机顶盒技术。IPTV系统的接收端包括计算机、电视机与手机。由于电视机本身并没有存储功能,不支持软件安装,也无法像手机那样加装流媒体支持功能,因而无法实现IP的支持功能,必须加装一个IP数据流转换成电视机可以接收的信号的机顶盒才能收看IPTV节目。机顶盒应具备数据转换、接入支持、协议支持、业务支持、解码支持等功能。
在广电系统数字电视平移模式中,杭州模式对IPTV技术的应用最为成功。杭州数字电视模式实质上就是用以太网接入,只是最后一段线路即楼道交换机到户内终端使用的是同轴电缆,它成功地将IPTV技术和广电的数字电视进行了结合。现在,其他省市的广电系统已经在以杭州模式为示范建设自己的广电网络。江西省的情况和杭州的实际情况有差别,不具有发展IPTV业务的优势平台,所以我们不能停留于模仿层面,而应该在总结先行者的经验中,寻找更好的在广电网络中运用IPTV技术的方法。
一、数字电视平移是广电网络追求效益的增长点。IPTV能够提供多种形式的内容服务,传输电视节目只是其功能应用的一部分,它还可以提供其他的电视类业务、通信类业务和各种增值业务,满足我们的各种需求。
二、增加多种形式的内容服务要求更宽的带宽来进行传输,IPTV采用的编码和压缩技术是最新的高效视频压缩技术,它压缩了数据,节约了带宽。同时IPTV可以在传输的过程中把视频内容按IP协议封装成数据包,能根据用户不同的需要,灵活解决网络传输的问题。如果用户的频带宽,就可以压缩率低一些,传的包多一些,质量好一点;如果用户对节目的清晰度没有太高的要求,可以采用压缩率高一些,传的包少一些。这也解决了江西省现有SDH网络带宽不足、无法继续添加业务的问题。
三、真正实现互动是IPTV最重要的一个优势。IPTV不仅能满足受众观看节目的个性化需求,而且能让受众参与到电视节目中来,与电视台一起完成节目。
解码技术论文范文4
[关键词]图像压缩;图像编码;压缩标准
中图分类号:Tp311 文献标识码:A 文章编号:1009-914X(2014)45-0358-01
0 引言
当今社会正处于高速发展的信息时代,而信息本身就需要进行存储、图像信息是人类认识世界和感知世界的重要源泉。图像具有确切性、直观性、高效性、时空性等特征,图像信息的这些特性导致它的数据量特别庞大。图像压缩就是对数值矩阵进行处理,用相对少的数据来表示这个数值矩阵。这个过程要在图像数据存储、处理和传输之前进行,在这之后要对压缩过的图像进行解压缩来重建图像,这就是图像压缩和解压缩,也称图像编码和图像解码。
1 图像压缩的原理
从信息论的观点来看,图像作为一个信源,描述信源的数据是信息量和信息冗余量之和。所以在图像数据的表示中存在着大量的冗余,如时间冗余、空间冗余、知识冗余、视觉冗余等,可以利用图像本身的一些特点和人眼的视觉特性,去除这些冗余数据就可以使原始图像数据量极大的减少,从而解决图像数据量庞大的问题,实现图像数据压缩。
2 经典图像编码
2.1 变换编码
很多图像编码的原理是通过消除图像的冗余度来达到压缩的目的,而变换编码则是改变了冗余度的表达方法,将原始数据用另一种更加紧凑的方法表示,有时可以实现更高的数据压缩。离散余弦变换(DCT)即是一种分形变换编码。DTC的出色之处是能将大部分图像分成像块,使像块的能量集中到少数低频DTC系数上,这样一来DCT可以将图像的能量很大程度的集中在一起,为压缩打下了基础。
2.2 嫡编码
嫡编码的原理是根据消息或消息序列出现概率的分布特性来寻找概率和码字长度间的最优匹配。游程编码、霍夫曼编码和算术编码等都是目前使用较多的嫡编码。
3 现代图像编码
现代图像编码和经典图像编码的区别之处在于它不是像经典图像编码那样尽量去除图像的相关性,而是利用图像的相关性进行编码。
3.1 分形编码
分形编码是一种直接在空间域寻找并最大限度地利用图像的自相似性的编码方法。
3.2 模型基图像编码
模型基图像编码主要是利用图像的区域、轮廓等二维特征以及形状、运动轨迹等三维特征进行建模,然后对图像和模型进行分析得出模型的各种参数,再对参数进行编码传输,解码端则由图像综合恢复出图像。这种编码方式可以实现较高的压缩比,图像的恢复质量也有了大大的提高。
3.3 小波变换技术
小波变换理论是新的数学分支,其基本思想是将原始图像通过一族小波函数转换为小波域的系数,再通过略去某一阈值下的系数,保留部分原始能量保留较多的系数来压缩图像。在小波变换中,图像被分解为不同空间、不同频率的子图像,一幅图像每经过一次小波变换,图像就被分解为四幅大小为原来的四分之一的小块频带区域,再将这四幅子图针对人的视觉特点分别进行不同的编码处理,可以得到比较高的压缩比和好的压缩质量。
4 图像压缩的分类
图像压缩一般根据图像数据是否有丢失分为有损压缩和无损压缩两类,无损压缩是理想的压缩方法(无信息丢失),也称可逆压缩。有损压缩也称不可逆压缩,经过有损压缩后,重建图像中像素的值和原始图像中对应的像素的值不完全相等,图像会发生畸变。
图像无损压缩编码方法可分为两大类:基于统计概率的算法和基于字典技术的算法。基于统计概率的算法是根据信息论中的变长编码定理和信息嫡的相关知识,用较短的代码代表出现概率大的符号,用较长代码代表出现概率小的符号,从而实现数据压缩。而基于字典技术生成的文件包含的是定长编码,每个码代表原文件中的一个特定序列。
和无损压缩不同的是,有损压缩编码在图像进行解码还原之后的准确度上要求没有那个高,因此会产生一定程度上的失真,但这种编码方式可以提高图像的压缩能力。一般情况下,这种失真人眼看起来可能会比较明显,也可能不明显,不管是哪种,只要在人眼的容忍范围之内,就说明这种压缩时可行的。
5 图像压缩标准
随着图像处理技术的发展,研究人员提出了多种图像压缩标准。常用的图像压缩标准分为静止图像压缩标准和视频图像压缩标准。
目前最常用的静止图像压缩标准是JPEG图像压缩标准。JPEG标准定义基于DCT得有损基本编码系统、面向大规模压缩得扩展的编码系统和面向可逆压缩的无损独立编码系统。JPEG具有有失真和无失真两种编码解码的处理方式,其中无失真得到的解码后图像和原图像数据基本相同,但压缩率较低,而有失真可以实现高的压缩比,但同时可能会导致图像的失真较明显。压缩比的高低可以在算法中改变压缩参数来调整。JPEG标准的计算量不算很大,算法也易于实现,所以具有较好的实用性能。
随着多媒体技术的快速发展和广泛应用,为满足用户对更高压缩效率和对压缩图像的互动性和可伸缩性的要求,JPEG2000应运而生的。
JPEG2000标准可以实现很高的压缩性能,它还具有只对感兴趣区域编码、可进行有损压缩和无损压缩、对错误的鲁棒性、对码流做随机访问等特性。灵活使用这些特征,不仅可以达到很高的压缩比,还可以满足在移动和网络环境下交互操作和可伸缩性的要求。JPEG2000的需求针对性以及技术先进性保证了它光明的应用前景。
6 图像压缩性能的评价
一个图像压缩方法性能的评价主要从两个方面来衡量:压缩比和图像质量评价。压缩比就是原始图像文件大小与压缩后生成文件大小的比值,比值越大,说明压缩率越高。图像质量评价一般是通过保真度准则来判断。保真度准则有两种:客观保真度准则和主观保真度准则。
6.1 客观保真度准则
客观保真度准则是对解码图像和原始图像的误差进行定量计算的一种衡量标准,一般是对整个图像或者图像中的某个指定区域进行某种平均计算得到均方误差。
6.2 主观保真度准则
图像经压缩编码和解码还原之后,图像质量的好坏还有一个直接的评价者就是人眼,因此人的主观印象也是衡量一个图像压缩编码的重要因素。主观保真度准则的实施过程是选定若干评价者对待评图像打分,对这些分数求个平均值可以得到主观评价分。但因为个体评价会受到个人喜好、光线、距离等因素的影响,很难对其制定一个统一的标准,所以图像的主观质量评价方法受到了一定的限制。
参考文献
[1] 张伟.基于小波变换的图像压缩系统研究[D].厦门大学硕士论文.2005.2.
[2] 向辉.基于小波理论的图像压缩算法研究[D].华东师范大学硕士论文.2006.7.
[3] 张跃飞.基于稀疏分解的图像压缩[D].西南交通大学硕士论文.2006.9.
[4] 雷萌.数据压缩算法的比较研究[J].2014.11.
注:基金项目:2012年民族学院校内项目“基于哈希表的数据压缩算法研究”,项目编号:12myZ05
作者简介
解码技术论文范文5
关键词: VoIP; QoS; 编解码; 颤音缓存; 语音通信质量
中图分类号:TP39 文献标志码:A 文章编号:1006-8228(2013)07-17-02
0 引言
随着网络技术的迅猛发展和WiFi入网限制的解除,VoIP技术得到广泛的应用。通过无线移动通讯网络的VoIP业务,用户手机可利用WiFi接入互联网,然后利用互联网发送和接收语音数据。近两年,随着智能手机的迅速崛起,这种方式渐渐得到了人们的青睐,越来越多的人选择以这种方式代替原有的通话模式。但是,由于网络无法提供严格的QoS保障,以及时延和时延抖动等原因,使得无线通讯网络中VoIP的传输质量不够理想。因此,研究如何提高VoIP语音的通信质量有重要意义。
1 VoIP的关键技术
VoIP即Voice Over IP的缩写,它是将模拟音频信号进行采样、压缩、打包等一系列处理后,以IP数据报的形式在IP分组交换网络上进行传输。简单地说,它是将模拟话音转换成可以在网络中传输的数字信号。
在建立VoIP通话之前,先要进行呼叫,完成这一任务的信令系统。建立呼叫之后要对数据流进行实时传输,这就需要一种实时传输技术。要使音频信号在分组交换网络传输,还需要把模拟音频信号转成数字信号,并进行适当的压缩、编码以适应这种传输环境,这就需要在传输之前对音频进行编码。在传输过程中,还需要对通话服务质量进行实时监控,因此还需要一种 QoS质量保障技术来完成这个工作。VoIP中的关键技术总结起来就是:信令技术、语音编码技术、实时传输技术、QoS质量保障技术[1]。
1.1 信令技术
所谓信令技术,可以理解为是一种控制机制。在VoIP系统中常用的信令技术有两个:一个是由国际电信标准(ITU一T)制定的H.323;另一个是由因特网工作组(IETF)制定的会话初始协议SIP。这两种技术相比,H.323是一个完整的体系,提供了完成VoIP通信的所有子协议,但是由于H.323更庞大与复杂,不易于管理与维护,并且它不是一个开放性的协议。与此相比,SIP则显得更灵活,扩展性强。SIP协议只提供会话建立、呼叫控制的功能,因而建立呼叫的时间相对较短,SIP还需要与其他协议协同合作完成VoIP的具体通话任务。SIP协议目前已被广泛应用到IMS网络中,负责VoIP业务的实现。
1.2 语音编码技术
由于传输用到的带宽有限,因此需要将数据压缩得尽可能小,来降低传输比特率。目前主流的编码技术有波形编码、参量编码和混合编码。VoIP应用中主流的波形编码有 G.711、G.721、G.723、G.726和G.727,而G.728、G.729、Speex等则是主流的参数和混合编码。这些编码各有自己独特的算法,速率、复杂度也不尽相同。
1.3 实时传输技术
实时传输技术用来保障压缩数据可以有序,同步地到达接收方,便于接收方对数据进行解码。目前VoIP系统中的实时传输技术主要是通过RTP协议实现的[2]。
1.4 QoS质量保障技术
为了保障服务质量,VoIP采用了资源预留协议RSVP以及实时传输控制协议RTCP。
RSVP信令协议,可以为网络上的任何终端、主机之间建立的路径保留带宽,为数据传输预定、保证 QoS。RTCP在进程之间交换控制信息,对传输质量进行管理。在 RTP会话期间,参加会话的成员会间隔的传送包含了已发送数据包数量、丢包数量等统计数据的RTCP包。利用这些信息,服务器就可以动态调整传输速率乃至改变载荷类型。RTCP和RTP一般捆绑使用,可以有效地反馈,优化传输效率[1]。
2 影响VoIP语音质量的因素
由于VoIP业务是通过因特网来传输封包,因此会产生封包延迟、掉包等。影响VoIP语音质量的因素主要有:时延、时延抖动、丢包率。
2.1 时延
数据从发话端传输到接收端所需要的时间即形成了时延。语音通信系统中,时延的增加会让通话双方感觉话音传输的停顿感,同时也会造成回音。对于公用电话网,延时一般只有50~70ms,而IP电话的延时较大、通常为150~250ms,因此,VoIP系统的时延一般控制在100ms~150ms内,否则语音质量难以保证。VoIP系统中,时延由存储转发时延,传播时延及处理时延组成。
2.2 时延抖动
在一个VoIP呼叫过程中,所有发送的数据包经不同路径到达目的地的时间差异即形成了时延抖动。VoIP不同于传统PSTN网络,以固定速率进行传输,由于它在IP网络上存在不同路由,而导致同一数据包之间也会有不同的时延,存在传输时间差,因此产生抖动 [3]。
2.3 丢包率
IP数据包传输的过程中,丢失的数据包数量占所发送数据包总量的比率即形成了丢包率指。不仅数据包在网络中间传输过程中可能产生丢包,当话音网络中超出抖动缓冲区所能承受的最大时延时也会产生丢包。丢包会造成话音信息的缺失,严重时会导致话音的不连贯,甚至无法准确收听到对方的话音。丢包率主要与网络的流量有关,它是影响话音质量的重要因素。通常情况下,语音业务的丢包率须要控制在1%以内。
3 改善VoIP语音通信质量的方法
为了保证VoIP通话的要求,可以从以下几个方面进行改善。
3.1 优化网络环境
通过增加DSL或其他设备的频宽,使得语音质量得到改善。需要注意编解码所占频宽的大小,还应该考虑封包成本。例如,G.711虽然只占64kbps,但是把封包成本计算在内,所需的实际频宽超过100kbps。改善网络环境就会增加投资成本,包括更换设备和增加频宽。而且,由于网络跨越范围很广,众多设备当中可能有部分会发生故障,这时就会使得丢包率瞬间提高,这对于需要即时传输的语音封包来说有致命的影响。
3.2 选择合适的编解码
选择合适的编解码可以对抗瞬间爆发的丢包率。在窄频环境中可使用iLBC,宽带环境中可使用ISAC或G.711,这些编解码可以在丢包率超过20%的情况下,MOS值仍然超过3.0的优异效果。在选择合适的编解码的同时,还要保证当前频宽能够满足编解码的需求。如:iLBC至少在30kbps以上,G.711至少在80kbps以上。
3.3 服务质量保障(QoS)
QoS是将不同的封包(协议)进行标签化处理,使得带有特定标签的封包(协议)能够被优先处理并传送。QoS的算法多达数十种,有的机制可以通过结合其他的规则使得效果加以优化。有的机制将不同的封包(协议)通过优先等级队列的方式,来保证优先级别高的封包(协议)可以“插队”处理与传送。有的机制是将可用的带宽进行分割、编制等级,让不同的封包(协议)以不同的带宽传输。更复杂的算法设计,还能使用“借用频宽”的方式来加速封包的传送。设备端能判断邻近的频宽是否使用中,如果发现“隔壁”频宽并未使用,就可以允许特定封包(协议)借用隔离的频宽。有些算法甚至于针对优先等级来决定频宽借用问题,高优先等级的封包(协议)可以借用低优先等级的频宽。反之,低优先等级的封包或协议无法借用高优先等级的频宽[4]。
在VoIP系统中,通过QoS的技术虽然能确保语音封包优先处理与传送,但是如果此时网络环境不良,优先传送的封包发生丢包情形,语音质量依旧会发生不稳定或不良的情形。
3.4 使用颤音缓存
颤音是由于封包迟延产生的,可以在设备接受端使用部分内存作为缓冲区,将没有到达的封包缓存,并对其进行排序,再按序播放,这样可以改善颤音的现象。从理论上来讲,缓存区越大效果越好,但是这样会占用宝贵的内存资源。而且,由于声音是实时的,颤音的处理要在有限时间内完成,因此,太大的缓存空间不但浪费内存,而且还可能使封包延迟更严重。
4 结束语
经过上述分析可知,要想提高VoIP语音的通信质量,需要综合多方面的因素考虑、权衡。要想彻底改变语音质量应该通过改善网络环境,增加频宽来实现。但是当网络环境无法在短期内得到改善时,选择合适的编解码将优于传统的QoS的效果。本文提出的方法,将对VoIP系统语音通信质量的提高,推动VoIP业务的普及具有实际意义。
参考文献:
[1] 林辉.基于SIP的嵌入式AndroidVoIP语音终端的研究与实现[D].华南理工大学硕士学位论文,2012.
[2] 徐韬.基于Android终端的小型VoIP系统设计与实现[D].大连理工大学硕士学位论文,2011.
解码技术论文范文6
摘
要
随着Internet的迅猛发展,人们已经不满足于在网络上传输简单的文本图像信息,更加丰富的多媒体信息,特别是连续的媒体内容(视频和音频)已经开始在互联网上普及。通过网络传输连续媒体数据为人们呈现出一个极具吸引力的信息交流场景。为了适应这种新的需求,视频编码的目标逐渐由传统的面向存储变为现在的面向传输。
本文首先分析了Internet环境下多媒体数据传输的各种解决方法,讨论适合网络传输的视频编解码方案。在目前的Internet环境下,由于网络的异构性和传输速率的不稳定性,媒体流数据在传输的过程中会出现延时、丢失等意外状况,影响了传输的质量。针对这个问题,国内外的学者提出了各种解决方案,主要从网络体系结构和视频编解码框架两个方面进行考虑。然而网络体系结构的改变不是一朝一夕的事情,因此,设计新的适合网络传输的视频编码算法成为本文研究的重点。
在目前实际应用的网络多媒体技术中,流媒体技术是主要的应用成果。本文以最新的流媒体解决方案为基础设计了一个网络多媒体教学系统,通过该系统的设计与实现,本文分析了现有网络多媒体技术在Internet环境下所存在的不足。针对这些缺陷,本文提出了一个改进型FGS编码框架。该框架以基本的FGS编码方案为基础,引入了改进的预测算法和码率的自适应策略等新技术。通过实验结果证明,该框架在一定的条件下提高了FGS算法的性能。
最后,本文对分析结果进行了总结,提出了相应的观点和对未来网络多媒体数据传输发展方向的展望。
关键词:面向传输,流媒体,精细可扩展性
:34000多字的工学硕士学位论文
有中英文摘要、目录、参考文献、大量图片
400元