多媒体技术/数字音频的技术指标

维基教科书,自由的教学读本

通过数字化过程,得到存储在计算机中的数字音频。影响数字音频文件质量的主要因素有采样频率、量化位数和声道数3个。

采样频率[编辑]

采样频率是指计算机每秒对声波幅度值样本采样的次数,是描述声音文件的音质、音调,衡量声卡、声音文件的质量标准,计量单位为Hz(赫兹)。采样频率越高,即采样的间隔时间越短,则在单位时间内计算机得到的声音样本数据就越多,声音文件的数据量也就越大,声音的还原就越真实、越自然。采样频率与声音频率之间有一定的关系,根据奈奎斯特理论,只有采样频率高于声音信号最高频率的两倍时,才能把数字信号表示的声音还原成为原来的声音。
在计算机多媒体音频处理中,采样通常采用3种频率:11.025kHz、22.05kHz和44.1kHz。11.025kHz采样频率获得的是一种语音效果,称为电话音质,基本上能分辨出通话人的声音;22.05kHz获得的是音乐效果,称为广播音质;44.1kHz获得的是高保真效果,常见的CD采样频率就采用44.1kHz,音质比较好,通常称为CD音质。同样时间的音频,采样频率越高,占用的存储空间越大。

量化位数[编辑]

采样得到的样本需要量化,所谓的量化位数也称为“量化精度”,是描述每个采样点样本值的二进制位数。例如,对一段声波进行8次采样,采样点对应的能量值分别为A1~A8,如果只使用2bit二进制值表示这些数据,结果只能保留A1~A8中4个点的值而舍弃另外4个。如果选择用3bit数值来表示,则刚好记录下8个点的所有信息。这里的3bit实际上就是量化位数。
8bit量化位数表示每个采样值可以用28(即256)个不同的量化值之一来表示,而16位量化位数表示每个采样值可以用216(即65536)个不同的量化值之一来表示。常用的量化位数为8bit、12bit及16bit。量化位数大小决定了声音的动态范围。量化位数越高则音质越好,数据量也越大。

声道数[编辑]

声音通道的个数称为声道数,是指一次采样所记录产生的声音波形个数。记录声音时,如果每次生成一个声波数据,称为单声道;每次生成两个声波数据,称为双声道(立体声)。随着声道数的增加,音频文件所占用的存储空间也成倍增加,同时声音质量也会提高。

音频文件的存储量[编辑]

音频文件是真实声音数字化后的数据文件,所占存储空间很大。

声音质量的度量[编辑]

声音质量的评价是一个很困难的事,是目前还在继续研究的课题。声音的质量可以用声音信号的带宽来衡量,等级由高到低依次是DAT—CD—FM—AM—数字电话。此外,声音质量的度量还有两种基本方法:一种是客观质量度量,另一种是主观质量度量。评价语音质量时,有时同时采用两种方法,有时以主观质量度量为主。
声音客观质量主要用信噪比(Signal to Noise Ratio,SNR)来度量。它是建立在度量均方误差基础上的,其特点是计算简单,但不能完全反映人对语音质量的感觉。
主观质量度量最常用的方法有平均意见得分(Mean Opinion Score,MOS)。MOS得分采用5级评分标准(如表4-3所示)。这种方法是通过召集若干实验者,在听完所测语音后,由他们对声音质量的好坏进行评分,即从5个等级中选择其中某一级作为他们对所测语音质量的评定。全体实验者的平均分就是所测语音质量的MOS得分。由于主观和客观上的诸多原因,每次测试所得的MOS得分会有所波动。为了减小波动,参加测试的实验者人数要足够多,所测语音材料也要足够丰富,测试环境也应尽量保持相同。
在数字语音通信中,语音质量分为4类:广播质量、网络质量、通信质量和合成质量。广播质量语音通常只在64kbps以上速率上获得,MOS得分为5分;网络质量语音通常在16Kbps以上速率上获得,其MOS得分为4~4.5分,达到长途电话网的质量要求;通信质量语音在4.0Kbps以上速率获得,其MOS得分为3.5分左右,这时能感觉到重建语音质量有所下降,但不妨碍正常通话,可以满足多数语音通信系统的使用要求;合成质量语音的MOS得分在3.0分以下,主要指一些声码器合成的语音所能达到的质量,它一般具有足够高的可懂度,但自然度和讲话人的确认等方面不够好。