多媒體技術/數字音頻的技術指標

維基教科書,自由的教學讀本

通過數位化過程,得到存儲在計算機中的數字音頻。影響數字音頻文件質量的主要因素有採樣頻率、量化位數和聲道數3個。

採樣頻率[編輯]

採樣頻率是指計算機每秒對聲波幅度值樣本採樣的次數,是描述聲音文件的音質、音調,衡量音效卡、聲音文件的質量標準,計量單位為Hz(赫茲)。採樣頻率越高,即採樣的間隔時間越短,則在單位時間內計算機得到的聲音樣本數據就越多,聲音文件的數據量也就越大,聲音的還原就越真實、越自然。採樣頻率與聲音頻率之間有一定的關係,根據奈奎斯特理論,只有採樣頻率高於聲音信號最高頻率的兩倍時,才能把數位訊號表示的聲音還原成為原來的聲音。
在計算機多媒體音頻處理中,採樣通常採用3種頻率:11.025kHz、22.05kHz和44.1kHz。11.025kHz採樣頻率獲得的是一種語音效果,稱為電話音質,基本上能分辨出通話人的聲音;22.05kHz獲得的是音樂效果,稱為廣播音質;44.1kHz獲得的是高保真效果,常見的CD採樣頻率就採用44.1kHz,音質比較好,通常稱為CD音質。同樣時間的音頻,採樣頻率越高,占用的存儲空間越大。

量化位數[編輯]

採樣得到的樣本需要量化,所謂的量化位數也稱為「量化精度」,是描述每個採樣點樣本值的二進位位數。例如,對一段聲波進行8次採樣,採樣點對應的能量值分別為A1~A8,如果只使用2bit二進位值表示這些數據,結果只能保留A1~A8中4個點的值而捨棄另外4個。如果選擇用3bit數值來表示,則剛好記錄下8個點的所有信息。這裡的3bit實際上就是量化位數。
8bit量化位數表示每個採樣值可以用28(即256)個不同的量化值之一來表示,而16位量化位數表示每個採樣值可以用216(即65536)個不同的量化值之一來表示。常用的量化位數為8bit、12bit及16bit。量化位數大小決定了聲音的動態範圍。量化位數越高則音質越好,數據量也越大。

聲道數[編輯]

聲音通道的個數稱為聲道數,是指一次採樣所記錄產生的聲音波形個數。記錄聲音時,如果每次生成一個聲波數據,稱為單聲道;每次生成兩個聲波數據,稱為雙聲道(立體聲)。隨著聲道數的增加,音頻文件所占用的存儲空間也成倍增加,同時聲音質量也會提高。

音頻文件的存儲量[編輯]

音頻文件是真實聲音數位化後的數據文件,所占存儲空間很大。

聲音質量的度量[編輯]

聲音質量的評價是一個很困難的事,是目前還在繼續研究的課題。聲音的質量可以用聲音信號的頻寬來衡量,等級由高到低依次是DAT—CD—FM—AM—數字電話。此外,聲音質量的度量還有兩種基本方法:一種是客觀質量度量,另一種是主觀質量度量。評價語音質量時,有時同時採用兩種方法,有時以主觀質量度量為主。
聲音客觀質量主要用信噪比(Signal to Noise Ratio,SNR)來度量。它是建立在度量均方誤差基礎上的,其特點是計算簡單,但不能完全反映人對語音質量的感覺。
主觀質量度量最常用的方法有平均意見得分(Mean Opinion Score,MOS)。MOS得分採用5級評分標準(如表4-3所示)。這種方法是通過召集若干實驗者,在聽完所測語音後,由他們對聲音質量的好壞進行評分,即從5個等級中選擇其中某一級作為他們對所測語音質量的評定。全體實驗者的平均分就是所測語音質量的MOS得分。由於主觀和客觀上的諸多原因,每次測試所得的MOS得分會有所波動。為了減小波動,參加測試的實驗者人數要足夠多,所測語音材料也要足夠豐富,測試環境也應儘量保持相同。
在數字語音通信中,語音質量分為4類:廣播質量、網絡質量、通信質量和合成質量。廣播質量語音通常只在64kbps以上速率上獲得,MOS得分為5分;網絡質量語音通常在16Kbps以上速率上獲得,其MOS得分為4~4.5分,達到長途電話網的質量要求;通信質量語音在4.0Kbps以上速率獲得,其MOS得分為3.5分左右,這時能感覺到重建語音質量有所下降,但不妨礙正常通話,可以滿足多數語音通信系統的使用要求;合成質量語音的MOS得分在3.0分以下,主要指一些聲碼器合成的語音所能達到的質量,它一般具有足夠高的可懂度,但自然度和講話人的確認等方面不夠好。