通過數位化過程，得到存儲在計算機中的數字音頻。影響數字音頻文件質量的主要因素有採樣頻率、量化位數和聲道數3個。

採樣頻率

採樣頻率是指計算機每秒對聲波幅度值樣本採樣的次數，是描述聲音文件的音質、音調，衡量音效卡、聲音文件的質量標準，計量單位為Hz(赫茲)。採樣頻率越高，即採樣的間隔時間越短，則在單位時間內計算機得到的聲音樣本數據就越多，聲音文件的數據量也就越大，聲音的還原就越真實、越自然。採樣頻率與聲音頻率之間有一定的關係，根據奈奎斯特理論，只有採樣頻率高於聲音信號最高頻率的兩倍時，才能把數位訊號表示的聲音還原成為原來的聲音。
在計算機多媒體音頻處理中，採樣通常採用3種頻率:11.025kHz、22.05kHz和44.1kHz。11.025kHz採樣頻率獲得的是一種語音效果，稱為電話音質，基本上能分辨出通話人的聲音；22.05kHz獲得的是音樂效果，稱為廣播音質；44.1kHz獲得的是高保真效果，常見的CD採樣頻率就採用44.1kHz，音質比較好，通常稱為CD音質。同樣時間的音頻，採樣頻率越高，占用的存儲空間越大。

量化位數

採樣得到的樣本需要量化，所謂的量化位數也稱為「量化精度」，是描述每個採樣點樣本值的二進制位數。例如，對一段聲波進行8次採樣，採樣點對應的能量值分別為A1～A8，如果只使用2bit二進制值表示這些數據，結果只能保留A1～A8中4個點的值而捨棄另外4個。如果選擇用3bit數值來表示，則剛好記錄下8個點的所有信息。這裡的3bit實際上就是量化位數。
8bit量化位數表示每個採樣值可以用28(即256)個不同的量化值之一來表示，而16位量化位數表示每個採樣值可以用216(即65536)個不同的量化值之一來表示。常用的量化位數為8bit、12bit及16bit。量化位數大小決定了聲音的動態範圍。量化位數越高則音質越好，數據量也越大。

聲道數

聲音通道的個數稱為聲道數，是指一次採樣所記錄產生的聲音波形個數。記錄聲音時，如果每次生成一個聲波數據，稱為單聲道；每次生成兩個聲波數據，稱為雙聲道(立體聲)。隨著聲道數的增加，音頻文件所占用的存儲空間也成倍增加，同時聲音質量也會提高。

音頻文件的存儲量

音頻文件是真實聲音數位化後的數據文件，所占存儲空間很大。

聲音質量的度量

聲音質量的評價是一個很困難的事，是目前還在繼續研究的課題。聲音的質量可以用聲音信號的頻寬來衡量，等級由高到低依次是DAT—CD—FM—AM—數字電話。此外，聲音質量的度量還有兩種基本方法:一種是客觀質量度量，另一種是主觀質量度量。評價語音質量時，有時同時採用兩種方法，有時以主觀質量度量為主。
聲音客觀質量主要用信噪比(Signal to Noise Ratio，SNR)來度量。它是建立在度量均方誤差基礎上的，其特點是計算簡單，但不能完全反映人對語音質量的感覺。
主觀質量度量最常用的方法有平均意見得分(Mean Opinion Score，MOS)。MOS得分採用5級評分標準(如表4－3所示)。這種方法是通過召集若干實驗者，在聽完所測語音後，由他們對聲音質量的好壞進行評分，即從5個等級中選擇其中某一級作為他們對所測語音質量的評定。全體實驗者的平均分就是所測語音質量的MOS得分。由於主觀和客觀上的諸多原因，每次測試所得的MOS得分會有所波動。為了減小波動，參加測試的實驗者人數要足夠多，所測語音材料也要足夠豐富，測試環境也應儘量保持相同。
在數字語音通信中，語音質量分為4類:廣播質量、網絡質量、通信質量和合成質量。廣播質量語音通常只在64kbps以上速率上獲得，MOS得分為5分；網絡質量語音通常在16Kbps以上速率上獲得，其MOS得分為4～4.5分，達到長途電話網的質量要求；通信質量語音在4.0Kbps以上速率獲得，其MOS得分為3.5分左右，這時能感覺到重建語音質量有所下降，但不妨礙正常通話，可以滿足多數語音通信系統的使用要求；合成質量語音的MOS得分在3.0分以下，主要指一些聲碼器合成的語音所能達到的質量，它一般具有足夠高的可懂度，但自然度和講話人的確認等方面不夠好。