通过数字化过程，得到存储在计算机中的数字音频。影响数字音频文件质量的主要因素有采样频率、量化位数和声道数3个。

采样频率

采样频率是指计算机每秒对声波幅度值样本采样的次数，是描述声音文件的音质、音调，衡量声卡、声音文件的质量标准，计量单位为Hz(赫兹)。采样频率越高，即采样的间隔时间越短，则在单位时间内计算机得到的声音样本数据就越多，声音文件的数据量也就越大，声音的还原就越真实、越自然。采样频率与声音频率之间有一定的关系，根据奈奎斯特理论，只有采样频率高于声音信号最高频率的两倍时，才能把数字信号表示的声音还原成为原来的声音。
在计算机多媒体音频处理中，采样通常采用3种频率:11.025kHz、22.05kHz和44.1kHz。11.025kHz采样频率获得的是一种语音效果，称为电话音质，基本上能分辨出通话人的声音；22.05kHz获得的是音乐效果，称为广播音质；44.1kHz获得的是高保真效果，常见的CD采样频率就采用44.1kHz，音质比较好，通常称为CD音质。同样时间的音频，采样频率越高，占用的存储空间越大。

量化位数

采样得到的样本需要量化，所谓的量化位数也称为“量化精度”，是描述每个采样点样本值的二进制位数。例如，对一段声波进行8次采样，采样点对应的能量值分别为A1～A8，如果只使用2bit二进制值表示这些数据，结果只能保留A1～A8中4个点的值而舍弃另外4个。如果选择用3bit数值来表示，则刚好记录下8个点的所有信息。这里的3bit实际上就是量化位数。
8bit量化位数表示每个采样值可以用28(即256)个不同的量化值之一来表示，而16位量化位数表示每个采样值可以用216(即65536)个不同的量化值之一来表示。常用的量化位数为8bit、12bit及16bit。量化位数大小决定了声音的动态范围。量化位数越高则音质越好，数据量也越大。

声道数

声音通道的个数称为声道数，是指一次采样所记录产生的声音波形个数。记录声音时，如果每次生成一个声波数据，称为单声道；每次生成两个声波数据，称为双声道(立体声)。随着声道数的增加，音频文件所占用的存储空间也成倍增加，同时声音质量也会提高。

音频文件的存储量

音频文件是真实声音数字化后的数据文件，所占存储空间很大。

声音质量的度量

声音质量的评价是一个很困难的事，是目前还在继续研究的课题。声音的质量可以用声音信号的带宽来衡量，等级由高到低依次是DAT—CD—FM—AM—数字电话。此外，声音质量的度量还有两种基本方法:一种是客观质量度量，另一种是主观质量度量。评价语音质量时，有时同时采用两种方法，有时以主观质量度量为主。
声音客观质量主要用信噪比(Signal to Noise Ratio，SNR)来度量。它是建立在度量均方误差基础上的，其特点是计算简单，但不能完全反映人对语音质量的感觉。
主观质量度量最常用的方法有平均意见得分(Mean Opinion Score，MOS)。MOS得分采用5级评分标准(如表4－3所示)。这种方法是通过召集若干实验者，在听完所测语音后，由他们对声音质量的好坏进行评分，即从5个等级中选择其中某一级作为他们对所测语音质量的评定。全体实验者的平均分就是所测语音质量的MOS得分。由于主观和客观上的诸多原因，每次测试所得的MOS得分会有所波动。为了减小波动，参加测试的实验者人数要足够多，所测语音材料也要足够丰富，测试环境也应尽量保持相同。
在数字语音通信中，语音质量分为4类:广播质量、网络质量、通信质量和合成质量。广播质量语音通常只在64kbps以上速率上获得，MOS得分为5分；网络质量语音通常在16Kbps以上速率上获得，其MOS得分为4～4.5分，达到长途电话网的质量要求；通信质量语音在4.0Kbps以上速率获得，其MOS得分为3.5分左右，这时能感觉到重建语音质量有所下降，但不妨碍正常通话，可以满足多数语音通信系统的使用要求；合成质量语音的MOS得分在3.0分以下，主要指一些声码器合成的语音所能达到的质量，它一般具有足够高的可懂度，但自然度和讲话人的确认等方面不够好。