音频

音频是个专业术语，音频一词已用作一般性描述音频范围内和声音有关的设备及其作用。人类能够听到的所有声音都称之为音频，它可能包括噪音等。声音被录制下来以后，无论是说话声、歌声、乐器都可以通过数字音乐软件处理，或是把它制作成CD，这时候所有的声音没有改变，因为CD本来就是音频文件的一种类型。而音频只是储存在计算机里的声音。

音乐音频编辑软件音频

1.音频概念 2.音频属性 3.音频格式 4.音频处理 5.数字音频接口

音频概念

音频是个专业术语，音频一词已用作一般性描述音频范围内和声音有关的设备及其作用。

1、Audio，指人耳可以听到的声音频率在20HZ~20kHz之间的声波，称为音频。

2、指存储声音内容的文件。

3、在某些方面能指作为滤波的振动。

音频属性

大家都承认是一个数码时代，为追求优良的音质很多人做出了不懈的努力。随着数码时代的来临，数字信号比模拟信号优越已成为共识。什么是模拟信号？其实任何我们可以听见的声音经过音频线或话筒的传输都是一系列的模拟信号。模拟信号是我们可以听见的。而数字信号就是用一堆数字记号（其实只有二进制的1和0）来记录声音，而不是用物理手段来保存信号（用普通磁带录音就是一种物理方式）。我们实际上听不到数字信号。

这样我们可以简略地比较一下模拟时代的录音制作与数码时代的区别：模拟时代是把原始信号以物理方式录制到磁带上（当然在录音棚里完成了），然后加工、剪接、修改，最后录制到磁带、LP等广大听众可以欣赏的载体上。这一系列过程全是模拟的，每一步都会损失一些信号，到了听众手里自然是差了好远，更不用说什么HI-FI（高保真）了。数码时代是第一步就把原始信号录成数码音频资料，然后用硬件设备或各种软件进行加工处理，这个过程与模拟方法相比有无比的优越性，因为它几乎不会有任何损耗。对于机器来说这个过程只是处理一下数字而已，当然丢码的可能性也有，但只要操作合理就不会发生。最后把这堆数字信号传输给数字记录设备如CD等，损耗自然小很多了。

如果我们注意一下身边的CD片就会看到很多CD都有如：ADD、AAD、DDD等标记。三个字母按顺序各代表该片在录音、编辑、成品三个过程中所使用的方法，是模拟（Analog）还是数字（Digital）。当然A代表模拟，D代表数字。AAD就说明其录音和编辑是用模拟方式的，而最后灌片是用数字方式的，这类唱片多是将过去录制的音乐转成CD片而不做任何修改。ADD则是有一个修改过程。许多古典音乐大师的演奏或指挥多录制于模拟时代，我们听到的CD是经过修改后灌录的，很多这类唱片都有标记ADD。而DDD的唱片必然是较现代的录音品。自然，CD片必然以D结尾，而磁带可以姑且认为是AAA，虽然好像并没有这种说法。

所以说，数码音频是我们保存声音信号，传输声音信号的一种方式，它的特点是信号不容易损失。而模拟信号是我们最后可以听到的东西。不过模拟信号录制过程中的修改简直是一场灾难，损失太大了。有此僻好的格伦?古尔德若也会瞠目结舌的。而数码音频复制100遍也不会有损耗，不信大家COPY一个wav文件试试？
数码录音最关键一步就是要把模拟信号转换为数码信号。就电脑而言是把模拟声音信号录制成为wav文件，这个工作Windows自带的录音机也可以做到，但是它的功能十分有限，不能满足我们的需求，所以我们用其他专业音频软件代替，如Sound Forge等。录制出来的文件就是wav文件，描述wav文件主要有两个指标，一个是采样频率，或称采样率、采率，另一个是采样精度也就是比特率。这是数字音频制作中十分重要的两个概念，下面就来看一下吧。

采样频率

采样频率就是采用一段音频，做为样本，因为wav使用的是数码信号，它是用一堆数字来描述原来的模拟信号，所以它要对原来的模拟信号进行分析，我们知道所有的声音都有其波形，数码信号就是在原有的模拟信号波形上每隔一段时间进行一次“取点”，赋予每一个点以一个数值，这就是“采样”，然后把所有的“点”连起来就可以描述模拟信号了，很明显，在一定时间内取的点越多，描述出来的波形就越精确，这个尺度我们就称为“采样频率”。我们最常用的采样频率是44.1kHz，它的意思是每秒取样44100次。之所以使用这个数值是因为经过了反复实验（实际上是那个时代才是视频27/1.0001时钟做CD刻录遗留问题），人们发现这个采样频率最合适，低于这个值就会有较明显的损失，而高于这个值人的耳朵已经很难分辨，而且增大了数字音频所占用的空间。一般为了达到“万分精确”，我们还会使用48kHz甚至96kHz的采样频率，实际上，96kHz采样频率和44.1kHz采样频率的区别绝对不会象44.1kHz和22kHz那样区别如此之大，我们所使用的CD的采样标准就是44.1kHz，目前44.1kHz还是一个最通行的标准，有些人认为96kHz将是未来录音界的趋势。采样频率提高应该是一件好事，但我们真的能听出96kHz采样频率制作的音乐与44.1kHz采样频率制作的音乐的区别吗？不过随着高端音响设备的大众化，我们也许就会在Party时听到更高质量的音乐了。

比特率

比特率是大家常听说的一个名词，数码录音一般使用16比特、20比特或24比特制作音乐。什么是“比特”？我们知道声音有轻有响，影响声音响度的物理要素是振幅，作为数码录音，必须也要能精确表示乐曲的轻响，所以一定要对波形的振幅有一个精确的描述。“比特（bit）”就是这样一个单位，16比特就是指把波形的振幅划为2^16即65536个等级，根据模拟信号的轻响把它划分到某个等级中去，就可以用数字来表示了。和采样频率一样，比特率越高，越能细致地反映乐曲的轻响变化。20比特就可以产生1048576个等级，表现交响乐这类动态十分大的音乐已经没有什么问题了。刚才提到了一个名词“动态”，它其实指的是一首乐曲最响和最轻的对比能达到多少，我们也常说“动态范围”，单位是dB，而动态范围和我们录音时采用的比特率是紧密结合在一起的，如果我们使用了一个很低的比特率，那么就只有很少的等级可以用来描述音响的强弱，当然就不能听到大幅度的强弱对比了。动态范围和比特率的关系是；比特率每增加1比特，动态范围就增加6dB。所以假如我们使用1比特录音，那么我们的动态范围就只有6dB，这样的音乐是不可能听的。16比特时，动态范围是96dB。这可以满足一般的需求了。20比特时，动态范围是120dB，对比再强烈的交响乐都可以应付自如了，表现音乐的强弱是绰绰有余了。发烧级的录音师还使用24比特，但是和采样精度一样，它不会比20比特有很明显的变化，理论上24比特可以做到144 dB的动态范围，但实际上是很难达到的，因为任何设备都不可避免会产生噪音，至少在现阶段24比特很难达到其预期效果。

音频格式

以下是常见音频文件格式的特点。

要在计算机内播放或是处理音频文件，也就是要对声音文件进行数、模转换，这个过程同样由采样和量化构成，人耳所能听到的声音，最低的频率是从20Hz起一直到最高频率20KHZ，20KHz以上人耳是听不到的，因此音频的最大带宽是20KHZ，故而采样速率需要介于40~50KHZ之间，而且对每个样本需要更多的量化比特数。音频数字化的标准是每个样本16位（16bit，即96dB）的信噪比，采用线性脉冲编码调制PCM，每一量化步长都具有相等的长度。在音频文件的制作中，正是采用这一标准。

CD格式

天籁

当今世界上音质最好的音频格式是什么？当然是CD了。因此要讲音频格式，CD自然是打头阵的先锋。在大多数播放软件的“打开文件类型”中，都可以看到*.cda格式，这就是CD音轨了。标准CD格式也就是44.1K的采样频率，速率88K/秒，16位量化位数，因为CD音轨可以说是近似无损的，因此它的声音基本上是忠于原声的，因此如果你如果是一个音响发烧友的话，CD是你的首选。它会让你感受到天籁之音。CD光盘可以在CD唱机中播放，也能用电脑里的各种播放软件来重放。一个CD音频文件是一个*.cda文件，这只是一个索引信息，并不是真正的包含声音信息，所以不论CD音乐的长短，在电脑上看到的“*.cda文件”都是44字节长。注意：不能直接的复制CD格式的*.cda文件到硬盘上播放，需要使用象EAC这样的抓音轨软件把CD格式的文件转换成WAV，这个转换过程如果光盘驱动器质量过关而且EAC的参数设置得当的话，可以说是基本上无损抓音频。推荐大家使用这种方法。

WAV

无损

是微软公司开发的一种声音文件格式，它符合 PIFFResource Interchange File Format 文件规范，用于保存WINDOWS平台的音频信息资源，被WINDOWS平台及其应用程序所支持。“*.WAV”格式支持MSADPCM、CCITT A LAW等多种压缩算法，支持多种音频位数、采样频率和声道，标准格式的WAV文件和CD格式一样，也是44.1K的采样频率，速率88K/秒，16位量化位数，看到了吧，WAV格式的声音文件质量和CD相差无几，也是PC机上广为流行的声音文件格式，几乎所有的音频编辑软件都“认识”WAV格式。
这里顺便提一下由苹果公司开发的AIFF（Audio Interchange File Format）格式和为UNIX系统开发的AU格式，它们都和和WAV非常相像，在大多数的音频编辑软件中也都支持它们这几种常见的音乐格式。

MP3

流行

MP3格式诞生于八十年代的德国，所谓的MP3也就是指的是MPEG标准中的音频部分，也就是MPEG音频层。根据压缩质量和编码处理的不同分为3层，分别对应“*.mp1"/“*.mp2”/“*.mp3”这3种声音文件。需要提醒大家注意的地方是：MPEG音频文件的压缩是一种有损压缩，MPEG3音频编码具有10：1~12：1的高压缩率，同时基本保持低音频部分不失真，但是牺牲了声音文件中12KHz到16KHz高音频这部分的质量来换取文件的尺寸，相同长度的音乐文件，用*.mp3格式来储存，一般只有*.wav文件的1/10，而音质要次于CD格式或WAV格式的声音文件。由于其文件尺寸小，音质好；所以在它问世之初还没有什么别的音频格式可以与之匹敌，因而为*.mp3格式的发展提供了良好的条件。直到现在，这种格式还是风靡一时，作为主流音频格式的地位难以被撼动。但是树大招风，MP3音乐的版权问题也一直是找不到办法解决，因为MP3没有版权保护技术，说白了也就是谁都可以用。

MP3格式压缩音乐的采样频率有很多种，可以用64Kbps或更低的采样频率节省空间，也可以用320Kbps的标准达到极高的音质。我们用装有Fraunhofer IIS Mpeg Lyaer3的 MP3编码器（现在效果最好的编码器）MusicMatch Jukebox 6.0在128Kbps的频率下编码一首3分钟的歌曲，得到2.82MB的MP3文件。采用缺省的CBR（固定采样频率）技术可以以固定的频率采样一首歌曲，而VBR（可变采样频率）则可以在音乐“忙”的时候加大采样的频率获取更高的音质，不过产生的MP3文件可能在某些播放器上无法播放。我们把VBR的级别设定成为与前面的CBR文件的音质基本一样，生成的VBR MP3文件为2.9MB。

MIDI

经常玩音乐的人应该常听到MIDI（Musical Instrument Digital Interface）这个词，MIDI允许数字合成器和其他设备交换数据。MID文件格式由MIDI继承而来。MID文件并不是一段录制好的声音，而是记录声音的信息，然后在告诉声卡如何再现音乐的一组指令。这样一个MIDI文件每存1分钟的音乐只用大约5～10KB。今天，MID文件主要用于原始乐器作品，流行歌曲的业余表演，游戏音轨以及电子贺卡等。*.mid文件重放的效果完全依赖声卡的档次。*.mid格式的最大用处是在电脑作曲领域。*.mid文件可以用作曲软件写出，也可以通过声卡的MIDI口把外接音序器演奏的乐曲输入电脑里，制成*.mid文件。

WMA

最具实力

WMA （Windows Media Audio）格式是来自于微软的重量级选手，高保真声音通频带宽，音质更好，后台强硬，音质要强于MP3格式，更远胜于RA格式，它和日本YAMAHA公司开发的VQF格式一样，是以减少数据流量但保持音质的方法来达到比MP3压缩率更高的目的，WMA的压缩率一般都可以达到1：18左右，WMA的另一个优点是内容提供商可以通过DRM（Digital Rights Management）方案如Windows Media Rights Manager 7加入防拷贝保护。这种内置了版权保护技术可以限制播放时间和播放次数甚至于播放的机器等等，这对被盗版搅得焦头乱额的音乐公司来说可是一个福音，另外WMA还支持音频流（Stream）技术，适合在网络上在线播放，作为微软抢占网络音乐的开路先锋可以说是技术领先、风头强劲，更方便的是不用象MP3那样需要安装额外的播放器，而Windows操作系统和Windows Media Player的无缝捆绑让你只要安装了windows操作系统就可以直接播放WMA音乐，新版本的Windows Media Player7.0更是增加了直接把CD光盘转换为WMA声音格式的功能，在新出品的操作系统Windows XP中，WMA是默认的编码格式，大家知道Netscape的遭遇，“狼”又来了。WMA这种格式在录制时可以对音质进行调节。同一格式，音质好的可与CD媲美，压缩率较高的可用于网络广播。虽然网络上还不是很流行，但是在微软的大规模推广下已经是得到了越来越多站点的承认和大力支持，在网络音乐领域中直逼*.mp3，在网络广播方面，也正在瓜分Real打下的天下。因此，几乎所有的音频格式都感受到了WMA格式的压力。

流动旋律

RealAudio主要适用于在网络上的在线音乐欣赏，大多数的用户仍然在使用56Kbps或更低速率的Modem，所以典型的回放并非最好的音质。有的下载站点会提示你根据你的Modem速率选择最佳的Real文件。real的的文件格式主要有这么几种：有RA（RealAudio）、RM（RealMedia，RealAudio G2）、RMX（RealAudio Secured），还有更多。这些格式的特点是可以随网络带宽的不同而改变声音的质量，在保证大多数人听到流畅声音的前提下，令带宽较富裕的听众获得较好的音质。

随着网络带宽的普遍改善，Real公司正推出用于网络广播的、达到CD音质的格式。如果你的RealPlayer软件不能处理这种格式，它就会提醒你下载一个免费的升级包。许多音乐网站提供了歌曲的Real格式的试听版本。现在最新的版本是RealPlayer 11。

VQF

雅马哈公司另一种格式是*.vqf，它的核心是减少数据流量但保持音质的方法来达到更高的压缩比，可以说技术上也是很先进的，但是由于宣传不力，这种格式难有用武之地。*.vqf可以用雅马哈的播放器播放。同时雅马哈也提供从*.wav文件转换到*.vqf文件的软件。此文件缺少特点外加缺乏宣传，几乎已经宣布死刑了。

新生代音频

ogg格式完全开源，完全免费，和mp3不相上下的新格式。与MP3类似，OGGVorbis也是对音频进行有损压缩编码，但通过使用更加先进的声学模型去减少损失，因此，相同码率编码的OGGVorbis比MP3音质更好一些，文件也更小一些。另外，MP3格式是受专利保护的。发布或者销售MP3编码器、MP3解码器、MP3格式音乐作品，都需要付专利使用费。而OGGVorbis就完全没有这个问题。OGGVorbis虽然还不普及，但在音乐软件、游戏音效、便携播放器、网络浏览器上都得到广泛支持。

自由无损音频

FLAC即是Free Lossless Audio Codec的缩写，中文可解为无损音频压缩编码。FLAC是一套著名的自由音频压缩编码，其特点是无损压缩。不同于其他有损压缩编码如MP3及AAC，它不会破坏任何原有的音频资讯，所以可以还原音乐光盘音质。它已被很多软件及硬件音频产品所支持。FLAC是免费的并且支持大多数的操作系统，包括Windows，基于Unix内核而开发的系统（Linux， *BSD，Solaris，OSX，IRIX），BeOS，OS/2，Amiga。并且FLAC提供了在开发工具autotools，MSVC，Watcom C，ProjectBuilder上的build系统。

网络无损

APE是流行的数字音乐文件格式之一。与MP3这类有损压缩方式不同，APE是一种无损压缩音频技术，也就是说当你将从音频CD上读取的音频数据文件压缩成APE格式后，你还可以再将APE格式的文件还原，而还原后的音频文件与压缩前的一模一样，没有任何损失。APE的文件大小大概为CD的一半，但是随着宽带的普及，APE格式受到了许多音乐爱好者的喜爱，特别是对于希望通过网络传输音频CD的朋友来说，APE可以帮助他们节约大量的资源。

作为数字音乐文件格式的标准，WAV格式容量过大，因而使用起来很不方便。因此，一般情况下我们把它压缩为MP3或 WMA 格式。压缩方法有无损压缩，有损压缩，以及混成压缩。MPEG， JPEG就属于混成压缩，如果把压缩的数据还原回去，数据其实是不一样的。当然，人耳是无法分辨的。因此，如果把 MP3， OGG格式从压缩的状态还原回去的话，就会产生损失。

然而APE压缩格式即使还原，也能毫无损失地保留原有音质。所以，APE可以无损失高音质地压缩和还原。当然，只能把音乐CD中的曲目和未压缩的WAV文件转换成APE格式，MP3文件还无法转换为APE格式。事实上APE的压缩率并不高，虽然音质保持得很好，但是压缩后的容量也没小多少。一个34MB的WAV文件，压缩为APE格式后，仍有17MB左右。对于一整张CD来说，压缩省下来的容量还是可观的。

APE的本质，其实它是一种无损压缩音频格式。庞大的WAV音频文件可以通过Monkey's Audio这个软件压缩为APE。很多时候它被用做网络音频文件传输，因为被压缩后的APE文件容量要比WAV源文件小一半多，可以节约传输所用的时间。更重要的是，通过Monkey's Audio解压缩还原以后得到的WAV文件可以做到与压缩前的源文件完全一致。所以APE被誉为“无损音频压缩格式”，Monkey''s Audio被誉为“无损音频压缩软件”。与采用WinZip或者WinRAR这类专业数据压缩软件来压缩音频文件不同，压缩之后的APE音频文件是可以直接被播放的。Monkey's Audio会向Winamp中安装一个“in_APE.dll”插件，从而使Winamp也具备播放APE文件的能力。同样foobar2000，以及千千静听也能支持APE的播放。

前途无量

时下的MP3支持格式最常见的是MP3和WMA。MP3由于是有损压缩，因此讲求采样率，一般是44.1KHZ。另外，还有比特率，即数据流，一般为8---320KBPS。在MP3编码时，还看看它是否支持可变比特率（VBR，即高音质部分采用高比特率，低音质部分采用低比特率），出的MP3机大部分都支持，这样可以减小有效文件的体积。WMA则是微软力推的一种音频格式，相对来说要比MP3体积更小。

其他格式

当然，现在还有更多的音频合适，应用相对广泛的有AAC，（高级音频编码技术，Advanced Audio Coding）是杜比实验室为音乐社区提供的技术。AAC号称「最大能容纳48通道的音轨，采样率达96 KHz，并且在320Kbps的数据速率下能为5.1声道音乐节目提供相当于ITU-R广播的品质」。和MP3比起来，它的音质比较好，也能够节省大约30%的储存空间与带宽。它是遵循MPEG-2的规格所开发的技术。

音频处理

一、音频媒体的数字化处理

随着计算机技术的发展，特别是海量存储设备和大容量内存在PC机上的实现，对音频媒体进行数字化处理便成为可能。数字化处理的核心是对音频信息的采样，通过对采集到的样本进行加工，达成各种效果，这是音频媒体数字化处理的基本含义。

二、音频媒体的基本处理

基本的音频数字化处理包括以下几种：

不同采样率、频率、通道数之间的变换和转换。其中变换只是简单地将其视为另一种格式，而转换通过重采样来进行，其中还可以根据需要采用插值算法以补偿失真。

针对音频数据本身进行的各种变换，如淡入、淡出、音量调节等。

通过数字滤波算法进行的变换，如高通、低通滤波器。

音频媒体的三维化处理

长期以来，计算机的研究者们一直低估了声音对人类在信息处理中的作用。当虚拟技术不断发展之时，人们就不再满足单调平面的声音，而更催向于具有空间感的三维声音效果。听觉通道可以与视觉通道同时工作，所以声音的三维化处理不仅可以表达出声音的空间信息，而且与视觉信息的多通道的结合可以创造出极为逼真的虚拟空间，这在未来的多媒体系统中是极为重要的。这也是在媒体处理方面的重要措施。

人类感知声源的位置的最基本的理论是双工理论，这种理论基于两种因素：两耳间声音的到达时间差和两耳间声音的强度差。时间差是由于距离的原因造成，当声音从正面传来，距离相等，所以没有时间差，但若偏右三度则到达右耳的时间就要比左耳约少三十微秒，而正是这三十微秒，使得我们辨别出了声源的位置。强度差是由于信号的衰减造成，信号的衰减是因为距离而自然产生的，或是因为人的头部遮挡，使声音衰减，产生了强度的差别，使得靠近声源一侧的耳朵听到的声音强度要大于另一耳。

基于双工理论，同样地，只要把一个普通的双声道音频在两个声道之间进行相互混合，便可以使普通双声道声音听起来具有三维音场的效果。这涉及到以下有关音场的两个概念：音场的宽度和深度。

音场的宽度利用时间差的原理完成，由于是对普通立体声音频进行扩展，所以音源的位置始终在音场的中间不变，这样就简化了我们的工作。要处理的就只有把两个声道的声音进行适当的延时和强度减弱后相互混合。由于这样的扩展是有局限性的，即延时不能太长，否则就会变为回音。

音场的深度利用强度差的原理完成，具体的表现形式是回声。音场越深，则回音的延时就越长。所以在回音的设置中应至少提供三个参数：回音的衰减率、回音的深度和回音之间的延时。同时，还应该提供用于设置另一通道混进来的声音深度的多少的选项。

数字音频接口

“数字音频接口”是用来定义两个数字音频设备之间的数字接口协议的界标准格式，它分为家用的、专业的、电脑的三种格式：

家用的标准

S/PDIF（索尼/飞利浦数字接口格式），EIAJ CP-340 IEC-958 同轴或光缆，属不平衡式。其标准的输出电平是0.5Vpp（发送器负载75Ω），输入和输出阻抗为75Ω（0.7-3MHz频宽）。常用的有光纤RCA和BNC。我们常见的是RCA插头作同轴输出，但是用RCA作同轴输出是个错误的做法，正确的做法是用BNC作同轴输出，因为BNC头的阻抗是75Ω，刚刚好适合S/PDIF的格式标准，但由于历史的原因，在一般的家用机上用的是RCA作同轴输出。

专业的标准

AES/EBU（美国音频工程协会/欧洲广播联盟数字格式），AES3-1992，平衡XLR电缆，属平衡式结构。输出电压是2.7Vpp（发送器负载110Ω），输入和输出阻抗为110Ω（0.1-6MHz频宽）。

电脑的标准

AT﹠T（美国电话电报公司）。