【百科】只為尋覓真實的聲音！淺談無損音樂和有損音樂

2022-03-15 14:30:48

1258次

導(dǎo)讀：其實，所謂無損實際上是不存在的。但聲音的采樣精度越高，聲音質(zhì)量也就越高。對于一般人來說，無損音樂和有損壓縮過的音樂單靠耳朵是聽不出其中區(qū)別的，但是用好的音響或者耳機播放出來的時候，就可以聽出來。

隨著數(shù)碼時代的來臨，數(shù)字信號比模擬信號優(yōu)越已成為共識。但是，作為數(shù)字音樂文件格式的標(biāo)準(zhǔn)，WAV格式容量過大，使用起來很不方便。因此，一般情況下我們需要把它進行壓縮為MP3、WMA、FLAC等格式。同時，網(wǎng)上流媒體音樂的盛行，也讓音頻壓縮面臨更多的挑戰(zhàn)。

那么，怎么樣去辨別什么是無損音樂，什么是有損壓縮過的音樂呢？這兩者之間又有什么區(qū)別呢？那就讓“影音新生活”先從聲音的采集為大家講起……

聲音的采集

聲音信息以數(shù)字的方式存放在計算機及其相關(guān)設(shè)備里，而自然界的聲音信息則是模擬信號。

計算機里的數(shù)字信號是通過“采樣”、“量化”得來的，這里引用一個的奈奎斯特采樣定理：當(dāng)采樣頻率不低于聲音信號的高頻率的兩倍時，采樣得到的數(shù)字音頻就能高保真地記錄和還原原來的模擬聲音，當(dāng)然“高保真”也是相對而言的。一般人耳能感受到的音頻信號頻率范圍大約在20Hz－20KHz之間，根據(jù)采樣理論，如果采樣頻率大于40KHz，那么數(shù)字化后得到的數(shù)字音頻就可以高保真的記錄模擬音頻。

數(shù)字音頻的組成

通過了解聲音的采集過程，我們知道數(shù)字音頻是由采樣頻率、采樣精度、聲音通道數(shù)三個部分組成的，其中：

采樣頻率：既采樣率，指記錄聲音時每秒的采樣個數(shù)，它用赫茲(Hz)來表示。

采樣精度：指記錄聲音的動態(tài)范圍，它以位(Bit)為單位。

聲音通道：既聲道數(shù)（1-8個）。

通俗點說，我們可以把聲波看成是一條曲線，我們知道，曲線是由點組成的，采樣率就是每秒長度（上圖橫軸）中點的個數(shù)。而采樣精度就是動態(tài)范圍（上圖豎軸）中點的個數(shù)。這兩個維度的定位越細(xì)，聲音的真實還原度就越高，音質(zhì)也就會更好，當(dāng)然，音頻文件也就會越大。SONY新發(fā)布的音頻格式Hi-Res Audio就是192kHz/24bit，6通道錄制的音頻文件，無損格式的大小一般會在200多兆。

采樣率根據(jù)使用類型不同大概有以下幾種：

8khz：電話等使用，對于記錄人聲已經(jīng)足夠使用。

22.05khz：廣播使用頻率。

44.1khz：音頻CD。

48khz：DVD、數(shù)字電視中使用。

96khz-192khz：DVD-Audio、藍光高清等使用。

采樣精度常用范圍為8bit-32bit，而CD中一般都使用16bit。

音頻的壓縮

了解到聲音的采集和數(shù)字音頻的組成之后，還不足以讓我們明白無損音樂和有損音樂的差別。這時，我們還需要了解音頻文件的壓縮方式。目前我們常用的音頻格式，大部分都是基于音頻CD（采樣率44.1khz、采樣精度16bit，2通道）的原始文件“WAV”文件而來的。原始收錄的聲音數(shù)據(jù)保存在一個數(shù)組里面，這個數(shù)組就是PCM格式，而WAV格式，則是微軟公司開發(fā)的一種編碼格式，它的作用是將PCM格式的數(shù)據(jù)通過編碼播放出來。

由于WAV內(nèi)的數(shù)據(jù)基本上完整的還原了PCM數(shù)據(jù)，而其他的無損、MP3、AAC等其他編碼格式基本也都是基于WAV文件再壓縮而成。所以，我們可以簡單的認(rèn)為，WAV是原始音頻格式，其他音頻格式是壓縮格式。

說到壓縮，就離不開存儲和傳輸，壓縮的目的就是為了更好的存儲和傳輸，所以在說壓縮之前，需要我們對計算機的基本單位有一些了解。

我們都知道，計算機是二進制數(shù)制，計算機存儲的文件都是由0和1兩個數(shù)字組成。所以，計算機的傳輸就以每一個數(shù)字為單位，每一個數(shù)字稱為1“位(bit)”，比如說，一段音頻，他的基礎(chǔ)數(shù)據(jù)是“0,1,1,1,0,1,1,0”，而傳輸?shù)臅r候，就是將這些數(shù)字一個個的傳輸過去。上面說的采樣精度就是這個單位。而計算機的存儲單位是“字節(jié)(Byte)”，在計算機中，1個字節(jié)由8個位組成，也就是說8b(bit)=1B(Byte)。在計算機語言中，數(shù)據(jù)存儲是以10進制表示，數(shù)據(jù)傳輸是以2進制表示，所以1KB=1024B=1024×8b。這也是造成我們看到的硬盤容量跟實際容量不符的部分原因。

返回來再說音頻壓縮。音頻的比特率是指每秒傳送的比特(bit)數(shù)，單位為bps(Bit Per Second)，比特率越高，傳送數(shù)據(jù)速度越快。聲音中的比特率是指將數(shù)字聲音由模擬格式轉(zhuǎn)化成數(shù)字格式的采樣率，采樣率越高，還原后的音質(zhì)就越好。但比特率本身并不對文件的質(zhì)量有直接影響，例如我們把128kb的文件作為源文件，即使轉(zhuǎn)換成320kb的文件，其音質(zhì)依然不會比128kb好。視頻中的比特率（碼率）原理與聲音中的相同，都是指由模擬信號轉(zhuǎn)換為數(shù)字信號的采樣率。

CBR和VBR

我們在壓縮MP3的時候經(jīng)常會看到CBR、VBR兩種方式。其中CBR就是Constants Bit Rate，恒定比特率；VBR就是Variable Bit Rate，動態(tài)比特率。傳統(tǒng)的CBR約定死了MP3的采樣率為固定值，一首MP3從頭至尾為某固定值如128KBit/s進行壓縮。而VBR則采取了一種全新的，全程動態(tài)調(diào)節(jié)技術(shù)的壓縮方法。

當(dāng)在低音段時，VBR會自動采用較低的比特率如32KBit/s對音質(zhì)進行壓縮；當(dāng)在高音段時會用較高的比特率如224KBit/s對音質(zhì)進行壓縮；當(dāng)在級高端時則采用高320KBit/s進行壓縮。VBR這種在控制文件大小的情況下，大限度的提高了MP3的音質(zhì)。

有損格式和無損格式

我們再來說有損格式和無損格式。簡單來說，有損壓縮就是通過刪除一些已有數(shù)據(jù)中不太重要的數(shù)據(jù)來達到壓縮目的；無損壓縮就是通過優(yōu)化排列方式來達到壓縮目的。大概可以這樣去看：有損壓縮就像我們在一篇文章中刪除一些不重要的助詞，達到目的，解壓縮后，已刪除的內(nèi)容無法恢復(fù)；而無損則是通過排版方式達到的，解壓縮之后，還能獲得完整的WAV數(shù)據(jù)，就像是我們常用的winzip和WinRAR那樣。

在無損格式中，目前比較常用的有APE(Monkey's audio)、FLAC(Free Lossless Audio Codec)兩種。前者擁有更小的比特率，后者則更容易傳播，其區(qū)別就是，F(xiàn)LAC可以在傳播中斷后，已傳播的數(shù)據(jù)就可以直接使用。比如我們下載一首APE格式的音樂，必須等全部數(shù)據(jù)下載完成后，才能播放；而FLAC則不同，你只下載了1/3，就能先播放這1/3的內(nèi)容。

WAV文件也是一種編碼格式，標(biāo)準(zhǔn)WAV文件的比特率是1411kb，而無損壓縮則根據(jù)源文件的內(nèi)容不同，大概是900-1000左右。

有損壓縮的特性

上文我們說到，有損音頻相較于無損音頻來說，損失了一部分信息。那么，損失了什么信息？為什么要損失這部分信息呢？這就還需要我們了解有損壓縮當(dāng)中的特性。

音頻有損壓縮的原理基本上都是利用人耳聽覺的心理聲學(xué)特性（頻譜掩蔽特性和時間掩蔽特性等）以及人耳對信號幅度、頻率、時間的有限分辨能力，編碼時凡是人耳感覺不到的頻率不編碼、不傳送，即凡是對人耳辨別聲音信號的強度、聲調(diào)、方位沒有貢獻的部分（稱為不相關(guān)部分或無關(guān)部分）都不編碼和傳送。對感覺不到的部分進行編碼時，允許有較大的量化失真、并使其處于聽閾（即人耳所能聽到的音量）以下，人耳仍然感覺不到。所以任何有損格式，碼率當(dāng)然都是越高越好，碼率高，不僅波形失真小，而且頻率的衰減也小。

對于一般人來說，無損音樂和有損壓縮過的音樂單靠耳朵是聽不出其中區(qū)別的，但是用好的音響或者耳機播放出來的時候，就可以聽出來。而作為音樂愛好者，他們對聆聽音樂，往往不僅追求生理上的聽覺享受，而且對音樂本身的完整性也有非常高的要求，故而一般均選擇無損格式的音樂和的播放設(shè)備。