導(dǎo)讀:其實,所謂無損實際上是不存在的。但聲音的采樣精度越高,聲音質(zhì)量也就越高。對于一般人來說,無損音樂和有損壓縮過的音樂單靠耳朵是聽不出其中區(qū)別的,但是用好的音響或者耳機播放出來的時候,就可以聽出來。
隨著數(shù)碼時代的來臨,數(shù)字信號比模擬信號優(yōu)越已成為共識。但是,作為數(shù)字音樂文件格式的標(biāo)準(zhǔn),WAV格式容量過大,使用起來很不方便。因此,一般情況下我們需要把它進行壓縮為MP3、WMA、FLAC等格式。同時,網(wǎng)上流媒體音樂的盛行,也讓音頻壓縮面臨更多的挑戰(zhàn)。
那么,怎么樣去辨別什么是無損音樂,什么是有損壓縮過的音樂呢?這兩者之間又有什么區(qū)別呢?那就讓“影音新生活”先從聲音的采集為大家講起……
聲音的采集
聲音信息以數(shù)字的方式存放在計算機及其相關(guān)設(shè)備里,而自然界的聲音信息則是模擬信號。
計算機里的數(shù)字信號是通過“采樣”、“量化”得來的,這里引用一個的奈奎斯特采樣定理:當(dāng)采樣頻率不低于聲音信號的高頻率的兩倍時,采樣得到的數(shù)字音頻就能高保真地記錄和還原原來的模擬聲音,當(dāng)然“高保真”也是相對而言的。一般人耳能感受到的音頻信號頻率范圍大約在20Hz-20KHz之間,根據(jù)采樣理論,如果采樣頻率大于40KHz,那么數(shù)字化后得到的數(shù)字音頻就可以高保真的記錄模擬音頻。
數(shù)字音頻的組成
通過了解聲音的采集過程,我們知道數(shù)字音頻是由采樣頻率、采樣精度、聲音通道數(shù)三個部分組成的,其中:
采樣頻率:既采樣率,指記錄聲音時每秒的采樣個數(shù),它用赫茲(Hz)來表示。
采樣精度:指記錄聲音的動態(tài)范圍,它以位(Bit)為單位。
聲音通道:既聲道數(shù)(1-8個)。
通俗點說,我們可以把聲波看成是一條曲線,我們知道,曲線是由點組成的,采樣率就是每秒長度(上圖橫軸)中點的個數(shù)。而采樣精度就是動態(tài)范圍(上圖豎軸)中點的個數(shù)。這兩個維度的定位越細(xì),聲音的真實還原度就越高,音質(zhì)也就會更好,當(dāng)然,音頻文件也就會越大。SONY新發(fā)布的音頻格式Hi-Res Audio就是192kHz/24bit,6通道錄制的音頻文件,無損格式的大小一般會在200多兆。
采樣率根據(jù)使用類型不同大概有以下幾種:
8khz:電話等使用,對于記錄人聲已經(jīng)足夠使用。
22.05khz:廣播使用頻率。
44.1khz:音頻CD。
48khz:DVD、數(shù)字電視中使用。
96khz-192khz:DVD-Audio、藍光高清等使用。
采樣精度常用范圍為8bit-32bit,而CD中一般都使用16bit。
音頻的壓縮
了解到聲音的采集和數(shù)字音頻的組成之后,還不足以讓我們明白無損音樂和有損音樂的差別。這時,我們還需要了解音頻文件的壓縮方式。目前我們常用的音頻格式,大部分都是基于音頻CD(采樣率44.1khz、采樣精度16bit,2通道)的原始文件“WAV”文件而來的。原始收錄的聲音數(shù)據(jù)保存在一個數(shù)組里面,這個數(shù)組就是PCM格式,而WAV格式,則是微軟公司開發(fā)的一種編碼格式,它的作用是將PCM格式的數(shù)據(jù)通過編碼播放出來。
由于WAV內(nèi)的數(shù)據(jù)基本上完整的還原了PCM數(shù)據(jù),而其他的無損、MP3、AAC等其他編碼格式基本也都是基于WAV文件再壓縮而成。所以,我們可以簡單的認(rèn)為,WAV是原始音頻格式,其他音頻格式是壓縮格式。
說到壓縮,就離不開存儲和傳輸,壓縮的目的就是為了更好的存儲和傳輸,所以在說壓縮之前,需要我們對計算機的基本單位有一些了解。
我們都知道,計算機是二進制數(shù)制,計算機存儲的文件都是由0和1兩個數(shù)字組成。所以,計算機的傳輸就以每一個數(shù)字為單位,每一個數(shù)字稱為1“位(bit)”,比如說,一段音頻,他的基礎(chǔ)數(shù)據(jù)是“0,1,1,1,0,1,1,0”,而傳輸?shù)臅r候,就是將這些數(shù)字一個個的傳輸過去。上面說的采樣精度就是這個單位。而計算機的存儲單位是“字節(jié)(Byte)”,在計算機中,1個字節(jié)由8個位組成,也就是說8b(bit)=1B(Byte)。在計算機語言中,數(shù)據(jù)存儲是以10進制表示,數(shù)據(jù)傳輸是以2進制表示,所以1KB=1024B=1024×8b。這也是造成我們看到的硬盤容量跟實際容量不符的部分原因。
返回來再說音頻壓縮。音頻的比特率是指每秒傳送的比特(bit)數(shù),單位為bps(Bit Per Second),比特率越高,傳送數(shù)據(jù)速度越快。聲音中的比特率是指將數(shù)字聲音由模擬格式轉(zhuǎn)化成數(shù)字格式的采樣率,采樣率越高,還原后的音質(zhì)就越好。但比特率本身并不對文件的質(zhì)量有直接影響,例如我們把128kb的文件作為源文件,即使轉(zhuǎn)換成320kb的文件,其音質(zhì)依然不會比128kb好。視頻中的比特率(碼率)原理與聲音中的相同,都是指由模擬信號轉(zhuǎn)換為數(shù)字信號的采樣率。
CBR和VBR
我們在壓縮MP3的時候經(jīng)常會看到CBR、VBR兩種方式。其中CBR就是Constants Bit Rate,恒定比特率;VBR就是Variable Bit Rate,動態(tài)比特率。傳統(tǒng)的CBR約定死了MP3的采樣率為固定值,一首MP3從頭至尾為某固定值如128KBit/s進行壓縮。而VBR則采取了一種全新的,全程動態(tài)調(diào)節(jié)技術(shù)的壓縮方法。
當(dāng)在低音段時,VBR會自動采用較低的比特率如32KBit/s對音質(zhì)進行壓縮;當(dāng)在高音段時會用較高的比特率如224KBit/s對音質(zhì)進行壓縮;當(dāng)在級高端時則采用高320KBit/s進行壓縮。VBR這種在控制文件大小的情況下,大限度的提高了MP3的音質(zhì)。
有損格式和無損格式
我們再來說有損格式和無損格式。簡單來說,有損壓縮就是通過刪除一些已有數(shù)據(jù)中不太重要的數(shù)據(jù)來達到壓縮目的;無損壓縮就是通過優(yōu)化排列方式來達到壓縮目的。大概可以這樣去看:有損壓縮就像我們在一篇文章中刪除一些不重要的助詞,達到目的,解壓縮后,已刪除的內(nèi)容無法恢復(fù);而無損則是通過排版方式達到的,解壓縮之后,還能獲得完整的WAV數(shù)據(jù),就像是我們常用的winzip和WinRAR那樣。
在無損格式中,目前比較常用的有APE(Monkey's audio)、FLAC(Free Lossless Audio Codec)兩種。前者擁有更小的比特率,后者則更容易傳播,其區(qū)別就是,F(xiàn)LAC可以在傳播中斷后,已傳播的數(shù)據(jù)就可以直接使用。比如我們下載一首APE格式的音樂,必須等全部數(shù)據(jù)下載完成后,才能播放;而FLAC則不同,你只下載了1/3,就能先播放這1/3的內(nèi)容。
WAV文件也是一種編碼格式,標(biāo)準(zhǔn)WAV文件的比特率是1411kb,而無損壓縮則根據(jù)源文件的內(nèi)容不同,大概是900-1000左右。
有損壓縮的特性
上文我們說到,有損音頻相較于無損音頻來說,損失了一部分信息。那么,損失了什么信息?為什么要損失這部分信息呢?這就還需要我們了解有損壓縮當(dāng)中的特性。
音頻有損壓縮的原理基本上都是利用人耳聽覺的心理聲學(xué)特性(頻譜掩蔽特性和時間掩蔽特性等)以及人耳對信號幅度、頻率、時間的有限分辨能力,編碼時凡是人耳感覺不到的頻率不編碼、不傳送,即凡是對人耳辨別聲音信號的強度、聲調(diào)、方位沒有貢獻的部分(稱為不相關(guān)部分或無關(guān)部分)都不編碼和傳送。對感覺不到的部分進行編碼時,允許有較大的量化失真、并使其處于聽閾(即人耳所能聽到的音量)以下,人耳仍然感覺不到。所以任何有損格式,碼率當(dāng)然都是越高越好,碼率高,不僅波形失真小,而且頻率的衰減也小。
對于一般人來說,無損音樂和有損壓縮過的音樂單靠耳朵是聽不出其中區(qū)別的,但是用好的音響或者耳機播放出來的時候,就可以聽出來。而作為音樂愛好者,他們對聆聽音樂,往往不僅追求生理上的聽覺享受,而且對音樂本身的完整性也有非常高的要求,故而一般均選擇無損格式的音樂和的播放設(shè)備。
結(jié)語:其實,所謂無損實際上是不存在的。因為電腦文件不管是音頻還是圖片或者是視頻,都是由點構(gòu)成的。小單位是像素,視頻通常每秒是24幀。同樣的,音頻格式也是有許多聲音信息點組成,之所以聽起來很連貫,是因為記錄點的密集程度超過了人耳能分辨的程度。
就像我們能很清楚的分辨出1080P比720P的圖像看上去更清晰,就是因為1080P的影片的像素更多,精度更高。當(dāng)然,現(xiàn)在還有4K電視,擁有更精細(xì)的圖像。與之同理,聲音的采樣精度越高,聲音質(zhì)量也就越高。