音頻編碼和解碼原理
每張CD光盤重放雙聲道立體聲信號可達74分鐘。VCD視盤機要同時重放聲音和圖像,圖像信號數(shù)據(jù)需要壓縮,其伴音信號數(shù)據(jù)也要壓縮,否則伴音信號難于存儲到VCD光盤中。
一、伴音壓縮編碼原理
伴音信號的結(jié)構(gòu)較圖像信號簡單一些。伴音信號的壓縮方法與圖像信號壓縮技術(shù)有相似性,也要從伴音信號中剔除冗余信息。人耳朵對音頻信號的聽覺靈敏度有其其規(guī)律性,對于不同頻段或不同聲壓級的伴音有其特殊的敏感特性。在伴音數(shù)據(jù)壓縮過程中,主要應(yīng)用了聽覺閾值及掩蔽效應(yīng)等聽覺心理特性。
1、閾值和掩蔽效應(yīng)
(1) 閾值特性
人耳朵對不同頻率的聲音具有不同的聽覺靈敏度,對低頻段(例如100Hz以下)和超高頻段(例如16KHZ以上)的聽覺靈敏度較低,而在1K-5KHZ的中音頻段時,聽覺靈敏度明顯提高。通常,將這種現(xiàn)象稱為人耳的閾值特性。若將這種聽覺特性用曲線表示出來,就稱為人耳的閾值特性曲線,閾值特性曲線反映該特性的數(shù)值界限。將曲線界限以下的聲音舍棄掉,對人耳的實際聽音效果沒有影響,這些聲音屬于冗余信息。
在伴音壓縮編碼過程中,應(yīng)當(dāng)將閾值曲線以上的可聽頻段的聲音信號保留住,它是可聽頻段的主要成分,而那些聽覺不靈敏的頻段信號不易被察覺。應(yīng)當(dāng)保留強大的信號,忽略舍棄弱小的信號。經(jīng)過這樣處理的聲音,人耳在聽覺上幾乎察覺不到其失真。在實際伴音壓縮編碼過程中,也要對不同頻段的聲音數(shù)據(jù)進行量化處理??蓪θ硕幻舾蓄l段采用較粗的量化步長進行量化,可舍棄一些次要信息;而對人耳敏感頻段則采用較細小的量化步長,使用較多的碼位來傳送。
(2)掩蔽效應(yīng)
掩蔽效應(yīng)是人耳的另一個重要生理特征。如果在一段較窄的頻段上存在兩種聲音信號,當(dāng)一個強度大于另一個時,則人耳的聽覺閾值將提高,人耳朵可以聽到大音量的聲音信號,而其附近頻率小音量的聲音信號卻聽不到,好像是小音量信號被大音量信號掩蔽掉了。由于其它聲音信號存在而聽不到本聲音存在的現(xiàn)象,稱為掩蔽效應(yīng)。
根據(jù)人耳的掩蔽特性,可將大音量附近的小音量信號舍棄掉,對實際聽音效果不會發(fā)生影響。既使保留這些小音量信號,人耳也聽不到它們的存在,它屬于伴音信號中的冗余信息。舍棄掉這些信號,可以進一步壓縮伴音數(shù)據(jù)總量。
經(jīng)仔細觀察,掩蔽效應(yīng)分為兩大類,一類是同時掩蔽效應(yīng),另一類是短時掩蔽效應(yīng)。其中,同時掩蔽效應(yīng)是指同時存在一個弱信號和一個強信號,兩者頻率接近,強信號將提高弱信號的聽閾值,將弱信號的聽閾值提高到一定程度時,可使人耳聽不到弱信號。例如,同時出現(xiàn)A、B兩聲,若A聲的聽覺閾值為50dB,由于存在另一個不同頻率的B聲,將使A聲的閾值提高到64~68dB,例如取68dB,那么數(shù)值(68~50)dB=18dB,該值稱為掩蔽量。將強大的B聲稱為掩蔽聲,而較弱的A聲稱為被掩蔽聲。上述掩蔽現(xiàn)象說明,若僅有A聲時,其聲壓級50dB以上的聲音可以傳送出去,而50dB以下的聲音將聽不到;若同時出現(xiàn)B聲,B聲具有同時掩蔽效應(yīng),使得A聲在聲壓級68dB以下的聲音也聽不到了,即50~68dB之間的A聲人耳也聽不到了,這些聲音不必傳送,即使傳送也聽不到,只須傳送聲壓級68dB以上的聲音??傊瑸榱颂岣咭粋€聲音的閾值,可以同時設(shè)置另一個聲音,使用這種辦法可以壓縮掉一部分聲音數(shù)據(jù)。在周圍十分安靜的環(huán)境下,人耳可以聽到聲壓級很低的各種頻率聲音,但對低頻聲和高頻聲的掩蔽閾值較高,即聽覺不靈敏。經(jīng)研究還發(fā)現(xiàn),掩蔽聲越強,掩蔽作用越強;當(dāng)掩蔽聲與被掩蔽聲的頻率相差越小,掩蔽效果越明顯,兩者頻率相等時,掩蔽效果最佳;低頻聲(設(shè)為B)可有效地掩蔽高頻聲(設(shè)為A),而高頻聲(設(shè)為B)幾乎不能掩蔽低頻聲(設(shè)為A)。因而輸入信號時,在受掩蔽的頻帶內(nèi)加入更大的噪聲時,人耳也感覺不到與原始信號有所區(qū)別。上述的同時掩蔽效應(yīng),又稱為頻域掩蔽效應(yīng),它主要反映在頻域方面對掩蔽作用的影響。在聲音壓縮編碼中,更多地使用單頻聲音的掩蔽效應(yīng)。
如果A聲和B聲不同時出現(xiàn),也可發(fā)生掩蔽作用,稱它為短時掩蔽效應(yīng)。短時掩蔽又可分為兩種類型,作用仍可持續(xù)一段時間,即后向掩蔽和前向掩蔽。后向掩蔽是指掩蔽聲B消失后,其掩蔽作用仍可持續(xù)一段時間,一般可達0.5~2秒。掩蔽機理是人耳的存儲效應(yīng)所致。而前向掩蔽是指被掩蔽聲A出現(xiàn)一段時間后出現(xiàn)掩蔽聲B,只要A、B聲音隔不太大(一般在0.05~0.2秒以內(nèi)),B也可對A起掩蔽作用。掩蔽機理是A聲尚未被人耳感知接受時,強大的B聲已來臨所致。在實踐中,后向掩蔽有較高的應(yīng)用價值。短時掩蔽效應(yīng)具有很強的時域結(jié)構(gòu)特性,故又稱為時域掩蔽效應(yīng)。在聲音壓縮編碼中,應(yīng)兼顧好人耳的頻域和時域兩種掩蔽效應(yīng)。
2、子帶編碼原理
(1)子帶編碼和解碼過程
所謂子帶編碼技術(shù),是將原始信號由時間域轉(zhuǎn)變?yōu)轭l率域,然后將其分割為若干個子頻帶,并對其分別進行數(shù)字編碼的技術(shù)。它是利用帶通濾波器(BPF)組把原始信號分割為若干(例如m個)子頻帶(簡稱子帶)。
在接收端實現(xiàn)發(fā)送端的逆過程。輸入子帶編碼數(shù)據(jù)流,將各子帶信號分別送到相應(yīng)的數(shù)字解碼電路(共m個)進行數(shù)字解調(diào),經(jīng)過諸路低通濾波器(m路),并重新解調(diào),可把各子帶頻域恢復(fù)為當(dāng)初原始信號的分布狀態(tài)。最后,將各路子帶輸出信號送到同步相加器,經(jīng)過相加恢復(fù)為原始信號,該恢復(fù)的信號與原始信號十分相似。
(2)子帶編碼的應(yīng)用
子帶編碼技術(shù)具有突出的優(yōu)點。首先,聲音頻譜各頻率分量的幅度值各不相同,若對不同子帶分配以合適的比例系數(shù),可以更合理地分別控制各子帶的量化電平數(shù)目和相應(yīng)的重建誤差,使碼率更精確地與各子帶的信號源特性相匹配。通常,在低頻基音附近,采用較大的比特數(shù)目來表示取樣值,而在高頻段則可
評論