多聲道數(shù)字音頻系統(tǒng)的編碼及應(yīng)用
對(duì)于CD格式來(lái)說(shuō),大家都知道它具有良好的信噪比、超過(guò)80dB以上的動(dòng)態(tài)范圍以及超過(guò)15kHz的頻率范圍,這使得它具有良好的音頻質(zhì)量和滿(mǎn)意的收聽(tīng)效果,但是它僅僅提供了兩個(gè)聲道。多聲道數(shù)字音頻系統(tǒng)通過(guò)聲道的擴(kuò)展,不僅在質(zhì)量上與CD音頻不相上下,同時(shí)還帶給聽(tīng)眾身臨其境的感受,而這是傳統(tǒng)單聲道和立體聲無(wú)法實(shí)現(xiàn)的,因此多聲道數(shù)字音頻系統(tǒng)已被更多的聽(tīng)眾接受,同時(shí)也逐漸成為
圖2編碼、傳輸、人耳聽(tīng)音的實(shí)現(xiàn)
2.1根據(jù)聽(tīng)覺(jué)域度對(duì)可聞信號(hào)進(jìn)行編碼
人耳對(duì)聲振動(dòng)的感受,在頻率及聲壓級(jí)方面都有一定的范圍,頻率范圍正常人約為20Hz~20kHz,而聲壓級(jí)范圍則是如圖聽(tīng)閾曲線來(lái)描述的。意即在這條曲線之下的對(duì)應(yīng)頻率的信號(hào)是聽(tīng)不到的。
圖16MPEG-2音頻混合后環(huán)繞聲兼容性如圖3所示,對(duì)于信號(hào)A來(lái)說(shuō),由于其聲壓級(jí)超過(guò)聽(tīng)閾曲線的聲壓級(jí)域值,所以可以對(duì)人耳造成聲振動(dòng)的感
受,意即聽(tīng)到A信號(hào)。而對(duì)B信號(hào)來(lái)說(shuō),其聲壓級(jí)位于聽(tīng)閾曲線之下,雖然它是客觀存在的,但人耳是不可聞的。因此,可以將類(lèi)似的信號(hào)去除掉,以減少音頻數(shù)據(jù)率。
2.2根據(jù)掩蔽效應(yīng),只對(duì)幅度強(qiáng)的掩蔽信號(hào)進(jìn)行編碼
人耳能在寂靜的環(huán)境中分辨出輕微的聲音,但在嘈雜的環(huán)境中,同樣的這些聲音則被嘈雜聲淹沒(méi)而聽(tīng)不到了。這種由于一個(gè)聲音的存在而使另一個(gè)聲音要提高聲壓級(jí)才能被聽(tīng)到的現(xiàn)象稱(chēng)為聽(tīng)覺(jué)掩蔽效應(yīng)。
如圖4所示,雖然B、C兩信號(hào)的聲壓級(jí)已超過(guò)聽(tīng)閾曲線的范圍,人耳已可以聽(tīng)到B、C兩信號(hào)的存在,但是由于A信號(hào)的存在,通過(guò)前向掩蔽將C信號(hào)淹沒(méi)掉,通過(guò)后向掩蔽將B信號(hào)淹沒(méi)掉,從而最終到達(dá)人耳引起感覺(jué)的只有A信號(hào)。因此,可以將類(lèi)似的B、C信號(hào)去除掉以減少音頻數(shù)據(jù)率。
2.3量化噪聲使得不必全部編碼原始信號(hào)
類(lèi)似于人耳的聽(tīng)閾曲線,由于數(shù)字信號(hào)存在著量化噪聲,如圖5所示,對(duì)于信號(hào)A和B來(lái)說(shuō),并不一定要將A、B信號(hào)進(jìn)行全部幅度的編碼,而只需將A、B信號(hào)與量化噪聲的差值進(jìn)行編碼就可以達(dá)到相同的聽(tīng)覺(jué)效果,因此,在編碼過(guò)程中實(shí)際量化幅度就可以大大的減少,而減少數(shù)據(jù)率。
2.4通過(guò)子帶分割來(lái)進(jìn)行優(yōu)化、編碼
在傳統(tǒng)的編碼過(guò)程中,都是將整個(gè)頻帶作為操作對(duì)象,采用相同的比特分配對(duì)每個(gè)信號(hào)進(jìn)行量化。而實(shí)際上,由于聽(tīng)覺(jué)曲線的存在及其它因素,對(duì)于幅度較小的信號(hào)可以分配較少的比特?cái)?shù)就可以達(dá)到要求,因此將整個(gè)頻帶分成多個(gè)子頻帶,然后對(duì)每個(gè)子頻帶的信號(hào)獨(dú)立編碼,從而使得在每個(gè)子頻帶中比特分配可以根據(jù)信號(hào)自身來(lái)適應(yīng)。
如圖ABCD四個(gè)信號(hào),如果對(duì)整個(gè)頻帶編碼,對(duì)于D信號(hào)來(lái)說(shuō)分配16比特來(lái)量化則顯得多余浪費(fèi),所以如果將ABCD分別置于不同的子帶內(nèi),則可在分別所處的子帶內(nèi)使用最適合的比特?cái)?shù)分配給信號(hào)來(lái)編碼,從而減少數(shù)據(jù)率,同時(shí)如果用于分割的子帶分辨率越高,意即子帶的頻帶相對(duì)越窄,那么在子帶中分配的比特?cái)?shù)
就越精確,而減少了比特率。
2.5不同的實(shí)現(xiàn)方式
當(dāng)前在數(shù)字音頻編碼領(lǐng)域存在著各種不同的編碼方案和實(shí)現(xiàn)方式,為了能夠讓大家對(duì)此有一個(gè)較完整的認(rèn)識(shí),在本文中僅對(duì)當(dāng)前流行的幾種典型的編碼方法做一個(gè)介紹。不管是通過(guò)那一種方式實(shí)現(xiàn),其基本的編碼思路方框圖都大同小異,如圖7所示。對(duì)于每一個(gè)音頻聲道中的PCM音頻信號(hào)來(lái)說(shuō),首先都要將它們映射到頻域中,這種時(shí)域到頻域的映射可以通過(guò)子帶濾波器(如MPEGLayersI,II,DTS)或通過(guò)變換濾波器組(如AC-3,MPEGAAC)實(shí)現(xiàn)。這兩種方式的最大不同之處在于濾波器組中的頻率分辨率的不同。
每個(gè)聲道中的音頻采樣塊首先要根據(jù)心理聲學(xué)模型來(lái)計(jì)算掩蔽門(mén)限值,然后由計(jì)算出的掩蔽門(mén)限值來(lái)決定如何將公用比特區(qū)中的比特分配給不同的頻率范圍內(nèi)的信號(hào),如MPEGLayersI,II,DTS所采用;或由計(jì)算出的掩蔽門(mén)限值來(lái)決定哪些頻率范圍內(nèi)的量化噪聲可以引入而不需要去除,如AC-3,MPEGAAC所采用。
然后根據(jù)音頻信號(hào)的時(shí)域表達(dá)式進(jìn)行量化,隨后采用靜噪編碼(如MPEGLayersI,II,DTS,MPEGAAC)。最后,將控制參數(shù)及輔助數(shù)據(jù)進(jìn)行交織產(chǎn)生編碼后的數(shù)據(jù)流。解碼過(guò)程則首先將編碼后的數(shù)據(jù)流進(jìn)行解復(fù)用,然后通過(guò)比特流中傳輸?shù)目刂茀?shù)對(duì)音頻數(shù)據(jù)反量化,或通過(guò)心理聲學(xué)模型參數(shù)反向運(yùn)算得到音頻信號(hào)(如AC-3),最后將得到的音頻信號(hào)由頻域反變換到時(shí)域,完成解碼過(guò)程。
另外多聲道數(shù)字音頻編碼技術(shù)還充分利用了聲道之間的相關(guān)性及雙耳聽(tīng)覺(jué)效應(yīng),來(lái)進(jìn)一步去除聲道之間的冗余度和不相關(guān)度。去除通道之間的相關(guān)度,一種最常用的方法是M/S方式,在這種方式中是將兩個(gè)獨(dú)立聲道的頻譜相加和相減,根據(jù)兩個(gè)聲道的相關(guān)度大小,來(lái)決定是傳輸和/差信號(hào)還是傳輸原始信號(hào)。
由于人耳對(duì)于頻率超過(guò)2-3kHz的聲音定位主要是通過(guò)內(nèi)耳密度差分(IID)實(shí)現(xiàn)的,因此為了進(jìn)一步減少數(shù)據(jù)率,將各個(gè)聲道中頻率超過(guò)約定門(mén)限值的信號(hào)組合后再進(jìn)行傳輸。這種技術(shù)應(yīng)用在MPEGLayersI,II,III中,實(shí)現(xiàn)強(qiáng)度立體聲編碼;用在AC-3中對(duì)兩個(gè)聲道或耦合聲道實(shí)現(xiàn)多聲道編碼。在MPEGAAC中,則既可實(shí)現(xiàn)強(qiáng)度立體聲編碼,又可實(shí)現(xiàn)多聲道編碼。
1、杜比數(shù)字AC-3編解碼壓縮過(guò)程
AC-3最早是在1991年的電影“BatmanReturns”中應(yīng)用的。它的應(yīng)用不僅在電影界占有一席之地,而且它已被北美地區(qū)的數(shù)字電視及DVD視頻定為其數(shù)字音頻實(shí)施規(guī)范。我們熟知的AC-2,AC-3都是由兩聲道發(fā)展而來(lái)的,即杜比數(shù)字(DolbyDigital)。對(duì)于數(shù)字音頻信號(hào)來(lái)說(shuō),通過(guò)應(yīng)用數(shù)字壓縮算法,來(lái)減少正確再現(xiàn)原始脈沖編碼調(diào)制(PCM)樣本所需要的數(shù)字信息量,得出原始信號(hào)經(jīng)數(shù)字壓縮后的表達(dá)式。
3.1AC-3編碼過(guò)程
AC-3編碼器接受PCM音頻并產(chǎn)生相應(yīng)的AC-3數(shù)碼流。在編碼時(shí),AC-3算法通過(guò)對(duì)音頻信號(hào)的頻域表達(dá)式進(jìn)行粗量化,達(dá)到高的編碼增益(輸入碼率對(duì)輸出碼率之比)。如圖8所示。
編碼過(guò)程的第一步是把音頻表達(dá)式從一個(gè)PCM時(shí)間樣本的序列變換為一個(gè)頻率系數(shù)樣本塊的序列。這在分析濾波器中完成。512個(gè)時(shí)間樣本的相互重疊樣本塊被乘以時(shí)間窗而變換到頻域。由于相互重疊的樣本塊,每個(gè)PCM輸入樣本將表達(dá)在兩個(gè)相繼的變換樣本塊中。頻域表達(dá)式則可以二取一,使每個(gè)樣本塊包含256個(gè)頻率系數(shù)。這些單獨(dú)的頻率系數(shù)用二進(jìn)制指數(shù)記數(shù)法表達(dá)為一個(gè)二進(jìn)制指數(shù)和一個(gè)尾數(shù)。這個(gè)指數(shù)的集合被編碼為信號(hào)頻譜的粗略表達(dá)式,稱(chēng)作頻譜包絡(luò)。核心的比特指派例行程序用這個(gè)頻譜包絡(luò),確定每個(gè)單獨(dú)尾數(shù)需要用多少比特進(jìn)行編碼。將頻譜包絡(luò)和6個(gè)音頻樣本塊粗略量化的尾數(shù),格式化成一個(gè)AC-3數(shù)據(jù)幀(FRAME)。AC-3數(shù)碼流是一個(gè)AC-3數(shù)據(jù)幀的序列。
在實(shí)際的AC-3編碼器中,還包括下述功能:
l附有一個(gè)數(shù)據(jù)幀的信頭(header),其中包含與編碼的數(shù)碼流同步及把它解碼的信息(比特率、取樣率、編碼的信道數(shù)目等)。
l插入誤碼檢測(cè)碼字,以便解碼器能檢驗(yàn)接收的數(shù)據(jù)幀是否有誤碼。
l可以動(dòng)態(tài)的改變分析濾波器組的頻譜分辨率,以便同每個(gè)音頻樣本塊的時(shí)域/頻域特性匹配的更好。
l頻譜包絡(luò)可以用可變的時(shí)間/頻率分辨率進(jìn)行編碼。
l可以實(shí)行更復(fù)雜的比特指派,并修改核心比特分派例行程序的一些參數(shù),以便產(chǎn)生更加優(yōu)化的比特指派。
l一些聲道在高頻可以耦合在一起,以便工作在較低比特率時(shí),可得到更高的編碼增益。
l在兩聲道模式中,可以有選擇的實(shí)行重新設(shè)置矩陣的過(guò)程,以便提供附加的編碼增益,以及當(dāng)兩信道的信號(hào)解碼時(shí)使用一個(gè)矩陣環(huán)繞聲解碼器,還能獲得改進(jìn)的結(jié)果。發(fā)展是從85年以后開(kāi)始的,其中包括了我們熟知的Eureka147DAB(尤里卡147數(shù)字音頻廣播)和DVB。不斷發(fā)展的數(shù)字調(diào)制方式及編碼算法都為數(shù)字音頻廣播提供了更加有效的傳輸和存儲(chǔ)方式,使得在有限的帶寬中以較低比特率來(lái)傳輸聲道數(shù)更多、質(zhì)量更優(yōu)的音頻信號(hào)成為可能。同樣在數(shù)字音頻廣播系統(tǒng)的發(fā)展中也充分利用了這些以此為核心的新技術(shù)。以前,立體聲廣播起著主導(dǎo)的作用,現(xiàn)在隨著越來(lái)越多的多聲道數(shù)字音頻系統(tǒng)的應(yīng)用,在數(shù)字音頻廣播領(lǐng)域也已經(jīng)開(kāi)始接納并制定相關(guān)的音頻標(biāo)準(zhǔn)了。在Eureka147DAB和DVB中,已經(jīng)包括了多聲道數(shù)字音頻的擴(kuò)展。
7.1
Eureka147DAB國(guó)際協(xié)議是于1986年由16個(gè)歐洲成員組織為制定數(shù)字音頻廣播標(biāo)準(zhǔn)而制定的標(biāo)準(zhǔn)規(guī)范。隨后又有一些新的組織機(jī)構(gòu)加入到這項(xiàng)協(xié)議工作中去,并于1995年形成了第一個(gè)DAB的標(biāo)準(zhǔn)。在同一年中,世界范圍的DAB論壇也相繼成立,它們的目標(biāo)就是促進(jìn)世界各地更多的組織機(jī)構(gòu)采用以Eureka147DAB為藍(lán)本的數(shù)字音頻廣播的實(shí)現(xiàn)。
Eureka147DAB系統(tǒng)的設(shè)計(jì)是用來(lái)取代現(xiàn)行的FM廣播業(yè)務(wù)的,它采用COFDM(編碼正交頻分復(fù)用)以便于更好地進(jìn)行移動(dòng)接收和克服多徑效應(yīng),載波采用DQPSK(差值正交相移鍵控)進(jìn)行調(diào)制,通道編碼采用卷積編碼,以滿(mǎn)足可調(diào)整碼率的需要。
Eureka147DAB系統(tǒng)使用1.536MHz的頻譜帶寬來(lái)傳輸最大不超過(guò)1.5Mb/s的數(shù)據(jù),因此對(duì)于多聲道來(lái)說(shuō), 如為6個(gè)聲道,則每個(gè)聲道的數(shù)據(jù)率最大不超過(guò)256kb/s。對(duì)于聲道如何分配及使用,則是根據(jù)節(jié)目數(shù)量/ 數(shù)據(jù)業(yè)務(wù)與音頻質(zhì)量來(lái)折衷考慮的。由于早期的Eureka147DAB源編碼的發(fā)展沒(méi)有反映出當(dāng)前最新發(fā)展的技術(shù),同時(shí)由于歷史原因及DAB標(biāo)準(zhǔn)由歐洲制定,而歐洲長(zhǎng)期以來(lái)都采用的是MPEG技術(shù),考慮到兼容等問(wèn)題,因此DAB系統(tǒng)中音頻編碼系統(tǒng)采用的是MPEGLayerII編碼方案。不能說(shuō)MPEGLayerII編碼方案有什么不好,但是如果我們綜觀當(dāng)前多聲道數(shù)字音頻系統(tǒng)的最新發(fā)展,不難看出,有更多更好的方案可以被采用,如在提高聲音質(zhì)量上可采用DTS系統(tǒng),在增加聲道數(shù)目上可采用MPEGAAC系統(tǒng)。
7.2
DVB項(xiàng)目是在1993年由220多個(gè)世界組織來(lái)制定建立的。這些世界組織包括廣播業(yè)者、制造商、網(wǎng)絡(luò)管理者和致力于發(fā)展數(shù)字電視標(biāo)準(zhǔn)的各種組織機(jī)構(gòu)。最早的DVB業(yè)務(wù)是在歐洲開(kāi)始的,現(xiàn)在DVB標(biāo)準(zhǔn)不僅是歐洲的數(shù)字電視標(biāo)準(zhǔn),而且它也擴(kuò)展到亞洲、非洲、美洲及澳大利亞等地區(qū),成為這些地區(qū)數(shù)字電視的選擇標(biāo)準(zhǔn)之一。與此不同的美國(guó)采用的是ATSC系統(tǒng)。
在DVB的標(biāo)準(zhǔn)中規(guī)定了三個(gè)子系統(tǒng):DVB-S(衛(wèi)星)、DVB-C(有線)和DVB-T(地面)系統(tǒng)。DVB-S系統(tǒng)是一種單載波系統(tǒng),是最早實(shí)現(xiàn)的DVB標(biāo)準(zhǔn),它是建立在正交相移鍵控(QPSK)調(diào)制和通道編碼(卷積編碼和里得-所羅門(mén)塊編碼)的基礎(chǔ)之上的,典型的碼率為40Mb/s左右。DVB-C系統(tǒng)是以DVB-S系統(tǒng)為基礎(chǔ)建立的,不同的是它采用QAM(正交調(diào)幅)調(diào)制方式,取代了用于DVB-S中的QPSK調(diào)制方式。在DVB-C中如果使用64點(diǎn)QAM調(diào)制,則可以實(shí)現(xiàn)在8MHz的帶寬中傳輸38.5Mb/s的數(shù)據(jù)。DVB-T系統(tǒng)與以上兩者都不同的是采用了COFDM的調(diào)制方式,而通道編碼則與前兩者基本相同。在DVB-T系統(tǒng)中,可以實(shí)現(xiàn)在7MHz的帶寬中傳輸19.35Mb/s的數(shù)據(jù)。
DVB系統(tǒng)的源編碼是建立在MPEG-2視頻和MPEG-2系統(tǒng)標(biāo)準(zhǔn)上的。同時(shí)在DVB中也提供了與立體聲相兼容的多聲道數(shù)字音頻系統(tǒng)。同樣由于歷史及其他一些原因,在DVB音頻部分中仍然采用的是MPEGLayerII多聲道數(shù)字音頻系統(tǒng),在DVB的標(biāo)準(zhǔn)中也同時(shí)規(guī)定可以采用靈活性更大、質(zhì)量更高,超過(guò)MPEGLayerIIMC系統(tǒng)的多聲道數(shù)字音頻系統(tǒng)作為DVB的音頻部分。
總之,隨著數(shù)字廣播的不斷發(fā)展,相信這些已經(jīng)成熟的各種技術(shù)都將有它們各自的用武之地。
8、結(jié)語(yǔ)
在本文中,我們主要討論了當(dāng)前較流行、較成熟的幾種多聲道數(shù)字音頻系統(tǒng),同時(shí)也對(duì)它們所采用的編碼方法的主要技術(shù)做了詳盡的分析比較。隨著存儲(chǔ)媒體及傳輸帶寬技術(shù)的不斷發(fā)展,相信多聲道數(shù)字音頻系統(tǒng)會(huì)逐漸取代傳統(tǒng)的如CD格式的音頻系統(tǒng);同樣應(yīng)用于多聲道數(shù)字音頻系統(tǒng)中的音頻編碼及傳輸方案也會(huì)不斷的進(jìn)行更新、發(fā)展。更多聲道的實(shí)現(xiàn)及更高質(zhì)量的音頻系統(tǒng)實(shí)現(xiàn)都會(huì)成為可能,如新建立的DVD-Audio音頻技術(shù)中的編碼方案已遠(yuǎn)遠(yuǎn)超越了PCM音頻方式。
總而言之,我們相信在今后的數(shù)字廣播的發(fā)展中,不管是DVB、DAB、數(shù)字視頻、音頻廣播,還是ATSC數(shù)字電視系統(tǒng)等,都將會(huì)采用不受帶寬限制(相對(duì)而言)、可提供更高質(zhì)量、更多聲道的多聲道數(shù)字音頻系統(tǒng)。
3.2AC-3解碼過(guò)程
解碼過(guò)程基本上是編碼的逆過(guò)程。解碼器必須同編碼數(shù)碼流同步,檢查誤碼,以及將不同類(lèi)型的數(shù)據(jù)(例如編碼的頻譜包絡(luò)和量化的尾數(shù))進(jìn)行解格式化。運(yùn)行比特指派例行程序,將其結(jié)果用于解數(shù)據(jù)大包(unpack)和尾數(shù)的解量化。將頻譜包絡(luò)進(jìn)行解碼而產(chǎn)生各個(gè)指數(shù)。各個(gè)指數(shù)和尾數(shù)被變換回到時(shí)域成為解碼的PCM時(shí)間樣本。
在實(shí)際的AC-3解碼器中,還包括下述功能:
l假若檢測(cè)出一個(gè)數(shù)據(jù)誤碼,可以使用誤碼掩蓋或靜噪。
l高頻內(nèi)容耦合在一起的那些聲道必須去除耦合。
l無(wú)論何時(shí)已被重新設(shè)置矩陣的聲道,必須進(jìn)行去除矩陣化的過(guò)程(在2-聲道模式中)。
l必須動(dòng)態(tài)的改變綜合濾波器組的分辨率,與編碼器分析濾波器組在編碼過(guò)程中所用的方法
相同。
3.3杜比數(shù)字AC-3編碼數(shù)據(jù)格式
經(jīng)過(guò)杜比數(shù)字AC-3編碼器的編碼處理,可以將原始的數(shù)據(jù)PCM信號(hào)編碼為杜比數(shù)字AC-3音頻數(shù)據(jù)流。一個(gè)AC-3串行編碼的音頻數(shù)據(jù)流是由一個(gè)同步幀的序列所組成。如圖10所示。
由圖可見(jiàn),每個(gè)同步幀包含六個(gè)編碼的音頻樣本塊(AB)其中每個(gè)代表256個(gè)新的音頻樣本。在每個(gè)同步幀開(kāi)始的同步信息(SI)的信頭中,包含為了獲得同步和維持同步所需要的信息。接著SI后面的是數(shù)碼流信息(BSI)的信頭;它包含描述編碼數(shù)據(jù)流業(yè)務(wù)的各種參數(shù)。編碼的音頻樣本塊之后接 著是一個(gè)輔助數(shù)據(jù)(AUX)字段。在每個(gè)同步幀結(jié)尾處是誤碼檢驗(yàn)字段,其中包含一個(gè)用于誤碼檢測(cè)的CRC字。一個(gè)附加的CRC字位于SI信頭中,以供選用。
AB0~AB5的每一塊代表一個(gè)編碼通道,可以被分別獨(dú)立解碼,塊的大小可以調(diào)整,但總數(shù)據(jù)量不變。在圖中還有兩個(gè)未標(biāo)出的CRC,其中第一個(gè)位于幀的5/8處,另一個(gè)位于幀未。之所以如此安排,目的就是可以減少解碼器的RAM需求量,使得解碼器不必完全接收一幀后才解碼音頻數(shù)據(jù),而是分成了兩部 分進(jìn)行解碼。
評(píng)論