DSP在音頻解碼中基于心理-聲學的性能分析
通常在談到關于DSP解碼與系統(tǒng)整體性能表現時,我們主要利用了傳統(tǒng)的SNR、瞬時誤差和相位誤差等方法進行判斷。本文以心理-聲學壓縮設計的方法來考察DSP解碼的性能與表現,介紹了基于心理-聲學的音頻壓縮解碼概念,并給出了基于心理-聲學的DSP性能分析。
本文引用地址:http://cafeforensic.com/article/201612/332377.htm從上個世紀90年代以來,數字信號處理技術便逐步在消費音頻市場占據重要地位。數字信號處理器最初主要用于處理數字化的模擬音頻信號,即PCM數據的處理。在當前的系統(tǒng)設計時代,基于具有靈活軟件設計特性的DSP系統(tǒng)設計方案是傳統(tǒng)設計的理想替代方法。
在音頻系統(tǒng)的設計中,通常在信號源進行壓縮編碼時采用心理-聲學模型去除信號中的冗余數據,通過選擇合適位數的DSP可以保證系統(tǒng)的性能。實際應用中DSP的選擇需要涉及到很多因素,包括精度(24位/32位)、主頻、成本和內存容量等。本文就音頻解碼應用中,基于心理-聲學模型對DSP的性能進行了分析。
DSP分貝與聲壓分貝的關系
本文在后面所述的數據都是在dBFS下的測量值,即滿刻度分貝值。從可聞度來分析,需要將這些數值與dB SPL關聯起來,即轉換為聲壓強度的分貝數。在DSP之后的模擬信號鏈上包括DAC、前置放大器、功率放大器和揚聲器,盡管對于不同的系統(tǒng),每個元件的增益和性能可能會有顯著的差異,但單純從系統(tǒng)配置的角度而言,仍可能把dBFS與dB SPL以足夠的準確性關聯起來。
通常,數字音軌以-20dBFS電平進行錄音,完全滿足信號峰值所要達到的幅值,同時也擁有足夠的動態(tài)范圍以展現音頻文件的靜音部分,在CD、Dolby Digital和DTS等不同格式下也不會失真。眾所周知, THX推薦的聽覺配置是在85dB聲壓強度下再現-20dBFS聲音信號,這時音量通常會很大,而正常的收聽時會比該強度低很多。
從上面是的事實得出dBFS與dB SPL之間是線性映射的,具有以下關系:0dBFS的信號可在105dB SPL再現,需要注意的是這種情況下產生的聲音非常高,不適合長時間收聽; 0dB SPL對應與-105dBFS。
聽覺與聽覺閾值
人類的聽覺是有極限的,通常在聲壓強度的設計上會把0dB設定為最低可聽范圍水平。聲音頻譜中的大部分(300Hz以下和10KHz以上)只有在10dB的聲壓強度之上才可以聽到,正弦波的最高敏感度在3~4KHz,而且這樣的聲音在-3~-4的dB SPL就可以被聽力極好的人感知。
從生理學上看,要達到聲音聽覺閾值,其能量需要大到能在人的耳鼓產生一個駐波,從而使那兒的細小毛發(fā)產生波動。沒有這種波動,連接聽覺皮層的神經元就不能被觸發(fā),因而聲音不能被感知。從上面的討論我們得到的關于音頻系統(tǒng)設計的啟發(fā),即當噪音的水平低于人們的聽覺閾值時,一味追求高精度的DSP實現方案并沒有實際意義。
利用先前得到的聽力配置關系,最低的可聽聲壓為-4dB SPL,即-109dBFS。假設在信號鏈所有其它部分(DAC、前置放大器等)均為零失真,這就意味著任何能夠產生好于109dB信噪比的DSP都不會成為系統(tǒng)性能的瓶頸,這是采用DSP實現系統(tǒng)設計的一個很重要的問題。實際應用中,模擬信號鏈是系統(tǒng)中噪音的最主要來源,而DSP對噪音的貢獻遠遠低于這些模擬器件。
滿足系統(tǒng)性能的DSP位數
上面的分析是建立在-20dBFS平均水平和THX聽力配置情況下。盡管這是一個極限情況,考慮到dBFS/dB SPL轉換關系的變化,在設計時還要留出一些性能余量。因此,一個考慮周全的設計應該使DSP的位數比理論位數大約多出兩位,即121dB使用6dB/位的配置,對應著PCM輸出的20位動態(tài)范圍。
以上的分析與杜比公司的Dolby Digital設計方案的假設一致,該方案同樣是采用20位的精度。同時,實際的ADC/DAC也限制在20位精度的性能(<120dB),即使是DAT錄音也是采用20位的精度。所有的這些都驗證了上面的分析的正確性。
上述數據是基于最壞的情況,因為在實際情況下功率放大器、前置放大器和DAC產生的噪音量比DSP的性能對系統(tǒng)整體的性能影響更大。最好的功率放大器也僅僅能獲得109dB的信噪比,因為噪音能量在線性區(qū)域中可累加,這意味著一個輸出是121dB的20位DSP,僅僅會產生放大器6.66%的噪音。而如果揚聲器的性能也作為考慮因素,那么DSP產生的噪音就是1/6??揚聲器失真,這是可以完全忽略的。
上面的分析甚至沒有考慮編碼的失真、ADC或麥克風產生的噪音,所有這些都是非常關鍵的。如果所有信號鏈都考慮到,很顯然20位的DSP已經足夠用。僅僅用非常態(tài)正弦波測試,人為的合成精度超過20位的信號才能得到可測量的差別,并且這種差別實際上是人類聽覺不能感知的。
帶有“透明”音頻質量的有損壓縮
心理-聲學壓縮設計是針對給定信號的有損壓縮,進而了解在什么程度下不同的頻域/時域信號是可聽見或聽不見,以便相應調整編碼過程,使引入的噪音降到聽覺閾值之下。基本的現象為信號中強音部分會掩蔽臨近弱音部分,理想的情況下,這樣的數據減少不會導致感覺到音質的損失,這樣就引出“透明”音頻編碼或壓縮的概念。
這與簡單的SNR測量有根本的不同,同時更為復雜,因為它需要精確再現特殊信號中相關的可聽部分。換句話說,雖然SNR是不錯的確定編/解碼質量的準則,但它卻不合適用這個標準去判定能夠產生-140dB THD+N的DSP就一定比-130dB THD+N的好。因為心理-聲學壓縮設計是建立在人類聽覺閾值曲線基礎之上,上面的結論也就變得非常明顯,在這個閾值之下的信號不能被聽見。
關于獲得“透明”音頻壓縮的問題
實際的編/解碼輸出質量的決定因素有如下幾點:
1. 使用的算法
2. 壓縮的比特率
3. 分析輸入信號中用到的心理-聲學模型
4. 瞬時分析架構與轉換濾波器組
5. 位分配策略
在實現編碼/解碼過程中,上述的因素均與算法精度無關,即使是使用無窮精度實現,上面的因素同樣對音頻質量起決定性影響。
基于上面討論的有損壓縮系統(tǒng),可以得出下面的結論:傳統(tǒng)的SNR、THD+N、瞬態(tài)誤差和相位誤差等測量方法,在比較不同實現方案的性能時都不再是最終的度量標準,只能在鑒定和校驗系統(tǒng)性能時作為參考,不能用來對與心理-聲學驗證的約120dB性能的閾值有細微的差別的系統(tǒng)進行評級。
DSP增值建議
通常20位DSP已經能滿足系統(tǒng),而從心理-聲學角度16位就已足夠,對于一個給定的壓縮方案而言,一旦解碼器達到了一定的性能,單純增加DSP的精度就不會進一步的提高系統(tǒng)性能。實際的DSP增值解決方案就變成了對解碼音頻程序的后期處理和它所提供的系統(tǒng)級特性。事實上,最終消費者還需要產品具有更多的附加特性,例如自動監(jiān)測、錯誤屏蔽和擁有提供虛擬音效的后期處理器等。
單從市場反映來看,采用32位DSP在概念上還是很成功,因為從數字上可以直觀感覺到性能的進步。實際上,從整體性能和更多功能上來考慮是一種明顯的誤解,這種誤解就相當于對PC機只比較CPU的主頻,而不考慮系統(tǒng)的整體性能一樣。
32位的DSP并不能真正有助于提高系統(tǒng)最終性能,它需要更大的內存(比24位DSP多出大約33%)。同時,因為32×32MAC比24×24MAC慢,一個32位DSP核將始終比相應的24位核的解碼器慢。就信噪比而言,實際應用效果證明,通過優(yōu)化處理,24位DSP可以得到和32位DSP相同(甚至更高)的性能。
需要注意的是,上面討論僅僅基于基本的解碼器,32位DSP在后期處理上仍然存在某些優(yōu)勢。因此,如果前端使用高度優(yōu)化的24位DSP解碼引擎,后端處理器為一個32位DSP,這樣一個優(yōu)化的設計結合了兩者的優(yōu)勢是一種不錯的選擇,目前已經有這樣的系統(tǒng)級芯片方案提供。
本文小結
在現實世界中利用心理-聲學來壓縮編碼時,SNR測試方法在比較系統(tǒng)性能上并不是合適的標準。而ITU PEAQ測試平臺方法則更適合測量可感知音頻的質量。此外,當我們在評估一個DSP解決方案時,還需要考慮到系統(tǒng)的錯誤屏蔽、自動檢測和后期處理的特性,以及系統(tǒng)的啟動響應時間和批量延遲等。
影響AV接收系統(tǒng)解碼器質量的因素并不全是DSP精度的問題。通過較強的DSP算法技巧和優(yōu)化,能使一個24位精度的性能超越32位DSP。然而,隨著制造工藝的不斷提高,32位的DSP將最終解決上述問題,使32位的解碼器更具成本和技術上的比較優(yōu)勢。
評論