H.264解碼器中一種新穎的去塊效應(yīng)濾波器設(shè)計
(1)查找表操作:取得α,β,c1參數(shù)。α,β參數(shù)均需在查找表操作之前進行基于量化參數(shù)與片級偏移參數(shù)的計算中使用。當(dāng)Bs=1,2,3時,為獲取c1進行LUT操作,該操作比獲取α,β的LUT操作大3倍。
(2)當(dāng)Bs=4時,需用4或5抽頭的濾波器進行濾波,原來的p,q像素值需要進行移位、相加等操作,以得到最后的結(jié)果。
3.2 流水線架構(gòu)
基于上述分析,這里提出了5階流水線以提高吞吐量,見圖3。由于整個任務(wù)被分配到不同的階段實現(xiàn),降低濾波的平均時間。本文引用地址:http://cafeforensic.com/article/188527.htm
4 階流水線每個階段的任務(wù)
階流水線每個階段的任務(wù)為:獲取像素與濾波強度;閾值判斷;預(yù)濾波;二次濾波;回寫。操作類型轉(zhuǎn)換與可重新配置路徑設(shè)計:首先進行操作類型的變換,使用加法與移位操作硬件替換了原來所有的乘法與除法硬件。當(dāng)Bs=4時,濾波被3,4,5抽頭的濾波器執(zhí)行,盡管應(yīng)用不同抽頭數(shù)目的濾波器,仍考慮硬件復(fù)用以及輸入數(shù)據(jù)路徑重新配置。由于設(shè)計中的表達式采用兩輸入加法,因而可以公用加法的中間結(jié)果。此外,通過重新配置在不同濾波抽頭系數(shù)時的加法器的輸入,達到共享資源的目的。同理,當(dāng)Bs=1,2,3時,通過輸入路徑的重新配置,同樣達到共享加法與減法器,達到共享資源的目的,資源使用前后對比見表1。
5 流水線競爭與混合濾波順序
5.1 流水線競爭的原因
(1)數(shù)據(jù)競爭:當(dāng)目的結(jié)果需要用作源操作數(shù)時;
(2)結(jié)構(gòu)競爭:由于有限的存儲器帶寬,大量而頻繁的像素訪問需要以及存儲器的低效率管理而引起;
(3)控制競爭:相鄰邊界的濾波是相對獨立的,當(dāng)一條邊界進入它的流水線階段時,它不能夠停止,直到它的第5階段新像素值回寫存儲器操作結(jié)束??刂聘偁?,由于分支語句或延遲等待引起的。
5.2 一種新穎的混合濾波順序
傳統(tǒng)的設(shè)計按照H.264/AVC標(biāo)準使用了基本的順序濾波,沒有考慮到相鄰濾波邊界的數(shù)據(jù)重用與數(shù)據(jù)相互依賴性以及存儲器的讀與寫訪問延時,因此這里提出了新穎的濾波方法。新穎的濾波順序仍然遵守先左后右,先上后下的原則,但是考慮了相鄰邊界的數(shù)據(jù)依賴性與重用性,解決了數(shù)據(jù)冒險與結(jié)構(gòu)冒險問題,避免了流水線的延遲。濾波包括亮度部分與色度部分,共48條邊界,濾波順序按照如圖4所示的從小到大的數(shù)字進行。
5.3 新穎的存儲更新策略
考慮到外部存儲器的帶寬是32位的,為了配合這里提出的邊界濾波順序,避免由于存儲器的帶寬限制而引起的結(jié)構(gòu)競爭從而導(dǎo)致流水線出現(xiàn)延遲,這里提出了新穎的存儲器更新機制,即給不同的4×4宏塊分配不同的時隙進行像素回寫。
去塊效應(yīng)模塊被分配在整個解碼模塊的最后一步實現(xiàn),而其它的重建步驟、像幀內(nèi)濾波模塊、幀間濾波模塊均以4×4宏塊為基本單位來進行流水線處理,但是由于去塊效應(yīng)濾波模塊中不同邊界之間的數(shù)據(jù)依賴關(guān)系,因而它是以整個16×16宏塊為基本單位進行濾波的。此外,只有整個16×16宏塊的像素重建完畢之后.才可以進行該宏塊的濾波,因而使用了2個SRAM,一個為像素重建提供像素;另一個為像素濾波提供像素,當(dāng)一個宏塊被處理完畢,兩個SRAM交換角色,這樣避免在兩個SRAM之間傳遞數(shù)據(jù)導(dǎo)致的時間與功耗開銷。使用仿真工具對整個去塊效應(yīng)頂層模塊DF_top進行了仿真,仿真部分結(jié)果如圖5所示。
6 結(jié) 語
使用硬件描述語言完成了設(shè)計,并在FPGA平臺上得到驗證。設(shè)計采用流水線技術(shù),混合濾波方法,配合新穎的存儲器更新機制等方案,實時濾波頻率上限約為200 MHz,吞吐量為濾波每個16×16宏塊需要198個時鐘周期。使用HJTC,CMOS工藝,使用Syn-opsys Co.的DC工具進行綜合,時序分析以及功耗分析,結(jié)論是時序滿足收斂要求,并且完成單個宏塊的濾波消耗的能量大約為2μW,功耗得到了很大的降低。
評論