色婷婷AⅤ一区二区三区|亚洲精品第一国产综合亚AV|久久精品官方网视频|日本28视频香蕉

          新聞中心

          EEPW首頁 > 嵌入式系統(tǒng) > 設(shè)計應(yīng)用 > 對FPGA設(shè)計進行編程并不困難

          對FPGA設(shè)計進行編程并不困難

          作者: 時間:2012-04-05 來源:網(wǎng)絡(luò) 收藏

          硬件者已經(jīng)開始在高性能DSP的中采用技術(shù),因為它可以提供比基于PC或者單片機的解決方法快上10-100倍的運算量。以前,對硬件不熟悉的軟件開發(fā)者們很難發(fā)揮出的優(yōu)勢,而如今基于C語言的方法可以讓軟件開發(fā)者毫不費力的將的優(yōu)勢發(fā)揮得淋漓盡致。這些基于C語言的開發(fā)工具可以比基于HDL語言的硬件設(shè)計更節(jié)省設(shè)計時間,同時不需要太多的硬件知識。 由于具有這些優(yōu)勢,F(xiàn)PGA技術(shù)不僅可使這些器件作為I/O器件的前端,F(xiàn)PGA還可實現(xiàn)大量的高帶寬和運算密集型應(yīng)用的實時處理。此外,F(xiàn)PGA還可很緊密地與板上存儲器結(jié)合,并在一塊電路板上集成多個器件。更好的是,F(xiàn)PGA電路板可通過新興的串口通訊標準通訊,如Rapid I/O或者PCIX。這些最新技術(shù)可讓基于FPGA的系統(tǒng)比現(xiàn)有的多CPU和DSP系統(tǒng)的性價比高出一個數(shù)量級。 因此,在用CPU和DSP解決高帶寬和算法密集問題的場合中,例如醫(yī)療成像、工業(yè)應(yīng)用以及軍用聲納和雷達等,經(jīng)常使用FPGA。設(shè)計者利用這些新型的基于C語言的開發(fā)工具來開發(fā)DSP(在一塊PCI板上安裝單塊或多塊FPGA處理器),就可以實現(xiàn)前面提到的改進性能以及更短的面世時間。 這篇文章向設(shè)計者展示了如何利用C語言工具在基于FPGA的系統(tǒng)中實現(xiàn)信號處理,并一步一步向開發(fā)者說明在多FPGA系統(tǒng)中實現(xiàn)算法密集型信號處理程序的過程。利用C語言對FPGA計算解決方案,能將把程序的執(zhí)行時間從12分鐘減少到僅為2秒。

          本文引用地址:http://cafeforensic.com/article/149283.htm

          1 通過C語言與硬件接口

          假設(shè)您在設(shè)計一個算法密集的信號處理程序,例如分析上千公里長公路的裂縫。這種應(yīng)用需要用到正/逆向霍夫變換的算法,該算法還可對航拍圖片中的河流和街道以及半導(dǎo)體表面的瑕疵進行定位。 如果你正使用基于奔騰4和Windows XP的PC、帶有多個FPGA的PCI板(例如Tsunami板)、C語言開發(fā)環(huán)境和Handel-C(Celoxica開發(fā)環(huán)境)來進行設(shè)計,并假設(shè)你對HDL硬件語言所知甚少,卻熟悉基于FPGA設(shè)計的一些基礎(chǔ)知識。設(shè)計過程要從C語言代碼的編寫開始,然后將代碼轉(zhuǎn)化成Handel-C,并在PC上進行仿真,最終在多FPGA處理器上運行測試。

          一開始,先要決定C語言代碼對哪些算法進行加速。一個好的剖析工具,例如Intel的VTune Performance Analyzer,可以幫你發(fā)現(xiàn)消耗過多時鐘周期的代碼段。 在上述的信號處理應(yīng)用中,完全由CPU完成算法要花費12分鐘的時間,經(jīng)過剖析發(fā)現(xiàn)時間幾乎是消耗在各種嵌套的循環(huán)中,這清楚地顯示了哪些代碼是由FPGA加速器加速的。經(jīng)過加速過的代碼需要經(jīng)過PC上的PCI總線輸入和輸出。由此可知I/O數(shù)據(jù)的速度在PCI總線的速度范圍之內(nèi)DD從70到200Mbps。 接下來的挑戰(zhàn)是創(chuàng)建FPGA設(shè)計以加速代碼的功能。由于FPGA可以同時執(zhí)行上千條指令,訪問上百個內(nèi)存塊,所以“管道”和“并行處理”技術(shù)都可被用來加速功能。利用管道技術(shù),指令路徑是有順序的,即當一些算法正在一部分數(shù)據(jù)“管道”中被執(zhí)行時,另一些算法將在同一“管道”的后面部分被執(zhí)行,這個過程與自動生產(chǎn)線很相似。具有長時鐘的程序可以通過并行處理來顯著降低運行時間(圖2)。

          最后,你還必須分析各個算法,將其按步分解成由數(shù)學運算(加、減、乘、除、積分)、延遲、保存到內(nèi)存和查表等操作。無論多復(fù)雜的算法都可以分解成這些最基本的操作,而且這些操作在相互無關(guān)聯(lián)的情況下可以并行處理。 我們的示例應(yīng)用可以這樣被加速:9個處理周期被充分地進行管道處理,在初始延遲后的每個時鐘都輸出一個結(jié)果,然后這些周期被嵌入到X、Y和Θ的三維循環(huán)中,因此總的周期數(shù)為9+(9*X*Y*Θ),即在每個處理塊中只包括9個這樣的周期:延遲+(9個周期*64個像素*64個像素*64位深度)。

          盡管FPGA中可以實現(xiàn)浮點運算單元,但它們能迅速消耗FPGA的資源,所以如果可以,最好謹慎使用。主要依靠浮點運算的算法最好轉(zhuǎn)換成定點運算,這樣你既可利用用“模塊浮點”方法,又可通過定點的方法設(shè)計整個系統(tǒng)。然后,通過對比實際輸出與原始的全浮點運算的軟件實現(xiàn)來確定轉(zhuǎn)換精度。在霍爾算法的例子中,14b+7b的定點分辨率與全浮點的結(jié)果完全相同。

          2 確定資源

          在接下來的設(shè)計中,需要對每個處理部分的時鐘周期計數(shù)。通常,每個時鐘周期可以完成二到三個運算,然后確定所需的FPGA資源以適應(yīng)代碼??梢栽诙鄠€FPGA中分段運行代碼來獲得更高的計算能力。這些解決方案的拓展非常容易,只要使用所需的多個FPGA(最多5個),系統(tǒng)將自動檢測它們。 在該例子中,設(shè)計是基于處理塊的。這些塊按順序被發(fā)送給每個FPGA,或者從每個FPGA收集起來(其邏輯是代碼的一部分)。一個FPGA的加速比例可以達到37:1,而10個FPGA(每兩個電路板上有5個)可以達到370:1。 對設(shè)計進行編碼相對簡單,因為設(shè)計主要由C語言完成,除了一些需要特殊Handel-C指令的新功能。這些新指令包括:增強位操作、并行處理、宏操作和公式、任意寬度的變量、FPGA存儲器接口、RAM和ROM類型、信號(代表硬件中的信號線)以及通道(在代碼并行分支或時鐘域之間通信)。工具條中的“代碼轉(zhuǎn)換”可以完成C和Handel-C的樣本轉(zhuǎn)換。

          3 對環(huán)境的仿真

          再下一步是建立仿真環(huán)境,并在其中測試和優(yōu)化硬件代碼。仿真環(huán)境提供了完整的bit-true/cycle-true仿真,并對FPGA的實現(xiàn)進行可靠的模擬。利用設(shè)計輸出與C軟件仿真輸出的比較來測試精度,同樣也可得到FPGA處理器上真實運行速度的報告。通常,進行結(jié)構(gòu)塊仿真有助于找到設(shè)計中的問題,因為這些塊在重組后可以確定總體的運行效果??稍诜抡孢^程中做進一步的調(diào)整,如利用流水線在每個時鐘周期內(nèi)進行單輸入單輸出的測試,或?qū)⑻幚磉^程細分到更多的并行數(shù)據(jù)流中直到FPGA的資源利用率達到100%。此外,在硬件編譯時也能發(fā)現(xiàn)算法的最慢點并對其優(yōu)化,在FPGA甚至板子之間分割算法還可以獲得額外的速度。 利用軟件,進一步調(diào)整可獲得更好的性能。然而,精確調(diào)整帶來的性能增益卻會下降。通過簡單的增加FPGA非常具有成本效益。并不需要使設(shè)計完美化,因為基于這些結(jié)果的設(shè)計可以在任何時候進行快速的仿真和優(yōu)化。一旦仿真完成,就可以將設(shè)計編譯到硬件里并激活數(shù)據(jù)流管理(DSM),以便將數(shù)據(jù)流送到FPGA處理器板而不是仿真器中。


          上一頁 1 2 下一頁

          關(guān)鍵詞: 困難 編程 進行 設(shè)計 FPGA

          評論


          相關(guān)推薦

          技術(shù)專區(qū)

          關(guān)閉