色婷婷AⅤ一区二区三区|亚洲精品第一国产综合亚AV|久久精品官方网视频|日本28视频香蕉

          "); //-->

          博客專欄

          EEPW首頁 > 博客 > AI計算平臺設計方案:901-基于3U VPX的圖像數(shù)據(jù)AI計算平臺

          AI計算平臺設計方案:901-基于3U VPX的圖像數(shù)據(jù)AI計算平臺

          發(fā)布人:Hexiaoyan91 時間:2024-04-07 來源:工程師 發(fā)布文章

          一、產(chǎn)品概述

                設備基于3U VPX的導冷結構,集成FPGA接口預處理卡,GPU板卡、飛騰ARM處理卡,實現(xiàn)光纖、差分電口或者Camera link的圖像接入,F(xiàn)PGA信號預處理,GPU AI計算,飛騰ARM的采集管理存儲。

          二、系統(tǒng)組成

                系統(tǒng)組成包括:3U VPX機箱電源、3U VPX背板、 1塊3U VPX V7采集處理板、1塊3U VPX AGX orin GPU計算主板、1塊3U VPX飛騰處理器計算板。901-02[1].jpg

          2.1基于XC7V690T的3U VPX信號處理板(274)274-01[1].jpg

            本板卡系我司自主研發(fā)的基于3U VPX導冷架構的信號處理板,適用于高速圖像處理等。芯片采用工業(yè)級設計。該處理板包含1片Xilinx公司的Virtex7系列FPGA-XC7V690T-2FFG1761I。板載兩組64位寬DDR3,每組容量4GB,一個HPC FMC接口。VPX接口連接4組x4 GTH,24組LVDS,一路RS422,一路1000Base-T。板卡的電氣與機械設計依據(jù)VPX標準(VITA 46.0),支持導冷,能夠滿足用戶在特殊環(huán)境下的使用需求。

          274-02[1].jpg

          板卡功能

          參數(shù)內(nèi)容

          主處理器

          Xilinx XC7V690T-2FFG1761I

          板卡標準

          VPX VITA 46.0

          電氣規(guī)范

          PCIe 2.0,3.0 X4

          FMC接口

          FMC  ANSI/VITA 57.1 – 2008 ,ASP-134486-01
               HPC中LA,HA,HB全部接口和DP0~DP7 8路高速接口

          板載緩存

          兩組DDR3,每組512Mx64bit(4GB), MT41K512M8RH-125-IT

          加載Flash

          BPI加載模式,BPI Flash 2Gb

          VPX接口

          P1: GTX x16, 支持PCIe、SRIO協(xié)議
          P2: LVDS x24,一路RS422,一路1000Base-T

          仿真器接口

          1x 6Pin JTAG接口,間距2.54mm

          LED

          兩個,電源狀態(tài)指示燈,F(xiàn)PGA狀態(tài)指示燈(可編程)

          復位方式

          外復位

          板卡尺寸

          100mm x 160mm x20mm

          板卡重量

          (含散熱片)

          板卡供電

          +12V@4A

          板卡功耗

          48W

          工作溫度

          Industrial  -20℃到+70℃ 

          光纖收發(fā)子卡、2711子卡、Cameralink子卡

          901-03[1].jpg 

          2.2 基于3U VPX的AGX Orin GPU計算主板(735)   、


          901-15[1].jpg

              Jetson AGX Orin 采用 NVIDIA Ampere 架構 GPU 和 Arm Cortex-A78AE CPU,以及新一代深度學習和視覺加速器。高速 IO、204GB/s 的內(nèi)存帶寬以及 32GB 的 DRAM 能夠饋送多個并發(fā) AI 應用程序管道。采用 Jetson AGX Orin,您現(xiàn)在可以部署更大型、更復雜的模型,解決自然語言理解、3D 感知和多傳感器融合等問題。Jetson Orin算力高達275 TOPS,是上一代多個并發(fā) AI推理管道性能的8倍,加上支持多個傳感器高速接口,可為新時代機器人提供理想的解決方案.

          735-02[1].gif

          GPU

          2048-core NVIDIA Ampere architecture GPU with
               64 Tensor Cores

          CPU

          12-core Arm Cortex-A78AE v8.2 64-bit CPU
               3MB L2 + 6MB L3

          顯存

          64GB 256-bit LPDDR5   204.8GB/s

          存儲

          64GB eMMC 5.1

          DLA最大頻率

          1.6 GHz

          AI性能

          275 TOPS

          DL加速器

          2x NVDLA v2

          視頻加速器

          1x PVA v2

          視頻編碼

          2x 4K60 (H.265), 4x 4K30 (H.265)  
               8x 1080p60 (H.265), 16x 1080p30 (H.265)

          視頻解碼

          1x 8K30 (H.265), 3x 4K60 (H.265), 7x 4K30 (H.265)
               11x 1080p60 (H.265),22x 1080p30 (H.265)

          PCle

          x8 PCle Gen4

          顯示接口

          HDMI

          網(wǎng)絡

          RJ45 接口 (高達1 GbE) 

          2.3 3U VPX飛騰處理器刀片計算機

          825-01[1].jpg

          2.3.1 產(chǎn)品概述 

               該產(chǎn)品是一款基于國產(chǎn)飛騰FT2000 4核或騰銳D2000 8核的高性能3U VPX刀片式計算機。產(chǎn)品提供了4個x4 PCIe 3.0總線接口,同時可配置為1個x16或2個x8 PCIe3.0接口,因此具有很強的擴展性,極大地滿足多負載多節(jié)點的應用需求。產(chǎn)品結構完全符合VITA 46.0規(guī)范,有很強的可靠性、可維護性、可管理性,并與軍用計算機的抗振動、抗沖擊、抗寬溫環(huán)境急劇變化等惡劣環(huán)境特性進行完美融合。

          2.3.2 功能指標 

           ● 3U 5HP VPX規(guī)格。 

           ● 支持FT-2000/4 四核處理器和騰銳D2000 八核處理器 

              FT-2000/4標準版,2.6GHz,16W 

              騰銳D2000/8標準版,2.3GHz,25W 

           ● 板載16GB雙通道DDR4內(nèi)存,頻率2400MHz。 

           ● 支持2個VGA接口,最大分辨率1920x1080@60Hz;其中1路VGA為后出接口。 

           ● 支持4個x4 PCIe3.0接口,可配置成1個x16 PCIe 3.0或2個x8 PCIe 3.0。 

           ● 前面板支持1路10/100/1000Mbps網(wǎng)絡接口,后出2路10/100/1000Mbps網(wǎng)絡信號,其中1路后出網(wǎng)口與前面板網(wǎng)口二選一切換。 

           ● 板載1個mSATA接口,支持SATA3.0;后出2路SATA3.0信號,用于擴展存儲。 

           ● 前面板支持2個USB3.0接口;后出2路USB3.0接口信號。 

           ● 提供2路RS232后出串口,其中1路可選RS422/RS485模式。 

           ● 提供1路RS232后出CPU管理串口。 

           ● 前面板帶復位按鍵和LED指示燈。 

           ● 單板管理功能(可選功能)。 

           ● 支持銀河麒麟、UOS、Centos、ubuntu、VxWorks系統(tǒng)。 

          (本項目使用ubuntu操作系統(tǒng))

          三、軟件開發(fā)內(nèi)容

          3.1光纖收發(fā)整體流程設計901-04[1].gif


          2路QSFP+光纖接口,一路作為發(fā)送端口,一路作為接收端口,每路接口作為4個X1通道互不影響。
              接收端:數(shù)據(jù)流從光纖接收端進來,存到FPGA的DDR中,然后通過PCIE導入到GPU中。
              發(fā)送端:數(shù)據(jù)存在飛騰主板中,飛騰通過PCIE寫入FPGA的DDR中,F(xiàn)PGA取走數(shù)據(jù),通過光纖發(fā)送端口發(fā)送出去。
              GPU接收的數(shù)據(jù)通過千兆網(wǎng)發(fā)送到飛騰主板中。


          3.2 TLK2711收發(fā)整體流程設計

          901-05[1].gif


           4路TLK2711接口,2路作為發(fā)送端口,2路作為接收端口,每路接口互不影響。
              接收端:數(shù)據(jù)流從TLK2711接收端進來,存到FPGA的DDR中,然后通過PCIE導入到GPU中。
              發(fā)送端:數(shù)據(jù)存在飛騰主板中,飛騰通過PCIE寫入FPGA的DDR中,F(xiàn)PGA取走數(shù)據(jù),通過TLK2711發(fā)送端口發(fā)送出去。
              GPU接收的數(shù)據(jù)通過千兆網(wǎng)發(fā)送到飛騰主板中。
          3.3 FPGA流程框架



          901-06[1].gif

          901-07[1].gif

              如圖所示,F(xiàn)PGA程序可以大體劃分為PCIe端點控制器XDMA、DDR3讀寫控制以及TLK2711收發(fā)控制三部分。FPGA與PC的PCIe通信采用Xilinx的XDMA IP,邏輯模塊間采用AXI總線互聯(lián)方式。XDMA0數(shù)據(jù)鏈路為飛騰主板主控數(shù)據(jù)鏈路,XDMA1數(shù)據(jù)鏈路為Orin_GPU卡主控數(shù)據(jù)鏈路。
                Orin_GPU卡主控數(shù)據(jù)鏈路:tlk2711子卡的接收端口接收到圖像數(shù)據(jù)緩存到第一組ddr3中,大小為4GB,對0-4GB的ddr3空間讀寫,gpu把圖像數(shù)據(jù)讀出并作處理。鏈路數(shù)據(jù)流向分為數(shù)據(jù)發(fā)送(FPGA-PC)(這里飛騰主板和Orin_GPU卡都稱為PC):
                數(shù)據(jù)接收過程描述(FPGA-PC):圖像數(shù)據(jù)以1.6Gbps線速率通過rxp接口,wr_fifo把16bit數(shù)據(jù)位寬轉(zhuǎn)化為128bit數(shù)據(jù)位寬,fdma_ctrl的寫ddr3模塊把數(shù)據(jù)寫入到0-4GB的地址空間,通過定義的寄存器信號告訴主機軟件取出對應地址空間的數(shù)據(jù),通過dma的C2H通道直接寫入主機內(nèi)存。
                飛騰主板主控數(shù)據(jù)鏈路:飛騰主板把圖像處理結果寫入板卡第二組ddr3中,fpga邏輯讀出ddr3中的數(shù)據(jù)通過tlk2711子卡的發(fā)送端口發(fā)送出去。(這里飛騰主板和Orin_GPU卡都稱為PC)。
                數(shù)據(jù)發(fā)送過程描述(PC-FPGA):為了實現(xiàn)數(shù)據(jù)發(fā)送,主機軟件從主機內(nèi)存固定位置讀出圖像處理數(shù)據(jù)發(fā)送到DMA的H2C通道,寫入到板載第二組DDR3的0-4GB的空間,主機軟件通過寄存器通知fdma_ctrl的讀ddr3模塊取出對應地址ddr3的數(shù)據(jù),通過rd_fifo把數(shù)據(jù)128bit位寬變化到16bit后,給到tlk2711子卡的發(fā)送模塊,最后數(shù)據(jù)以1.6Gbps的線速率通過txp口發(fā)送出去。
          3.4 軟件PCIE讀流程


          901-08[1].gif

            軟件啟動開始接收,軟件通過寄存器使能FPGA開始接收數(shù)據(jù)(光纖或者TLK2711數(shù)據(jù)),軟件開始輪詢FPGA寫入完成寄存器,當讀到FPGA完成標志,說明FPGA已經(jīng)寫入數(shù)據(jù),軟件讀取DDR中數(shù)據(jù),完成一次讀取數(shù)據(jù)交互流程。
          之后重復單次流程,直到數(shù)據(jù)接收完整。
          3.5 軟件PCIE寫流程

          901-09[1].gif

               軟件啟動開始發(fā)送數(shù)據(jù)(光纖或者TLK2711數(shù)據(jù)),軟件把數(shù)據(jù)寫入DDR中, 通過寄存器使能FPGA開始發(fā)送,軟件開始輪詢FPGA讀取完成寄存器,當讀到FPGA完成標志,說明FPGA已經(jīng)把DDR的數(shù)據(jù)取走,這樣就完成一次寫入數(shù)據(jù)交互流程。之后重復單次流程,直到數(shù)據(jù)發(fā)送完整。
          3.6飛騰GPU數(shù)據(jù)交互

          901-10[1].gif

          在背板設計中,飛騰主板和GPU千兆網(wǎng)互聯(lián)和RS232互聯(lián)??紤]傳輸速度,使用千兆網(wǎng)進行傳輸。使用TCP/IP協(xié)議,飛騰處理器為TCP服務端,GPU為TCP客戶端主動進行鏈接請求。

          901-11[1].gif

          3.7 客戶端界面

          901-12[1].jpg

            客戶端具有狀態(tài)信息顯示,控制四通道光纖數(shù)據(jù)發(fā)送或者雙通道TLK2711接口數(shù)據(jù)發(fā)生功能。上位機自動識別FPGA子卡類型,切換操作界面。
                
          四通道光纖子卡界面

          901-13[1].jpg

          雙通道TLK2711子卡界面

          901-14[1].jpg

          *博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權請聯(lián)系工作人員刪除。




          技術專區(qū)

          關閉