基于Altera浮點(diǎn)IP核實(shí)現(xiàn)浮點(diǎn)矩陣相乘運(yùn)算的改進(jìn)設(shè)
3.2 計(jì)算結(jié)果仿真
對(duì)改進(jìn)的設(shè)計(jì)進(jìn)行仿真,采用A9×16數(shù)據(jù)與B16×8數(shù)據(jù)相乘,獲得計(jì)算結(jié)果仿真如圖4所示。
從圖4可見(jiàn),loadaa、loadbb、calcimatrix三者的時(shí)序滿足浮點(diǎn)矩陣運(yùn)算的時(shí)序要求,在前兩者數(shù)據(jù)加載后,加載calcimatrix上升沿,進(jìn)行矩陣相乘。在outvalid為高電平時(shí)輸出數(shù)據(jù),同時(shí)完成信號(hào)done輸出低電平。在輸出結(jié)果上,共分為9個(gè)大組,各大組有8個(gè)數(shù)據(jù),共組成72個(gè)數(shù)據(jù)結(jié)果,其中顯示了第一部分輸出結(jié)果,獲得與Matlab仿真相近的計(jì)算結(jié)果,在精度上相差不到萬(wàn)分之一。
從表1中可以看出,改進(jìn)后的IP核在處理時(shí)間上縮短了807個(gè)周期,同時(shí)在最高運(yùn)行時(shí)鐘上提升了15%,系統(tǒng)整體的持續(xù)性能增加了7.2 Gflops。
依據(jù)改進(jìn)前后的IP核,使用Quartus9.1軟件進(jìn)行綜合布局布線,映射到Stratix Ⅲ EP3SE110F780C2器件中,可獲得相應(yīng)的資源對(duì)比圖如圖5所示。由于采用的都是并行浮點(diǎn)乘加運(yùn)算,所以在乘法器資源的消耗上不變;同時(shí)由于只是在存儲(chǔ)器的存儲(chǔ)方式上作出變動(dòng),所以二者的存儲(chǔ)資源相等。從而只需要對(duì)圖中顯示的矩陣階數(shù)、vectorsize大小進(jìn)行比較即可,而浮點(diǎn)計(jì)算性能與最高時(shí)鐘頻率變化方向相同,所以只對(duì)ALM數(shù)量及最高時(shí)鐘頻率進(jìn)行對(duì)比。
從圖5中資源消耗對(duì)比可見(jiàn),當(dāng)設(shè)定vectorsize為固定值8(圖5左半部)時(shí),隨著矩陣階數(shù)的增加,改進(jìn)后的IP核在ALM資源消耗上較改進(jìn)前數(shù)量上有一定的減少,在最高時(shí)鐘頻率上都有小幅度提升,這是因?yàn)榫仃囕斎霑r(shí)消耗時(shí)間過(guò)長(zhǎng);當(dāng)設(shè)定矩陣階數(shù)為192×192(圖5右半部)時(shí),隨著vectorsize值的增加,改進(jìn)后IP核在ALM數(shù)量上有所減小,在最高時(shí)鐘頻率上則有小幅度提升,且波動(dòng)幅度在3.4%左右??梢?jiàn),改進(jìn)后IP核比原Altera的IP核綜合性能有所提升。
塵埃粒子計(jì)數(shù)器相關(guān)文章:塵埃粒子計(jì)數(shù)器原理
評(píng)論