研華支持采用了 AMD Fusion APU 的豐富顯示應(yīng)用
DirectCompute和OpenCL
本文引用地址:http://cafeforensic.com/article/125458.htmOpenCL和DirectCompute這兩種開創(chuàng)性的根據(jù)幫助開發(fā)人員從單線程標(biāo)量軟件轉(zhuǎn)向了多相處數(shù)據(jù)并行軟件應(yīng)用。自從AMD收購ATI的3年里,通過GPU硬件加速應(yīng)用的開發(fā)人員所使用的根據(jù)也經(jīng)歷了巨大變革。2007年以前,除了3D應(yīng)用以外,開發(fā)人員的其它應(yīng)用都局限在使用Radeon卡或FirePro加速器。然后,AMD首創(chuàng)推出了“CloseTo Metal”(CTM)接口為早期的GPU計(jì)算先驅(qū)們提供了一系列低階的專用接口,可用于開發(fā)GPU加速應(yīng)用。
一年后,AMD擴(kuò)大了GPU軟件工具包,發(fā)布了ATI Stream S D K 和 B r o o k+,是一種開源的類似于C語言的工具,可使用于計(jì)算任務(wù)的AMD GPU的使用更簡化。 2010年,Khronos Group發(fā)布了跨平臺標(biāo)準(zhǔn)進(jìn)行并行計(jì)算的OpenCL,以及DirectCompute這一可輔助GPU計(jì)算應(yīng)用的 Windows DirectX API。OEM目前在GPU計(jì)算中已經(jīng)有了2個(gè)標(biāo)準(zhǔn)工具選項(xiàng)。DirectCompute的數(shù)據(jù)結(jié)構(gòu)兼容DirectX 10和DirectX 11應(yīng)用編程接口(APi)并簡化了向上述嵌入式應(yīng)用添加GPU加速的進(jìn)程。
不使用Windows的OEM也可以選擇OpenCL,尤其是已經(jīng)采用相似OpenGL處理獨(dú)立顯卡的情況。OpenCL支持?jǐn)?shù)據(jù)并行(如SIMD)和任務(wù)并行執(zhí)行2種模式。它采用兼容 OpenGL API 的數(shù)據(jù)結(jié)構(gòu),因此可以簡化向 OpenGL 應(yīng)用添加GPU計(jì)算加速的步驟。AMD的OpenCL編譯器支持Radeon 4000 和 5000系列GPU和多核 x86 處理器系列。
APU信號是集成的重大突破
AMD Fusion家族處理器采用了APU(加速處理單元),因?yàn)?a class="contentlabel" href="http://cafeforensic.com/news/listbylabel/label/APU">APU集成了CPU和離散GPU,在降低功耗的同時(shí)提升了圖形數(shù)據(jù)帶寬。
盡管APU的標(biāo)量x86內(nèi)核和SIMD引擎共享系統(tǒng)內(nèi)存的共同路徑,AMD的第一代設(shè)計(jì)將該內(nèi)存分為多個(gè)區(qū)域,一部分由運(yùn)行x86內(nèi)核的操作系統(tǒng)管理,其它區(qū)域由運(yùn)行SIMD引擎的軟件管理。AMD供應(yīng)商提供了高速區(qū)塊傳輸引擎,可在x86和SIMD內(nèi)存分區(qū)之間移動數(shù)據(jù)。 與外圍框架緩存和系統(tǒng)內(nèi)存之間的傳輸不同的是,這種傳輸從不會占用系統(tǒng)外部總線。軟件開發(fā)人員可在其它區(qū)塊執(zhí)行數(shù)據(jù)傳輸?shù)耐瑫r(shí),對SIMD內(nèi)存進(jìn)行數(shù)據(jù)存取操作。 Insight 64預(yù)測將來APU架構(gòu)將發(fā)展成為更加無縫內(nèi)存管理模式,允許更高級的性能擴(kuò)展。
AMD架構(gòu)將x86核心和GPU核心集成到了耽擱芯片,以技術(shù)為主導(dǎo)的OEM即可將向量運(yùn)算整合到之前受到傳統(tǒng)多核CPU計(jì)算性能限制的程序中。向量設(shè)計(jì)強(qiáng)調(diào)單指令多數(shù)據(jù)(SIMD)操作,旨在為計(jì)算密集型應(yīng)用提供更優(yōu)越的性能。
總體系統(tǒng)性能也因?yàn)樘砑恿穗x散GPU而提高。至今為止,晶體管的數(shù)量限制主要源于授權(quán)的雙芯片解決方案。 APU的86 CPU核心和SIMD GPU引擎共享系統(tǒng)內(nèi)存的公共路徑,可有效防止這些限制。經(jīng)過多年的辯論后,已經(jīng)明了的是雙方都是正確的;現(xiàn)在已經(jīng)不是“非此即彼”,而是“既/又”的情形。一些在數(shù)值上密集的問題可交給并行算法,其他的則不需要。當(dāng)優(yōu)化后用于并行計(jì)算的設(shè)備不能以并行方式運(yùn)算時(shí),設(shè)備將做誒無效的標(biāo)量處理器使用,且該設(shè)備的打過書并行計(jì)算都將專為空閑。 相反的,優(yōu)化后用于標(biāo)量計(jì)算的處理器在很多算法中不能進(jìn)行并行計(jì)算,因此受到標(biāo)量處理速度的限制。標(biāo)量處理器每次在數(shù)據(jù)陣列中運(yùn)行一個(gè)元素。向量處理器,例如用在高級GPU中的,則可以同時(shí)支持?jǐn)?shù)十個(gè)、甚至數(shù)百個(gè)計(jì)算單元同時(shí)計(jì)算。
評論