色婷婷AⅤ一区二区三区|亚洲精品第一国产综合亚AV|久久精品官方网视频|日本28视频香蕉

          "); //-->

          博客專欄

          EEPW首頁(yè) > 博客 > 這顆芯片,又又又又延期了

          這顆芯片,又又又又延期了

          發(fā)布人:旺材芯片 時(shí)間:2024-08-15 來源:工程師 發(fā)布文章

          圖片

          Tachyum 本周表示,其已完成 Prodigy FPGA 仿真系統(tǒng)的最終構(gòu)建,這對(duì)任何設(shè)計(jì)來說都是一個(gè)重要的里程碑。此外,該公司表示,將把其通用 192 核 Prodigy 處理器的生產(chǎn)時(shí)間 從 2024 年推遲到 2025 年,但強(qiáng)調(diào)其仍預(yù)計(jì)明年將全面推出搭載其處理器的服務(wù)器。

           

          Tachyum 創(chuàng)始人兼首席執(zhí)行官 Radoslav Danilak 博士表示:“在明年 Prodigy 處理器流片和量產(chǎn)之前,我們能夠在開發(fā)過程中達(dá)到這個(gè)階段,這是非常令人欣慰的?!?nbsp;

           

          這個(gè)最終硬件原型對(duì)于實(shí)現(xiàn)超過“10 千萬億次可靠性測(cè)試”至關(guān)重要,這是 Tachyum 在 Prodigy 芯片投產(chǎn)前希望達(dá)到的里程碑。這些設(shè)備將有助于確保芯片在全面投產(chǎn)前滿足極高的可靠性要求。

           

          基于 FPGA 的最終版本的主要更新包括支持超過 128 個(gè)內(nèi)核,而去年已升級(jí)到 192 個(gè)內(nèi)核。還進(jìn)行了其他增強(qiáng),以支持更大容量的 DIMM、改進(jìn)調(diào)試過程、通過經(jīng)過修改的 BMC-UEFI 硬件簡(jiǎn)化通信,并更換板對(duì)板連接器以獲得更好的體驗(yàn)。

           

          Danilak 補(bǔ)充道:“我們始終致力于提供世界上最小、最快、最環(huán)保的通用芯片。確保在發(fā)布第一天就實(shí)現(xiàn)這一目標(biāo)一直是我們的首要任務(wù),我們很高興即將發(fā)布這一改變行業(yè)的產(chǎn)品?!?/span>

           

          通用型 Prodigy 處理器有望在通用、圖形和 AI / ML 工作負(fù)載方面同樣表現(xiàn)出色,最初定于 2020 年推出,計(jì)劃于 2019 年流片。然而,它的發(fā)布面臨多次延遲,計(jì)劃從 2021 年推遲到 2022 年,然后推遲到 2023 年,后來又推遲到 2024 年。今年早些時(shí)候,Tachyum 宣布將在 2024 年下半年開始量產(chǎn) Prodigy 處理器,不過這個(gè)模糊的時(shí)間表可能會(huì)延長(zhǎng)到 12 月?,F(xiàn)在,該公司顯然再次更新了計(jì)劃,表明量產(chǎn)將從 2025 年開始,這意味著它很可能無法實(shí)現(xiàn)在 2025 年第一季度開始對(duì)采用 Prodigy 處理器的參考服務(wù)器進(jìn)行抽樣的目標(biāo)。然而,從 Tachyum 最近的公告中仍不清楚該芯片是否有望在 2024 年流片。

           

          Tachyum 聲稱,其處理器在云任務(wù)方面可實(shí)現(xiàn)最高 4.5 倍于頂級(jí) x86 處理器的性能,在高性能計(jì)算方面可實(shí)現(xiàn)最高 3 倍于領(lǐng)先 GPU 的性能,在 AI 應(yīng)用方面可實(shí)現(xiàn)最高 6 倍的性能。然而,盡管有這些雄心勃勃的宣稱,但尚未公開展示任何原型來證實(shí)該處理器的架構(gòu)既能發(fā)揮作用,又能實(shí)現(xiàn)這些結(jié)果。

           

          Tachyum 在流片前打造最后一批 FPGA 原型

           

          Tchyum 日前宣布其 Prodigy  FPGA 仿真系統(tǒng)的最終版本,該版本將于明年芯片生產(chǎn)和全面上市之前發(fā)布。作為公告的一部分,該公司還將終止之前向商業(yè)和聯(lián)邦客戶提供的原型系統(tǒng)購(gòu)買計(jì)劃。

           

          這些最新的硬件 FPGA 原型單元將確保 Tachyum 在流片之前和第一批 Prodigy 芯片上市之前達(dá)到超過 10 千萬億次循環(huán)的極高可靠性測(cè)試目標(biāo)。Tachyum 的軟件仿真系統(tǒng)及其訪問方式正在擴(kuò)展,在 Prodigy 上游之前移植的開源軟件將更加可用。

           

          此最終版本中包含的其他修改包括:

           

          • 在 Tachyum 去年將核心數(shù)量增加到 192 之后,在電路板之間添加信號(hào)以支持增加到 128 個(gè)以上的核心數(shù)量

          • 進(jìn)行了一些小修復(fù)以支持大容量 DIMM

          • 其他調(diào)試改進(jìn)

          • 修改 BMC-UEFI 硬件以簡(jiǎn)化通信

          • 更換板對(duì)板連接器以改善體驗(yàn)


          Tachyum 創(chuàng)始人兼首席執(zhí)行官 Radoslav Danilak 博士表示:“在明年 Prodigy 處理器流片和量產(chǎn)之前,我們達(dá)到了開發(fā)歷程的這一階段,這令人非常欣慰。我們始終堅(jiān)定不移地致力于提供世界上最小、最快、最環(huán)保的通用芯片。確保在發(fā)布的第一天就實(shí)現(xiàn)這一目標(biāo)一直是我們的首要任務(wù),我們很高興能夠推出這一改變行業(yè)的產(chǎn)品?!?/span>

           

          作為一款通用處理器,Prodigy 為所有工作負(fù)載提供業(yè)界領(lǐng)先的性能,它支持?jǐn)?shù)據(jù)中心服務(wù)器,能夠通過單一同質(zhì)架構(gòu)在計(jì)算域(如 AI/ML、HPC 和云)之間無縫且動(dòng)態(tài)地切換。通過消除對(duì)昂貴的專用 AI 硬件的需求并大幅提高服務(wù)器利用率,Prodigy 顯著降低了資本支出和運(yùn)營(yíng)支出,同時(shí)實(shí)現(xiàn)了前所未有的數(shù)據(jù)中心性能、功率和經(jīng)濟(jì)性。Prodigy 集成了 192 個(gè)高性能定制設(shè)計(jì)的 64 位計(jì)算核心,可為云工作負(fù)載提供高達(dá)最高性能 x86 處理器 4.5 倍的性能,為 HPC 提供高達(dá)最高性能 GPU 3 倍的性能,為 AI 應(yīng)用提供 6 倍的性能。

           

          從零開始打造通用處理器

           

          在過去幾年的時(shí)間里,人們一直在談?wù)摷铀儆?jì)算將成為新常態(tài),以及數(shù)據(jù)中心通用處理器時(shí)代已經(jīng)結(jié)束,這是有充分理由的。我們已經(jīng)沒有辦法在單個(gè)設(shè)備上以高效且經(jīng)濟(jì)的方式完成應(yīng)用程序所需的所有復(fù)雜處理。

           

          2020年,我們進(jìn)行了一次思想實(shí)驗(yàn),探討如何針對(duì)特定目的精簡(jiǎn)芯片,將它們編織在單個(gè)封裝內(nèi)或跨插槽和節(jié)點(diǎn),共同設(shè)計(jì)以專門運(yùn)行非常精確的工作流程,因?yàn)槿魏瓮ㄓ锰幚砥鳎ɑ旌?CPU、GPU、TPU、NNP 和 FPGA 的元素)在除批量經(jīng)濟(jì)性之外的所有方面都不是最優(yōu)的。我們認(rèn)為,這種針對(duì)數(shù)據(jù)中心計(jì)算的極端共同設(shè)計(jì)是世界最終的發(fā)展方向,我們只是將芯片架構(gòu)和互連結(jié)合在一起以實(shí)現(xiàn)這一目標(biāo)。

           

          處理器新貴 Tachyum 的聯(lián)合創(chuàng)始人兼首席執(zhí)行官 Radoslav Danilak對(duì)此完全不以為然。事實(shí)上,Tachyum 設(shè)計(jì)的 Prodigy “通用處理器”正朝著完全相反的方向發(fā)展。

           

          Danilak 表示,解決現(xiàn)代處理器設(shè)計(jì)中的臃腫和布線問題可以實(shí)現(xiàn)一個(gè)獨(dú)立、完整、集成的處理器,他認(rèn)為這種處理器可以完成我們認(rèn)為需要一系列快速整數(shù) CPU 引擎、GPU 或 FPGA 浮點(diǎn)引擎和 NNP 矩陣數(shù)學(xué)引擎才能完成的工作,所有這些都通過跨越socket和盒子的高速互連連接在一起。(但不要稱其為混合芯片,因?yàn)?Tachyum 會(huì)就此與你爭(zhēng)論。)雖然我們?nèi)匀徽J(rèn)為將計(jì)算組件以固定比例鎖定在每?jī)傻饺旮乱淮蔚膯蝹€(gè)芯片中(迫使它們以相同的速度發(fā)展)與嘗試打包不同風(fēng)格和容量的 chiplet 計(jì)算單元集合一樣危險(xiǎn),但我們也欽佩 Danilak 和聯(lián)合創(chuàng)始人首席架構(gòu)師 Rod Mullendore 和軟件副總裁 Igor Shevlyakov 設(shè)計(jì)的優(yōu)雅,以及他們?yōu)閿?shù)據(jù)中心計(jì)算帶來的雄心。

           

          在 21 世紀(jì)的第二個(gè)十年推出一款新處理器需要一定的自尊心和大量的實(shí)踐經(jīng)驗(yàn)。這是一個(gè)艱難的市場(chǎng),我們已經(jīng)看到計(jì)算設(shè)備的激增,這令人欣喜。但并不是每個(gè)人都能成功,情況總是如此。幸運(yùn)的是,有風(fēng)險(xiǎn)投資資金可供使用,人們?cè)敢庋鹤⒛軌蛟O(shè)計(jì)新東西的人。

           

          Tachyum 總部位于加利福尼亞州圣克拉拉,在斯洛伐克布拉迪斯拉發(fā)設(shè)有開發(fā)實(shí)驗(yàn)室,其團(tuán)隊(duì)中有許多經(jīng)驗(yàn)豐富的工程師和高管。早在互聯(lián)網(wǎng)泡沫初期,Danilak 就設(shè)計(jì)了自己的超長(zhǎng)指令字 (VLIW) 處理器,幾年后,他為一家名為 Gizmo Technology 的公司(我們從未聽說過他的芯片)創(chuàng)建了一款具有 64 位處理和內(nèi)存的無序執(zhí)行 X86 處理器,之后在東芝擔(dān)任東芝 7901 芯片的首席架構(gòu)師,該芯片是 PlayStation2 游戲機(jī)中使用的 MIPS R5900 Emotion Engine 處理器的一個(gè)變體,可能還用于各種東芝微控制器和電子產(chǎn)品。

           

          Danilak 在 Nishan Systems 做了一年的項(xiàng)目,創(chuàng)建了一個(gè)單芯片網(wǎng)絡(luò)處理單元 (NPU),該單元整合了 20 種不同芯片的功能,之后他擔(dān)任 Nvidia 的高級(jí)架構(gòu)師,設(shè)計(jì) nForce 4 GPU 和“Fermi”第一代 Tesla GPU 加速器的功能。2007 年離開 Nvidia 之后,就在 GPU 加速浪潮即將興起之際,Danilak 找到了閃存制造商 SandForce,并創(chuàng)建了其自主研發(fā)的閃存控制器;2010 年,SandForce 以 3.77 億美元的價(jià)格賣給了 LSI Logic。之后,Danilak 與他人共同創(chuàng)立了全閃存陣列制造商 Skyera,西部數(shù)據(jù)于 2015 年夏天以未公開的價(jià)格收購(gòu)了該公司。在尋找新想法的一年里,Danilak 于 2016 年 9 月與 Mullendore 和 Igor Shevlyakov 共同創(chuàng)立了 Tachyum。

           

          需要一個(gè)團(tuán)隊(duì)來創(chuàng)建處理器、軟件堆棧并將其推向潛在客戶,而 Tachyum 團(tuán)隊(duì)在這方面經(jīng)驗(yàn)豐富。在互聯(lián)網(wǎng)泡沫期間和之后,Mullendore 是 Nishan Systems 的高級(jí)架構(gòu)工程師,之后他為存儲(chǔ)區(qū)域網(wǎng)絡(luò)交換機(jī)制造商 McData 工作過,當(dāng)時(shí) McData 是 EMC 的一部分,后來被出售給 Brocade Communications,收購(gòu)后他留了一段時(shí)間。Mullendore 隨后擔(dān)任 SandForce 的首席架構(gòu)工程師,然后他跟隨 Danilak 來到 Skyera,現(xiàn)在又來到 Tachyum。

           

          Tachyum 的另一位聯(lián)合創(chuàng)始人 Shevlyakov 于 1990 年代初開始擔(dān)任軟件工程師,然后在互聯(lián)網(wǎng)泡沫初期在俄羅斯的多家初創(chuàng)公司專注于編譯器,在 1999 年至 2001 年的巔峰時(shí)期,他是實(shí)時(shí)操作系統(tǒng)制造商 Wind River 的高級(jí)編譯器工程師。隨后,Shevlyakov 在 MicroUnity 工作了十幾年,該公司開發(fā)了一種名為 BroadMX 的 RISC/SIMD 處理器,旨在用于網(wǎng)絡(luò)處理工作,他將 GNU 開源工具鏈移植到該處理器上。他與 Danilak 和 Mullendore 一起加入了 Skyera,在那里他將 GNU 工具鏈移植到公司創(chuàng)建的專有芯片上,以控制閃存,并致力于全閃存陣列中的閃存轉(zhuǎn)換層的研究。西部數(shù)據(jù)收購(gòu) Skyera 后,Shevlyakov 繼續(xù)與他的聯(lián)合創(chuàng)始人合作,負(fù)責(zé) Tachyum 的軟件堆棧。

           

          業(yè)務(wù)開發(fā)副總裁 Ken Wagner 也是聯(lián)合創(chuàng)始人,曾就職于多家硅片初創(chuàng)公司;系統(tǒng)工程副總裁 Kiran Malwankar 是橫向擴(kuò)展存儲(chǔ)制造商 Pavilion Data Systems 的創(chuàng)始人;超級(jí)計(jì)算機(jī)制造商 Encore Computer 和 Kendall Square 的聯(lián)合創(chuàng)始人、AMD 首席技術(shù)官 Fred Weber 是顧問;曼徹斯特大學(xué)計(jì)算機(jī)科學(xué)教授 Steve Furber 也是顧問,他在 1980 年代設(shè)計(jì)了我們所知的 Arm 的第一款 32 位 Acorn RISC Machines 處理器;分布式系統(tǒng)專家 Christos Kozyrakis 經(jīng)常與 Google 合作,他也是斯坦福大學(xué)教授,也是顧問。

           

          Prodigy 芯片的設(shè)計(jì)已經(jīng)進(jìn)行了好幾年,該公司擁有一個(gè)內(nèi)部 System C 模擬器,可用于內(nèi)部開發(fā)和基準(zhǔn)測(cè)試。FPGA 硬件模擬器將于秋季推出,供研究使用,因?yàn)樗麄冇?jì)劃在年底完成流片。(它已經(jīng)推遲了好幾次,但這對(duì)于一般芯片,尤其是第一代芯片來說,都是正常的。)與當(dāng)今許多先進(jìn)芯片一樣,它采用臺(tái)灣半導(dǎo)體制造公司的 7 納米工藝蝕刻而成。這種先進(jìn)的制造工藝使其能夠?qū)⒋罅拷M件塞進(jìn) 290 平方毫米的設(shè)備中。

           

          有趣的是,該設(shè)計(jì)集中于將電路塊連接在一起的電線,然后將 Tachyum 認(rèn)為合適的組件比例組合在一起,以吸引超大規(guī)模計(jì)算企業(yè)、高性能計(jì)算中心以及機(jī)器學(xué)習(xí)和推理農(nóng)場(chǎng)。Danilak 說,問題在于電線越來越慢了。以下是一些熟悉的圖表:Danilak告訴The Next Platform。

           

          圖片


          “我們的時(shí)鐘速度性能穩(wěn)定在穩(wěn)定期,每個(gè)核心的性能并沒有增加太多。核心數(shù)量在增加,但由于散熱問題,我們也在降低時(shí)鐘速度。所有晶體管都更快,但問題是電線越來越細(xì),電阻越來越大,因此電線延遲也在增加。以前的芯片延遲是每毫米 100 皮秒,而現(xiàn)在則是每毫米 1,000 皮秒?!?/span>

           

          當(dāng)然,導(dǎo)線電阻會(huì)產(chǎn)生熱量,但也會(huì)產(chǎn)生延遲,因此,根據(jù) Danilak 的說法,訣竅是讓導(dǎo)線盡可能短。這樣,您可以比以前更快地為芯片提供時(shí)鐘,同時(shí)還可以減少總計(jì)算時(shí)間(獲取數(shù)據(jù)的時(shí)間加上處理數(shù)據(jù)的時(shí)間),從而完成更多工作。訣竅是從芯片上運(yùn)行的工作負(fù)載中提取并行性,從而讓導(dǎo)線延遲計(jì)算時(shí)間(就像緩存層次結(jié)構(gòu)掩蓋標(biāo)準(zhǔn)處理器中的計(jì)算延遲一樣),這需要一些巧妙的編譯器工作——因此,Shevlyakov 擁有如此豐富的編譯器經(jīng)驗(yàn)。

           

          事不宜遲,以下是 Prodigy 芯片的裸片照片:

           

          圖片


          Danilak 大膽宣稱:“每個(gè)核心都比 Xeon 核心或 Epyc 核心更快,并且比 Arm 核心更小,總體而言,我們的芯片在 HPC 和 AI 上比 GPU 更快?!?/span>

           

          我們必須對(duì)該句中“快”的定義進(jìn)行仔細(xì)研究,但顯然,隨著 Tachyum 將 Prodigy-1 芯片的時(shí)鐘速度提高到 4 GHz,這比英特爾、AMD、Ampere Computing 和 Marvell 的頂級(jí)部件要快得多,并且與 IBM 在其 Power9 系列中生產(chǎn)的最快芯片相當(dāng)。

           

          Prodigy 芯片采用臺(tái)積電的 7 納米 FinFET 工藝的標(biāo)準(zhǔn)單元和 SRAM,該工藝具有 12 個(gè)金屬層,工作電壓為 0.825 伏。

           

          處理器流水線的亂序執(zhí)行由編譯器處理,而不是硬件處理,因此關(guān)于這是一個(gè)有序處理器還是亂序處理器存在一些爭(zhēng)議。Danilak 表示,Prodigy 芯片中的指令并行性是使用毒位提取的,這種技術(shù)在 Itanium 芯片中很流行,該核心在某些方面與 Itanium 芯片相似,并且還用于 Nvidia GPU。Prodigy 指令集為 32 個(gè) 64 位整數(shù)寄存器和 32 個(gè)矢量寄存器(寬度可以是 256 位或 512 位),外加 7 個(gè)矢量掩碼寄存器。顯式并行性(再次呼應(yīng) Itanium)由編譯器提取,指令被捆綁成 3、8、12 或 16 字節(jié)的大小。管道每個(gè)周期可以執(zhí)行兩次加載、兩次乘加、一次存儲(chǔ)、一次地址遞增、一次比較和一次分支 - 即每個(gè)周期八個(gè) RISC-y 微操作,平均每個(gè)周期 1.72 條指令 -我們認(rèn)為“Skylake”Xeon SP 核心可以做到這一點(diǎn),而 Tachyum 實(shí)際上在其自己的圖表中引用了我們的數(shù)據(jù),這些數(shù)據(jù)來自多年來從英特爾拼湊起來的有關(guān) IPC 的信息。

           

          64 個(gè)內(nèi)核分布在四個(gè) 16 核冗余塊中,所有內(nèi)核都通過其 L3 緩存通過網(wǎng)狀互連連接;內(nèi)存控制器通過與緩存不同的網(wǎng)狀互連連接到內(nèi)核,以避免網(wǎng)狀擁塞。每個(gè)四核都有一對(duì)內(nèi)存控制器,它們將支持 DDR4 或 DDR5 內(nèi)存協(xié)議,以及在 SerDes 中實(shí)現(xiàn)的 18 條 PCI-Express 5.0 外圍互連通道。在典型配置中,這些 SerDes 將用于實(shí)現(xiàn)每個(gè)四核的單個(gè) PCI-Express 5.0 x16 以及一對(duì) 400 Gb/秒以太網(wǎng)控制器,但配置是靈活的。可以選擇為這些芯片添加 HBM3 內(nèi)存,這是針對(duì) HPC 和 AI 工作負(fù)載的高端產(chǎn)品線的預(yù)期,這些工作負(fù)載的內(nèi)存帶寬需求高于 DDR4 甚至 DDR5 所能滿足的內(nèi)存帶寬需求。但不要認(rèn)為這會(huì)成為主流的 Prodigy 部件,也不要認(rèn)為它會(huì)很便宜。

           

          Danilak 表示,在 8 通道 DDR5 內(nèi)存的情況下,當(dāng)前的 HBM2 內(nèi)存只能提供大約 2 倍的內(nèi)存帶寬,而且麻煩得多?!皫捥幱诳杀确秶鷥?nèi)”,這正是 IBM 對(duì)Power9' 和 Power10 處理器配備的增強(qiáng)型 DDR4 和 DDR5 內(nèi)存的評(píng)價(jià)。

           

          現(xiàn)在,讓我們深入了解 Prodigy 核心:

           

          圖片


          與其他核心設(shè)計(jì)相比,L1 緩存有點(diǎn)小,數(shù)據(jù)緩存為 16 KB,指令緩存為 16 KB,但核心上的 256 KB L2 緩存和核心上的 512 KB L3 緩存切片(它們交織在一起為整個(gè)芯片創(chuàng)建一個(gè)巨大的 32 MB 共享 L3 緩存)完全正常。如您所見,整數(shù)管道深度為九級(jí),矢量管道又增加了五級(jí)。

           

          現(xiàn)在讓我們?yōu)槟切┫矚g這些東西的人介紹一下詳細(xì)情況。以下是 Prodigy 核心處理指令獲取的方式:

           

          圖片


          指令執(zhí)行的流程如下:

           

          圖片


          這是 Prodigy 芯片緩存層次的實(shí)際運(yùn)行情況:

           

          圖片


          以下是向量和矩陣數(shù)學(xué)單元的布局和工作方式:

           

          圖片


          從這些圖表中我們可以看出有幾件事。

           

          在從 L3 緩存到 DDR5 和 HBM3 內(nèi)存的鏈路上,DDR5 內(nèi)存的總帶寬為 410 GB/秒,HBM3 內(nèi)存的總帶寬為 1 TB/秒。您確實(shí)需要 2 倍的帶寬才能為 HBM3 支付額外費(fèi)用 - 而且許多 AI 和 HPC 工作負(fù)載將從中受益,因?yàn)樗鼈冎饕芟抻趦?nèi)存帶寬,而不是計(jì)算 - 這就是我們將這些應(yīng)用程序分片并將它們放在如此多的服務(wù)器節(jié)點(diǎn)上的原因。

           

          矢量單元將支持普通雙精度 64 位 FP64 和單精度 32 位 FP32 運(yùn)算,以及半精度 16 位 FP16 以及 16 位 bfloat16(由 Google 發(fā)明)和 8 位浮點(diǎn)(Tachyum 發(fā)明的專有格式)。矢量單元還支持 INT8、INT16 和 INT32 整數(shù)運(yùn)算。這些矢量單元上還可以部署矩陣運(yùn)算,允許對(duì) FP32 和 FP64 數(shù)據(jù)進(jìn)行 4×4 矩陣乘法運(yùn)算,以及可以在 16 位或 8 位整數(shù)或浮點(diǎn)數(shù)據(jù)上運(yùn)行的 8×8 矩陣乘法運(yùn)算。矢量的這種雙重任務(wù)確實(shí)非常有趣,Tachyum 暗示它可以在未來的處理器中將性能提高一倍。我們需要更深入地理解這一點(diǎn),但看起來四個(gè) 512 位 SIMD 單元可以根據(jù)需要作為矢量或張量核心運(yùn)行,這為這兩種不同的數(shù)學(xué)運(yùn)算方式釋放了芯片空間。相比之下,Nvidia 的“Volta”和“Turing”GPU 具有不同種類和數(shù)量的整數(shù)、浮點(diǎn)和張量核心單元。

           

          在 Danilak 看來,浮點(diǎn)乘加單元本質(zhì)上是一樣的——Nvidia 并不比其他公司更懂得如何做到這一點(diǎn),他說。GPU 運(yùn)行在 1.3 GHz 到 1.5 GHz 的頻率下,而 CPU 乘加單元運(yùn)行在 2.5 GHz 到 3 GHz 甚至有時(shí) 4 GHz 的頻率下,它們提供的性能基本相同。

           

          “CPU、GPU 和 TPU 的不同之處在于控制和計(jì)算能力的攤銷?!焙?jiǎn)單來說,warp 有 32 個(gè)線程,運(yùn)行速度大約是 Xeon 芯片中 AVX2 矢量單元的一半到三分之一,而后者可以執(zhí)行四個(gè)“線程”浮點(diǎn)運(yùn)算,功耗大約是后者的三分之一到四分之一。X86 芯片的分支預(yù)測(cè)非常昂貴,解碼非常復(fù)雜。所有這些都增加了功耗,但性能比前幾代 X86 芯片更好,但代價(jià)是不斷降低時(shí)鐘速度和增加線程。您可以遷移到 AVX-512 并獲得兩倍寬的矢量,但您必須移動(dòng)得更慢。Prodigy 芯片的理念是擁有一種介于 CPU 和 GPU 之間的架構(gòu),去掉所有遺留的東西,盡可能縮短核心和其他元素之間的所有線路,以減少延遲,提高芯片上的時(shí)鐘和網(wǎng)狀結(jié)構(gòu)速度,并提高整體性能,大概也是更劃算的。

           

          Prodigy“通用處理器”系列的初始 SKU 如下:

           

          圖片


          根據(jù)他們的最初計(jì)劃,在 2020 年第一季度推出一款具有 128 個(gè)內(nèi)核和四個(gè) HBM 堆棧的雙處理器機(jī)器,然后在 2020 年第二季度推出一款具有 64 個(gè)內(nèi)核和八個(gè) DDR4 內(nèi)存控制器的單芯片,然后在 2020 年第三季度推出一款具有四個(gè) DDR4 內(nèi)存控制器的 32 核芯片。目前尚不清楚這是否仍然是推出的節(jié)奏,但時(shí)間顯然已經(jīng)推遲。

           

          Tachyum 尚未確定價(jià)格,但有一些想法。Danilak 表示,標(biāo)準(zhǔn) DDR4/DDR5 Prodigy SKU 的價(jià)格將在幾百美元到幾千美元之間,而配備 32 GB HBM3 內(nèi)存的高端產(chǎn)品預(yù)計(jì)價(jià)格將低于 10,000 美元,性價(jià)比是 CPU 或 GPU 替代品的 3 倍(非?;\統(tǒng)地說)。


          來源:半導(dǎo)體行業(yè)觀察


          *博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。



          關(guān)鍵詞: 芯片

          相關(guān)推薦

          技術(shù)專區(qū)

          關(guān)閉