清華大學(xué)在支持片上學(xué)習(xí)的憶阻器存算一體芯片領(lǐng)域取得重大突破
當(dāng)前,生成式人工智能已引爆新一輪智能革命的發(fā)展浪潮,大算力支撐下的人工智能技術(shù)極大改變著人類的生產(chǎn)生活方式??呻S之而來的海量參數(shù)令算力需求持續(xù)攀升,如何解決龐大的算力缺口,實現(xiàn)能效比的大幅提升,正在變得日益迫切。高算力、高能效芯片作為算力的具體載體,已成為驅(qū)動本輪智能革命發(fā)展的核心底座,更是推動人類社會不斷發(fā)展的動力源泉。
本文引用地址:http://cafeforensic.com/article/202309/450640.htm面向傳統(tǒng)存算分離架構(gòu)制約算力提升的重大挑戰(zhàn),集成電路學(xué)院吳華強教授、高濱副教授聚焦憶阻器存算一體技術(shù)研究,探索實現(xiàn)計算機(jī)系統(tǒng)新范式。憶阻器存算一體技術(shù)從底層器件、電路架構(gòu)和計算理論全面顛覆了馮·諾依曼傳統(tǒng)計算架構(gòu),可實現(xiàn)算力和能效的跨越式提升,同時,該技術(shù)還可利用底層器件的學(xué)習(xí)特性,支持實時片上學(xué)習(xí),賦能基于本地學(xué)習(xí)的邊緣訓(xùn)練新場景。當(dāng)前國際上的相關(guān)研究主要集中在憶阻器陣列層面的學(xué)習(xí)功能演示,然而實現(xiàn)全系統(tǒng)集成的、支持高效片上學(xué)習(xí)的憶阻器芯片仍面臨較大挑戰(zhàn),至今還未實現(xiàn),主要在于傳統(tǒng)的反向傳播訓(xùn)練算法所要求的高精度權(quán)重更新方式與憶阻器實際特性的適配性較差。
為解決上述難題,課題組基于存算一體計算范式,創(chuàng)造性提出適配憶阻器存算一體實現(xiàn)高效片上學(xué)習(xí)的新型通用算法和架構(gòu)(STELLAR),有效實現(xiàn)大規(guī)模模擬型憶阻器陣列與 CMOS 的單片三維集成,通過算法、架構(gòu)、集成方式的全流程協(xié)同創(chuàng)新,研制出全球首顆全系統(tǒng)集成的、支持高效片上學(xué)習(xí)的憶阻器存算一體芯片。該芯片包含支持完整片上學(xué)習(xí)所必需的全部電路模塊,成功完成圖像分類、語音識別和控制任務(wù)等多種片上增量學(xué)習(xí)功能驗證,展示出高適應(yīng)性、高能效、高通用性、高準(zhǔn)確率等特點,有效強化了智能設(shè)備在實際應(yīng)用場景下的學(xué)習(xí)適應(yīng)能力。相同任務(wù)下,該芯片實現(xiàn)片上學(xué)習(xí)的能耗僅為先進(jìn)工藝下專用集成電路(ASIC)系統(tǒng)的 3%,展現(xiàn)出卓越的能效優(yōu)勢,極具滿足人工智能時代高算力需求的應(yīng)用潛力,為突破馮·諾依曼傳統(tǒng)計算架構(gòu)下的能效瓶頸提供了一種創(chuàng)新發(fā)展路徑。
圖一:憶阻器存算一體芯片及測試系統(tǒng)
圖二:基于憶阻器存算一體, 實現(xiàn)高效片上學(xué)習(xí)的通用算法和架構(gòu)
該研究成果以「面向邊緣學(xué)習(xí)的全集成類腦憶阻器芯片」(Edge Learning Using a Fully Integrated Neuro-Inspired Memristor Chip)為題在線發(fā)表在《科學(xué)》(Science)上。
論文通訊作者為清華大學(xué)集成電路學(xué)院高濱副教授和吳華強教授,清華大學(xué)集成電路學(xué)院博士生張文彬、博士后姚鵬為論文的共同第一作者,其他參加研究的作者包括清華大學(xué)集成電路學(xué)院錢鶴教授、唐建石副教授、伍冬副研究員、張清天助理研究員,清華大學(xué)電子系汪玉教授等。
該研究得到科技部科技創(chuàng)新 2030「腦科學(xué)與類腦研究」重大項目、國家自然科學(xué)基金委后摩爾重大研究計劃、北京集成電路高精尖創(chuàng)新中心等支持。
論文鏈接
https://www.science.org/doi/full/10.1126/science.ade3483
清華大學(xué)集成電路學(xué)院錢鶴、吳華強教授團(tuán)隊長期致力于基于憶阻器的存算一體技術(shù)研究,從器件制備、工藝集成、電路設(shè)計及架構(gòu)與算法優(yōu)化等多層次實現(xiàn)創(chuàng)新突破,先后在《自然》(Nature)、《科學(xué)》(Science)、《自然·納米技術(shù)》(Nature Nanotechnology)、《自然·電子》(Nature Electronics)、《自然·機(jī)器智能》(Nature Machine Intelligence)等頂級期刊以及國際電子器件會議(IEDM)、國際固態(tài)半導(dǎo)體電路大會(ISSCC)等領(lǐng)域內(nèi)頂級國際學(xué)術(shù)會議上發(fā)表多篇論文。高濱課題組作為團(tuán)隊重要研究力量,長期從事憶阻器性能優(yōu)化和存算一體芯片設(shè)計方法的相關(guān)研究,成功開發(fā)了從器件到系統(tǒng)的聯(lián)合仿真工具和協(xié)同優(yōu)化方法,設(shè)計出計算精度大于 95%、能效大于 78TOPs/W 的高性能憶阻器存算一體芯片。
什么是存算一體?
存算一體(Computing in Memory)是在存儲器中嵌入計算能力,以新的運算架構(gòu)進(jìn)行二維和三維矩陣乘法/加法運算。
存算一體技術(shù)概念的形成,最早可以追溯到上個世紀(jì) 70 年代。隨著近幾年云計算和人工智能(AI)應(yīng)用的發(fā)展,面對計算中心的數(shù)據(jù)洪流,數(shù)據(jù)搬運慢、搬運能耗大等問題成為了計算的關(guān)鍵瓶頸。
在過去二十年,處理器性能以每年大約 55% 的速度提升,內(nèi)存性能的提升速度每年只有 10% 左右。結(jié)果長期下來,不均衡的發(fā)展速度造成了當(dāng)前的存儲速度嚴(yán)重滯后于處理器的計算速度。
在傳統(tǒng)計算機(jī)的設(shè)定里,存儲模塊是為計算服務(wù)的,因此設(shè)計上會考慮存儲與計算的分離與優(yōu)先級。但是如今,存儲和計算不得不整體考慮,以最佳的配合方式為數(shù)據(jù)采集、傳輸和處理服務(wù)。這里面,存儲與計算的再分配過程就會面臨各種問題,而它們主要體現(xiàn)為存儲墻、帶寬墻和功耗墻問題。
雖然多核(例如 CPU)/眾核(例如 GPU)并行加速技術(shù)也能提升算力,但在后摩爾時代,存儲帶寬制約了計算系統(tǒng)的有效帶寬,芯片算力增長步履維艱。
從處理單元外的存儲器提取數(shù)據(jù),搬運時間往往是運算時間的成百上千倍,整個過程的無用能耗大概在 60%-90% 之間,能效非常低,「存儲墻」成為了數(shù)據(jù)計算應(yīng)用的一大障礙。特別是,深度學(xué)習(xí)加速的最大挑戰(zhàn)就是數(shù)據(jù)在計算單元和存儲單元之間頻繁的移動。
存內(nèi)計算和存內(nèi)邏輯,即存算一體技術(shù)直接利用存儲器進(jìn)行數(shù)據(jù)處理或計算,從而把數(shù)據(jù)存儲與計算融合在同一個芯片的同一片區(qū)之中,可以徹底消除馮諾依曼計算架構(gòu)瓶頸,特別適用于深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)這種大數(shù)據(jù)量大規(guī)模并行的應(yīng)用場景。
存算一體發(fā)展史
1969 年,斯坦福研究所的 Kautz 等人提出了存算一體計算機(jī)的概念。但受限于當(dāng)時的芯片制造技術(shù)和算力需求的匱乏,那時存算一體僅僅停留在理論研究階段,并未得到實際應(yīng)用。
為了打破馮諾依曼計算架構(gòu)瓶頸,降低「存儲-內(nèi)存-處理單元」過程數(shù)據(jù)搬移帶來的開銷,學(xué)術(shù)界和工業(yè)界嘗試了多種方法。其中比較直接的方法是近存計算,減少內(nèi)存和處理單元之間的路徑,如通過 3D 封裝技術(shù)實現(xiàn) 3D 堆疊,將多層 DRAM 堆疊而成的新型內(nèi)存,能提供更大的內(nèi)存容量和內(nèi)存帶寬。此外,Intel 和 Micron 合作開發(fā)的基于 PRAM 存儲介質(zhì)的 3D Xpoint 屬于堆疊型內(nèi)存,旨在縮短片上存儲與內(nèi)存之間的路徑。但上述方案并沒有改變數(shù)據(jù)存儲與數(shù)據(jù)處理分離的問題,并不能從根本上解決馮諾依曼計算架構(gòu)瓶頸。
近年來,隨著半導(dǎo)體制造技術(shù)的突飛猛進(jìn),以及 AI、元宇宙等算力密集的應(yīng)用場景的崛起,為存算一體技術(shù)提供新的制造平臺和產(chǎn)業(yè)驅(qū)動力。
2010 年,惠普實驗室的 Williams 教授團(tuán)隊用憶阻器實現(xiàn)簡單布爾邏輯功能。2016 年,美國加州大學(xué)圣塔芭芭拉分校(UCSB)的謝源教授團(tuán)隊提出使用 RRAM 構(gòu)建存算一體架構(gòu)的深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò) (PRIME)。相較于傳統(tǒng)馮諾伊曼架構(gòu)的傳統(tǒng)方案,PRIME 可以實現(xiàn)功耗降低約 20 倍、速度提升約 50 倍,引起產(chǎn)業(yè)界廣泛關(guān)注。
隨著人工智能等大數(shù)據(jù)應(yīng)用的興起,存算一體技術(shù)得到國內(nèi)外學(xué)術(shù)界與產(chǎn)業(yè)界的廣泛研究與應(yīng)用。在 2017 年微處理器頂級年會 (Micro 2017) 上,包括英偉達(dá)、英特爾、微軟、三星、加州大學(xué)圣塔芭芭拉分校等都推出了他們的存算一體系統(tǒng)原型。
評論