大模型亂斗,AI芯片狂歡
編輯 | 漠影
大模型正吞噬一切,算力尤甚。芯東西7月7日上海報(bào)道,在正在舉辦的第六屆世界人工智能大會(huì)(WAIC)上,瀚博半導(dǎo)體、昆侖芯科技、天數(shù)智芯、Graphcore、燧原科技、登臨科技、愛芯元智、沐曦、海飛科、墨芯人工智能、知存科技、后摩智能、珠海芯動(dòng)力、復(fù)旦微電、憶芯科技、富瀚微、西安紫光國芯等芯片企業(yè)參展。多數(shù)均為AI芯片創(chuàng)企。如今AI算力資源緊張已經(jīng)不是什么秘密,隨著相關(guān)算力基礎(chǔ)設(shè)施建設(shè)進(jìn)程提速,AI芯片創(chuàng)企的受關(guān)注度正水漲船高。這在此次展會(huì)上可見一斑,幾乎每家AI芯片展臺(tái)都人潮洶涌。從展品可以看到,大多數(shù)參展的芯片企業(yè)都在積極適應(yīng)大模型熱潮帶來的市場(chǎng)需求變化,不僅展出更具針對(duì)性的硬件產(chǎn)品,還展示了更加廣泛的行業(yè)應(yīng)用Demo,多數(shù)展位都有AI大模型或AIGC(AI內(nèi)容生成)應(yīng)用的演示專區(qū)。
▲瀚博半導(dǎo)體AI大模型演示展臺(tái)
當(dāng)然,這一風(fēng)向并不令人意外。連權(quán)威AI基準(zhǔn)測(cè)試MLPerf最近都新增了大語言模型和推薦算法兩項(xiàng)新的基準(zhǔn)測(cè)試,足見跑AI大模型的速度已被視作衡量芯片性能的重要指標(biāo)。得益于此,今年AI芯片展區(qū)明顯要比往年更加熱鬧。隨著更多國內(nèi)AI芯片成功流片與量產(chǎn),AI芯片企業(yè)們比拼的賽點(diǎn),已經(jīng)從單純的性能指標(biāo)轉(zhuǎn)向進(jìn)入真實(shí)應(yīng)用場(chǎng)景落地的較量。01.拼榮譽(yù):兩款A(yù)I芯片關(guān)聯(lián)產(chǎn)品獲得世界人工智能大會(huì)最高獎(jiǎng)
▲高通獲頒SAIL獎(jiǎng)
超10億參數(shù)Stable Diffusion模型能夠在搭載第二代驍龍8移動(dòng)平臺(tái)的安卓手機(jī)上運(yùn)行,實(shí)現(xiàn)15秒內(nèi)20步推理。燧原科技面向AIGC模型訓(xùn)練的液冷集群云燧智算集群摘得了“SAIL之星”獎(jiǎng)。該集群采用的燧原科技邃思芯片曾獲2022年吳文俊人工智能專項(xiàng)獎(jiǎng)芯片項(xiàng)目一等獎(jiǎng)。▲燧原科技的一系列里程碑式產(chǎn)品
云燧智算集群產(chǎn)品已在國家級(jí)重點(diǎn)實(shí)驗(yàn)室之江落地千卡規(guī)模訓(xùn)練集群,提供超過100P的先進(jìn)AI算力,能高效支撐融媒體、文本生成PPT、跨模態(tài)圖像生成等AIGC應(yīng)用以及多種AI4S科學(xué)計(jì)算應(yīng)用的開發(fā)和前沿探索。02.拼資歷:昆侖芯十年磨一劍國內(nèi)首批通用GPU芯片走向增收
▲昆侖芯歷代AI芯片及AI加速卡
在此次WAIC上,針對(duì)不同參數(shù)級(jí)別的昆侖芯第二代系列產(chǎn)品矩陣首次亮相,包括3款昆侖芯AI加速卡R100、RG800、R200-8F。其大模型端到端解決方案更是繼正式發(fā)布后首次參展,該方案在能源行業(yè)、文心一格、智源研究院等多個(gè)場(chǎng)景均有應(yīng)用落地。其中,R200-8F面向百億以下參數(shù)量級(jí),性能可達(dá)到主流GPU 1.2倍且價(jià)格更有優(yōu)勢(shì);R480-X8加速器組針對(duì)百億到千億參數(shù)量級(jí),大內(nèi)存和芯片互聯(lián)的技術(shù)使其性能達(dá)到同類型GPU的1.3+倍;千億參數(shù),可采用昆侖芯R480-X8集群,實(shí)現(xiàn)多機(jī)多卡分布式推理。天數(shù)智芯自稱是國內(nèi)首家真正量產(chǎn)的通用GPU企業(yè),從2018年開始設(shè)計(jì)通用GPU天垓100至今,已有兩款產(chǎn)品成功進(jìn)入量產(chǎn)階段。據(jù)悉,截至2022年底,天數(shù)智芯累計(jì)訂單接近6億元,去年全年收入大約2.5億元。▲天數(shù)智芯通用GPU產(chǎn)品展臺(tái)
另一家國內(nèi)通用GPU領(lǐng)軍企業(yè)登臨科技自認(rèn)是國內(nèi)首家完全憑借自主創(chuàng)新,實(shí)現(xiàn)規(guī)?;虡I(yè)落地的通用GPU企業(yè),通過GPU+架構(gòu)創(chuàng)新,解決了通用性和高效率的雙重難題。經(jīng)過大量客戶產(chǎn)品化驗(yàn)證,針對(duì)AI計(jì)算,GPU+比現(xiàn)有主流GPU在性能及能效上有顯著提升。首款基于登臨GPU+的AI加速器Goldwasser(高凜)2021年量產(chǎn)投入市場(chǎng),2022年銷售過萬片,應(yīng)用場(chǎng)景覆蓋互聯(lián)網(wǎng)、智慧城市、電力、能源、金融等領(lǐng)域。高凜二代產(chǎn)品在2022年流片, 在2023年實(shí)現(xiàn)量產(chǎn)。根據(jù)現(xiàn)有客戶測(cè)試結(jié)果,二代產(chǎn)品針對(duì)基于Transformer類型的模型提供3-5倍的性能提升,能夠大幅降低類ChatGPT及生成式AI應(yīng)用的硬件成本。今日上午,登臨科技還宣布了一個(gè)好消息:獲得中國互聯(lián)****資基金獨(dú)家投資。▲登臨科技Goldwasser(高凜)六大亮點(diǎn)
03.拼硬件:先進(jìn)制程扎堆解鎖千億大模型部署
▲瀚博SG100芯片簡(jiǎn)介
VA1L具備200TOPS INT8/72TFLOPS FP16算力,并支持ChatGPT、LLaMA、Stable Diffusion等主流AIGC模型。其AIGC大模型一體機(jī)共使用8張VA1L加速卡,支持512GB顯存,進(jìn)而支持1750億參數(shù)的大模型。VA12作為250W板卡,是VA1和VA10的升級(jí)版,有512TOPS INT8/160TFLOPS FP16算力,能夠更高效地支持文生圖模型Stable Diffusion。珠海芯動(dòng)力發(fā)布首款基于可重構(gòu)架構(gòu)的GPGPU芯片RPP-R8。該公司在2017年成功研發(fā)出可重構(gòu)并行處理器(RPP)架構(gòu),能夠?qū)I推理的性能進(jìn)行深度優(yōu)化。以RPP架構(gòu)為基礎(chǔ)、面向邊緣市場(chǎng)設(shè)計(jì)的第一代芯片RPP-R8已經(jīng)一次性流片成功,芯動(dòng)力成為GPGPU領(lǐng)域的新成員。▲芯動(dòng)力“六邊形戰(zhàn)士”處理器RPP
據(jù)悉,RPP-R8芯片是一款通用型GP-GPU芯片,每顆芯片內(nèi)含有1024個(gè)計(jì)算核,相比傳統(tǒng)GPU架構(gòu)在同樣的算力占用更小的芯片面積,實(shí)現(xiàn)了低功耗和高能效的有效平衡。RPP-R8除了具備專用芯片所沒有的通用編程性,面積效率比可達(dá)到同類產(chǎn)品的7~10倍,能效比也超過3倍,可滿足高效并行計(jì)算及AI計(jì)算應(yīng)用。▲珠海芯動(dòng)力RPP-R8芯片
其它參展芯片中,天數(shù)智芯2018年設(shè)計(jì)的天垓100加速卡目前已經(jīng)跑通清華ChatGLM、LLaMA、智源研究院Aquila等大模型。今年6月,天數(shù)智芯宣布天垓100率先完成百億級(jí)參數(shù)大模型訓(xùn)練。昆侖芯2代AI芯片是國內(nèi)首款采用GDDR6顯存的通用AI芯片,已經(jīng)在金融、工業(yè)、交通、教育等領(lǐng)域廣泛部署。昆侖芯在軟件層面提供了豐富的云原生插件,幫助用戶快速完成和大模型平臺(tái)的適配。其產(chǎn)品矩陣適配文心一言、ChatGLM、GPT、OPT等主流行業(yè)大模型,并提供豐富的軟件SDK,幫助用戶快速完成適配和實(shí)時(shí)自定義的開發(fā)。海飛科稱其第一代通用GPU芯片Compass C10是業(yè)界首個(gè)顯存高達(dá)128GB的GPU芯片,達(dá)到了算力和存儲(chǔ)容量的優(yōu)化平衡,實(shí)現(xiàn)單卡、多卡分布式部署千億大模型。海飛科展臺(tái)演示有在其產(chǎn)品上跑Stable Diffusion、ChatGLM OPT等模型。▲海飛科Compass C10計(jì)算卡
沐曦展示了其AI推理GPU曦思系列、通用計(jì)算GPU曦云系列、圖形處理GPU曦彩系列芯片。其中,曦思N100是沐曦面向人工智能推理場(chǎng)景推出的一款高效能GPU產(chǎn)品,單卡算力達(dá)160TOPS (INT8)和80TFLOPS (FP16),已實(shí)現(xiàn)規(guī)模量產(chǎn),并與多家重點(diǎn)客戶及合作伙伴共同打造應(yīng)用解決方案和生態(tài)聯(lián)盟。▲曦思MXN100芯片
曦云C500是沐曦面向AI訓(xùn)練及通用計(jì)算的旗艦產(chǎn)品,提供強(qiáng)大高精度及多精度混合算力,配備大規(guī)格高帶寬顯存,片間互聯(lián)MetaXLink無縫鏈接多GPU系統(tǒng),能滿足大模型推理和訓(xùn)練需求。曦云MXC500芯片已于2023年6月13日完成基礎(chǔ)測(cè)試,預(yù)計(jì)將于今年年底實(shí)現(xiàn)量產(chǎn)。▲曦云MXC500芯片
墨芯Antoum芯片是全球唯一擁有高稀疏率的AI芯片,采用12nm制程。憑借軟硬協(xié)同的稀疏計(jì)算技術(shù),搭載Antoum芯片的墨芯AI計(jì)算卡在權(quán)威AI基準(zhǔn)測(cè)試MLPerf今年4月公布的結(jié)果中取得ResNet-50單卡、多卡的性能第一。墨芯AI計(jì)算平臺(tái)可支持BLOOM、OPT、GPT-J、LLaMA、Stable Diffusion等主流大模型。▲墨芯AI計(jì)算平臺(tái)
英國AI芯片獨(dú)角獸Graphcore(擬未)展出了入圍SAIL獎(jiǎng)TOP30榜單的云端高端推訓(xùn)一體加速卡C600,以及世界首款3D Wafer-on-Wafer處理器Bow IPU和基于4個(gè)Bow IPU構(gòu)建的Bow-2000。Bow-2000可提供高達(dá)1.4PFLOPS的AI計(jì)算能力,并實(shí)現(xiàn)顯著的電源效率提升。其C600 IPU處理器PCIe卡在此基礎(chǔ)上增加了用于低精度和混合精度AI的FP8,主打推理,兼做訓(xùn)練,在搜索和推薦等業(yè)務(wù)上更具優(yōu)勢(shì)。Graphcore在支持大模型方面一直很積極,目前已部署在其IPU上的包括ChatGLM-6B、GPT2-XL、GPT-J、Stable Diffusion、Dolly 2.0等。Graphcore現(xiàn)場(chǎng)演示了在其IPU上運(yùn)行中英雙語模型ChatGLM-6B和開源文生圖模型Stable Diffusion。▲ChatGLM-6B模型在IPU上運(yùn)行秒出多行回復(fù)
算能展出了第四代邊云大算力AI芯片算豐BM1684X,以及首款基于RISC-V指令集架構(gòu)的64核服務(wù)器CPU芯片算豐SG2042。每臺(tái)基于SG2042的服務(wù)器會(huì)配置1張萬兆光纖網(wǎng)卡,并根據(jù)硬盤配置選配RAID卡,使整個(gè)系統(tǒng)的操作起來與x86系統(tǒng)一樣方便。▲算豐RISC-V SG2042服務(wù)器簡(jiǎn)介
聚焦于計(jì)算+感知應(yīng)用的愛芯元智,在WAIC上重點(diǎn)展示了第三代高算力、高能效比SoC芯片AX650N和M55、M76系列智能駕駛芯片。AX650N現(xiàn)已適配ViT/DeiT、Swin/SwinV2、DETR等Transformer模型,在DINOv2達(dá)到30幀以上的運(yùn)行結(jié)果。Transformer網(wǎng)絡(luò)SwinT在AX650N平臺(tái)上實(shí)現(xiàn)了361FPS的高性能、80.45%的高精度、199FPS/W的低功耗以及原版模型且PTQ量化的極易部署能力。▲愛芯元智邊、端側(cè)Transformer大模型展臺(tái)
04.拼落地:滿場(chǎng)大模型運(yùn)行Demo大曬應(yīng)用案例與生態(tài)朋友圈
▲天數(shù)智芯大模型能力
燧原科技7月5日剛推出的新品燧原曜圖(Enflame LumiCanvas)文生圖MaaS平臺(tái)服務(wù)產(chǎn)品在展會(huì)現(xiàn)場(chǎng)受到很多關(guān)注。這是燧原繼3月宣布升級(jí)企業(yè)戰(zhàn)略“以全棧軟硬件和集群產(chǎn)品為數(shù)字底座,結(jié)合MaaS的業(yè)務(wù)模式,全面打造AIGC時(shí)代的基礎(chǔ)設(shè)施”后的首款新品。這也是燧原在AIGC戰(zhàn)略布局的第一步,后續(xù)燧原還將繼續(xù)推出其它MaaS服務(wù)。▲燧原曜圖文生圖MaaS平臺(tái)服務(wù)產(chǎn)品
燧原曜圖以燧原科技邃思系列芯片為算力支撐,由首都在線提供計(jì)算服務(wù),集成了圖像預(yù)處理、姿態(tài)建模、外部模型一鍵導(dǎo)入等能力,能夠大批量生成圖像,通過軟硬一體方案降低大規(guī)模AIGC應(yīng)用的工程難度與算力成本。這個(gè)企業(yè)級(jí)文生圖應(yīng)用支持以Excel形式批量導(dǎo)入prompt,單次最高可支持千條prompt導(dǎo)入,并針對(duì)視覺創(chuàng)作領(lǐng)域?qū)I(yè)術(shù)語海量且繁復(fù)的問題,為用戶提供prompt詞典、大師經(jīng)典作品prompt模板沉淀、逆向prompt等在內(nèi)的全面Prompt工具體系。除了燧原曜圖外,燧原還展出了有多個(gè)可交互設(shè)施的AIGC交互演示體驗(yàn)區(qū),包括ChatBCG(文生PPT)、LLaMA(聊天機(jī)器人)、由清華ChatGLM和Stable Diffusion組成的能回復(fù)文字和圖片的ChatBot(聊天機(jī)器人)等。▲燧原AIGC交互演示展區(qū)
墨芯人工智能在WAIC期間發(fā)布了大模型算力方案的最新成果,展示1760億參數(shù)的大語言模型BLOOM在墨芯AI計(jì)算平臺(tái)的推理引擎支持下,能夠快速、流暢地回答各類問題,并完成詩歌創(chuàng)作、文案撰寫等多項(xiàng)語言生成任務(wù)。在1300億參數(shù)ChatGLM大模型上,8張墨芯S30計(jì)算卡吞吐達(dá)432token/s,性能超過主流GPU。天數(shù)智芯亦展出了豐富的應(yīng)用演示,包括大模型微調(diào)、大模型推理、代碼生成、AI繪畫、內(nèi)容審查、虛擬數(shù)字人、隱私計(jì)算、風(fēng)電場(chǎng)巡檢、智慧語義、人臉比對(duì)、智算中心、3D建模、科學(xué)計(jì)算、智能OCR、目標(biāo)檢測(cè)/缺陷檢測(cè)、智慧零售等,充分展示了其GPU產(chǎn)品的通用性。▲天數(shù)智芯合作伙伴
登臨科技設(shè)置了大模型、創(chuàng)新應(yīng)用、AIDC、創(chuàng)新硬件四大主題展區(qū),和合作伙伴一起展出了數(shù)十種產(chǎn)品方案,包括大模型、步態(tài)識(shí)別、數(shù)字孿生、無人機(jī)、智慧金融、智慧電力、智慧能源、智慧園區(qū)、車路協(xié)同、智慧社區(qū)、智慧交通等,并展示了其生態(tài)朋友圈。▲登臨瀚海生態(tài)合作伙伴
燧原科技也曬出了生態(tài)合作伙伴。▲燧原科技生態(tài)合作伙伴
雖然昆侖芯并未在展臺(tái)設(shè)置關(guān)于AIGC應(yīng)用的互動(dòng)演示,但百度文心大模型早已是昆侖芯的金字招牌。值得一提的是,百度并沒有因?yàn)槔鲂臼亲约液⒆佣懦馄渌鸄I芯片企業(yè)。百度展臺(tái)上有一張標(biāo)注飛槳在WAIC上的硬件伙伴們展位的地圖,愛芯元智、登臨科技、沐曦、昆侖芯、海飛科、墨芯人工智能、算能、燧原科技、瀚博半導(dǎo)體、天數(shù)智芯、Graphcore均在其中。▲百度飛槳和硬件伙伴在WAIC
05.結(jié)語:上海近年已有30多款A(yù)I芯片點(diǎn)亮
▲后摩鴻途H30芯片
國內(nèi)FPGA龍頭復(fù)旦微電重點(diǎn)展示了基于自研FPAI(可重構(gòu)人工智能)芯片的一站式AI解決方案。憶芯科技展出了企業(yè)級(jí)SSD芯片等多種解決方案。西安紫光國芯則展出了世界領(lǐng)先的嵌入式DRAM(SeDRAM)、高帶寬高性能板卡解決方案HBX-G500等科技創(chuàng)新成果。目前,上海集聚了全國最多的智能芯片創(chuàng)新企業(yè),近年已有30多款A(yù)I訓(xùn)練芯片、AI推理芯片、車載芯片點(diǎn)亮,這些積累為通用大模型發(fā)展和落地普及打下了算力基礎(chǔ)。*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。