DeepSeek只是前菜,LPU才是王炸
當(dāng)下,人工智能蓬勃發(fā)展,創(chuàng)新技術(shù)不斷涌出,整個(gè)行業(yè)正經(jīng)歷著一場(chǎng)意義深遠(yuǎn)的變革。
本文引用地址:http://cafeforensic.com/article/202502/466907.htm而這其中,DeepSeek 和 LPU 的出現(xiàn)格外引人注目。DeepSeek 憑借其卓越的性能和強(qiáng)大的成本優(yōu)勢(shì),迅速在全球范圍內(nèi)圈粉無(wú)數(shù),掀起了一股使用熱潮。而 LPU,作為專為語(yǔ)言處理任務(wù)量身定制的硬件處理器,以其區(qū)別于傳統(tǒng) GPU 的創(chuàng)新架構(gòu)、令人驚嘆的性能表現(xiàn)和超低的成本優(yōu)勢(shì),成為了 AI 領(lǐng)域的新寵。
DeepSeek 與 LPU 的結(jié)合,或許會(huì)為這場(chǎng)變革注入新的動(dòng)力。
LPU 是什么?
2024 年 2 月,由谷歌 TPU 設(shè)計(jì)者 Jonathan Ross 創(chuàng)立的 Groq 公司發(fā)布新一代 LPU,實(shí)測(cè)性能引發(fā)行業(yè)震動(dòng):在 Meta Llama 2-70B 推理任務(wù)中,其 LPU 相較英偉達(dá) H100 實(shí)現(xiàn) 10 倍性能提升,推理成本降低 80%。而 LPU 本質(zhì)為減少計(jì)算中內(nèi)存調(diào)用次數(shù),從而實(shí)現(xiàn)推理效率的提升。對(duì)推理芯片而言,更高性能、更低成本的 LPU,提供了一個(gè)新的技術(shù)路徑選項(xiàng)。
LPU,全稱 Language Processing Unitix,是一種專門(mén)為語(yǔ)言處理任務(wù)設(shè)計(jì)的硬件處理器。它與我們熟知的 GPU(Graphics Processing Unit,圖形處理器)有著本質(zhì)的區(qū)別。GPU 最初是為處理圖形渲染任務(wù)而設(shè)計(jì)的,在并行計(jì)算方面表現(xiàn)出色,因此后來(lái)被廣泛應(yīng)用于人工智能領(lǐng)域的模型訓(xùn)練和推理。然而,LPU 則是專門(mén)針對(duì)語(yǔ)言處理任務(wù)進(jìn)行優(yōu)化的,旨在更高效地處理文本數(shù)據(jù),執(zhí)行諸如自然語(yǔ)言理解、文本生成等任務(wù)。
從硬件架構(gòu)來(lái)看,LPU 有著獨(dú)特的設(shè)計(jì),采用了時(shí)序指令集計(jì)算機(jī)架構(gòu)。同時(shí),LPU 不需要芯片外內(nèi)存,這是其區(qū)別于傳統(tǒng)硬件架構(gòu)的重要特點(diǎn)。傳統(tǒng)的 GPU 在運(yùn)行過(guò)程中,需要依賴高速的數(shù)據(jù)傳輸和大量的芯片外內(nèi)存來(lái)存儲(chǔ)和處理數(shù)據(jù),這不僅增加了硬件成本,還可能在數(shù)據(jù)傳輸過(guò)程中產(chǎn)生延遲,影響系統(tǒng)性能。而 LPU 使用的是 SRAM(Static Random - Access Memory,靜態(tài)隨機(jī)存取存儲(chǔ)器),其速度比 GPU 所用的存儲(chǔ)器快約 20 倍。這種高速的內(nèi)存使得 LPU 在處理數(shù)據(jù)時(shí)能夠更快地讀取和寫(xiě)入信息,大大提高了處理效率。
在能效方面,LPU 通過(guò)減少多線程管理的開(kāi)銷和避免核心資源的未充分利用,實(shí)現(xiàn)了更高的每瓦特計(jì)算性能,在執(zhí)行推理任務(wù)時(shí),無(wú)需像 GPU 那樣頻繁從內(nèi)存加載數(shù)據(jù),消耗的電量也低于英偉達(dá)的 GPU。
Groq 公司作為 LPU 的重要推動(dòng)者,公布的 LPU 性能令人驚嘆。與當(dāng)前行業(yè)內(nèi)的領(lǐng)先模型相比,LPU 展現(xiàn)出了巨大的優(yōu)勢(shì)。例如,在與 GPT - 4 的對(duì)比中,Groq 的 LPU 比 GPT - 4 快 18 倍,在處理速度上達(dá)到了每秒 500 token 的驚人成績(jī),打破了行業(yè)紀(jì)錄,其性能是英偉達(dá) GPU 的 10 倍。而且,不同于英偉達(dá) GPU 對(duì)高速數(shù)據(jù)傳輸和高帶寬存儲(chǔ)器(HBM)的依賴,Groq 的 LPU 系統(tǒng)中沒(méi)有采用 HBM,而是通過(guò)優(yōu)化的 SRAM 設(shè)計(jì),實(shí)現(xiàn)了高效的數(shù)據(jù)處理。這種獨(dú)特的設(shè)計(jì)使得 LPU 在保證高性能的同時(shí),還降低了硬件成本和系統(tǒng)復(fù)雜性。
這一突破也凸顯了計(jì)算模式的潛在轉(zhuǎn)變,即在處理基于語(yǔ)言的任務(wù)時(shí),LPU 可以提供一種專業(yè)化、更高效的替代方案,挑戰(zhàn)傳統(tǒng)上占主導(dǎo)地位的 GPU。
國(guó)產(chǎn)企業(yè)布局 LPU
國(guó)產(chǎn) LPU 當(dāng)然也受到市場(chǎng)關(guān)注。
目前,清華系的無(wú)問(wèn)芯穹已研發(fā)出全球首個(gè)基于 FPGA(現(xiàn)場(chǎng)可編程邏輯門(mén)陣列)的大模型處理器,稱其為無(wú)穹 LPU,通過(guò)大模型高效壓縮的軟硬件協(xié)同優(yōu)化技術(shù),使得 LLaMA2-7B 模型的 FPGA 部署成本從 4 塊卡減少至 1 塊卡,并且性價(jià)比與能效比均高于同等工藝 GPU,即展示「一張卡跑大模型」。
無(wú)問(wèn)芯穹研發(fā)的端側(cè)大模型推理處理器 LPU 采用異構(gòu)計(jì)算技術(shù)。其核心目標(biāo)是提供如水電煤般便捷的算力服務(wù),解決當(dāng)前市場(chǎng)中算力資源匱乏的問(wèn)題。目前已通過(guò)適配多種 AI 芯片,實(shí)現(xiàn)不同模型高效并行處理,根據(jù)無(wú)問(wèn)芯穹的內(nèi)部測(cè)試數(shù)據(jù),這款芯片在大規(guī)模模型推理場(chǎng)景中,算力成本下降高達(dá) 90%,為國(guó)內(nèi)算力之困開(kāi)辟了一條前路。
據(jù)悉,無(wú)問(wèn)芯穹成立于 2023 年 5 月,創(chuàng)始團(tuán)隊(duì)來(lái)自清華大學(xué)電子工程系,致力于成為大模型落地過(guò)程中的"M×N"中間層,以打造大模型軟硬件一體化方案,鏈接上下游,建立 AGI(通用人工智能)時(shí)代大模型基礎(chǔ)設(shè)施。
DeepSeek 利好上游,將推動(dòng) AI 大規(guī)模應(yīng)用
2025 年 1 月 20 日,DeepSeek 正式發(fā)布 DeepSeek-R1 模型,在數(shù)學(xué)、代碼、自然語(yǔ)言推理等任務(wù)上,性能成功比肩 OpenAI-o1 正式版,在 1 月 24 日國(guó)外大模型排名 Arena 上,DeepSeek-R1 基準(zhǔn)測(cè)試升至全類別大模型第三,在風(fēng)格控制類模型分類中與 OpenAI-o1 并列第一,展現(xiàn)出強(qiáng)大的技術(shù)實(shí)力。僅僅一周后,DeepSeek 在中國(guó)區(qū)及美區(qū)蘋(píng)果 App Store 免費(fèi)榜均占據(jù)首位,成為首個(gè)同期在中國(guó)和美區(qū)蘋(píng)果 App Store 占據(jù)第一位的中國(guó)應(yīng)用,用戶量在短時(shí)間內(nèi)迅速攀升,在全球范圍內(nèi)掀起了使用熱潮。
DeepSeek 發(fā)展速度之快令人咋舌,日活數(shù)據(jù)的增長(zhǎng)堪稱「火箭式」上升。前幾日,DeepSeek 的日活剛突破 2000 萬(wàn),然而不到一周的時(shí)間,日活已經(jīng)飆升至 3000 萬(wàn),短短 7 天內(nèi)用戶增長(zhǎng)一個(gè)億。與之形成鮮明對(duì)比的是,曾經(jīng)風(fēng)靡全球的 ChatGPT 達(dá)到同樣的用戶增長(zhǎng)規(guī)模需要 2 個(gè)月的時(shí)間。DeepSeek 的快速崛起,彰顯了其在人工智能領(lǐng)域的強(qiáng)大競(jìng)爭(zhēng)力和市場(chǎng)吸引力。
隨著 DeepSeek 用戶的大規(guī)模增長(zhǎng),對(duì)上游做算力的公司產(chǎn)生了顯著的利好影響。算力作為人工智能運(yùn)行的基礎(chǔ)支撐,是模型訓(xùn)練和推理得以實(shí)現(xiàn)的關(guān)鍵。DeepSeek 的火爆意味著對(duì)算力的需求呈指數(shù)級(jí)增長(zhǎng),這為上游的算力供應(yīng)商提供了廣闊的市場(chǎng)空間。
值得一提的是,三家基礎(chǔ)電信企業(yè)均全面接入 DeepSeek 開(kāi)源大模型。這一舉措不僅進(jìn)一步推動(dòng)了 DeepSeek 的廣泛應(yīng)用,還為電信企業(yè)自身的業(yè)務(wù)發(fā)展帶來(lái)了新的機(jī)遇。電信企業(yè)擁有豐富的網(wǎng)絡(luò)資源和龐大的用戶基礎(chǔ),接入 DeepSeek 大模型后,可以將人工智能技術(shù)融入到通信服務(wù)、智能客服、大數(shù)據(jù)分析等多個(gè)業(yè)務(wù)領(lǐng)域,提升服務(wù)質(zhì)量和用戶體驗(yàn),同時(shí)也為自身在人工智能時(shí)代的轉(zhuǎn)型發(fā)展奠定了堅(jiān)實(shí)的基礎(chǔ)。
在市場(chǎng)層面,DeepSeek 的成功也引發(fā)了資本的關(guān)注。大量的投資涌入與 DeepSeek 相關(guān)的產(chǎn)業(yè)鏈,從算力支持到算法優(yōu)化,再到應(yīng)用開(kāi)發(fā),各個(gè)環(huán)節(jié)都成為了資本追逐的熱點(diǎn)。這不僅促進(jìn)了相關(guān)企業(yè)的技術(shù)研發(fā)和業(yè)務(wù)拓展,還加速了整個(gè)行業(yè)的發(fā)展進(jìn)程。
之所以 DeepSeek 如此受到關(guān)注,除了其在性能上的卓越表現(xiàn)外,還在于其具有強(qiáng)大的成本優(yōu)勢(shì)。DeepSeek 模型厲害的地方在于,整個(gè)訓(xùn)練僅花費(fèi)了 557.6 萬(wàn)美元,在 2048xH800 集群上運(yùn)行 55 天完成。性能卻能和 OpenAI 的頂尖模型 ChatGPT-o1 比肩,甚至在某些領(lǐng)域還強(qiáng)一點(diǎn)。
這筆費(fèi)用是什么概念呢?Anthropic 的 CEO 曾透露,GPT-4o 這樣的模型訓(xùn)練成本約為 1 億美元。而目前正在開(kāi)發(fā)的 AI 大模型訓(xùn)練成本可能高達(dá) 10 億美元。他還預(yù)測(cè),未來(lái)三年內(nèi),AI 大模型的訓(xùn)練成本將上升至 100 億美元甚至 1000 億美元。換句話說(shuō),DeepSeek-V3 的這個(gè)成本幾乎可以忽略不計(jì)。由于 OpenAI 的大模型成本巨大,在美國(guó)政府的支持下,甚至發(fā)起了總投資 5000 億美元的星門(mén)計(jì)劃來(lái)建設(shè) AI 設(shè)施。
高性能低價(jià)平權(quán)之下,LPU 被看好
AI 基礎(chǔ)設(shè)施建設(shè)的巨額成本一直是阻擋 AI 大規(guī)模應(yīng)用的絆腳石。
DeepSeek-R1 具備高性能、低成本、開(kāi)源三大屬性。DeepSeek-R1 問(wèn)世,其開(kāi)源屬性為企業(yè)提供了技術(shù)底座,如教育機(jī)構(gòu)可基于開(kāi)源代碼定制學(xué)科知識(shí)庫(kù)、教學(xué)場(chǎng)景交互邏輯等,人力資源機(jī)構(gòu)也可針對(duì)招聘培訓(xùn)等垂直場(chǎng)景構(gòu)建垂直助手。且 DeepSeek-R1 大模型單次訓(xùn)練和推理對(duì)算力的需求低,因此基于 DeepSeek-R1 二次訓(xùn)練的成本也更低,更有利于企業(yè)低成本訓(xùn)練及本地部署。簡(jiǎn)而言之,DeepSeek-R1 的突破性發(fā)展,直接降低了 AI 應(yīng)用的研發(fā)落地成本,將加速 AI 技術(shù)在各行業(yè)的滲透。
如果說(shuō),DeepSeek 屬于「核彈」級(jí),那 LPU 就是「氫彈」級(jí)。據(jù)了解,美國(guó) Groq 公司已經(jīng)在自己的 LPU 芯片上實(shí)機(jī)運(yùn)行 DeepSeek,效率比最新的 H100 快上一個(gè)量級(jí),達(dá)到每秒 24000token。某種程度上,單純靠堆砌硬件算力,實(shí)現(xiàn)智力的邏輯也將失效。隨著硬件芯片制程逐漸到達(dá)瓶頸,后期人工智能主要靠算法和芯片架構(gòu)優(yōu)化推動(dòng)。
而 DeepSeek 與 LPU 的結(jié)合標(biāo)志著 AI 算力領(lǐng)域的重要變革,特別是在大語(yǔ)言模型(LLM)推理場(chǎng)景中展現(xiàn)出顯著的技術(shù)突破和市場(chǎng)潛力。這種結(jié)合使得大語(yǔ)言模型在處理速度、成本控制和應(yīng)用范圍等方面都有了新的突破,為人工智能的發(fā)展開(kāi)辟了新的道路。
作為 LPU 的主要供應(yīng)商,美半導(dǎo)體初創(chuàng)公司 Groq 也受到了投資市場(chǎng)的看好。據(jù)了解,目前該公司已獲得沙特阿拉伯 15 億美元的承諾投資,以支持 Groq 擴(kuò)建位于沙特達(dá)曼的 AI 推理基礎(chǔ)設(shè)施。Groq 的達(dá)曼數(shù)據(jù)中心由該企業(yè)同石油巨頭沙特阿美旗下子公司合作建設(shè),目前該數(shù)據(jù)中心已包含 19000 個(gè) Groq LPU(語(yǔ)言處理單元),可向 41 個(gè)國(guó)家的 40 億用戶提供服務(wù)。
另一方面,這也對(duì)英偉達(dá)和其他美國(guó)人工智能科技公司造成打擊,三星電子和 SK 海力士預(yù)計(jì)將在快速增長(zhǎng)的人工智能 (AI) 內(nèi)存芯片業(yè)務(wù)中面臨越來(lái)越多的不確定性。而這兩家公司主要生產(chǎn)用于英偉達(dá) GPU 的 HBM 芯片。SK 海力士 1 月份的數(shù)據(jù)比 12 月下跌了 19.3%。這是自 2023 年 4 月該公司開(kāi)發(fā)出全球 12 層 HBM3 芯片以來(lái),環(huán)比跌幅最大的一次。
當(dāng) LPU 技術(shù)將 AI 創(chuàng)作成本降至消費(fèi)級(jí)硬件可承載范圍,普通人使用 RTX 顯卡即可運(yùn)行百億參數(shù)模型時(shí),UGC 內(nèi)容生產(chǎn)將迎來(lái)核爆式增長(zhǎng)。這種生產(chǎn)力解放可能提前 10 年實(shí)現(xiàn)"人人都是創(chuàng)作者"的預(yù)言。
當(dāng) LPU 架構(gòu)與神經(jīng)擬態(tài)芯片結(jié)合后,個(gè)人設(shè)備的計(jì)算能力將得到質(zhì)的飛躍。也許,未來(lái)的智能手機(jī)或筆記本電腦,借助這種技術(shù),用戶無(wú)需聯(lián)網(wǎng)就能在本地快速運(yùn)行復(fù)雜的語(yǔ)言模型,實(shí)現(xiàn)高效的個(gè)人工作流部署。
評(píng)論