借助小語(yǔ)言模型,高效 Arm 計(jì)算賦能定制化 AI 未來(lái)
隨著我們逐步邁入人工智能 (AI) 的世界,小體量模型愈發(fā)具有大優(yōu)勢(shì)。
本文引用地址:http://cafeforensic.com/article/202407/460786.htm在過(guò)去的一年多里,大語(yǔ)言模型 (LLM) 推動(dòng)了生成式 AI 的早期創(chuàng)新浪潮,訓(xùn)練參數(shù)量朝萬(wàn)億級(jí)規(guī)模邁進(jìn),但越來(lái)越多的證據(jù)表明,無(wú)限制地?cái)U(kuò)展 LLM 并不具備可持續(xù)性。至少來(lái)說(shuō),通過(guò)此方式來(lái)發(fā)展 AI 所需的基礎(chǔ)設(shè)施成本過(guò)于高昂,僅有少數(shù)企業(yè)可以承受。此類 LLM 需要消耗大量算力和電力,運(yùn)營(yíng)成本不菲。這些項(xiàng)目將帶來(lái)沉重的財(cái)務(wù)和資源負(fù)擔(dān),例如 GPT-4 的訓(xùn)練成本至少為一億美元。
除此之外,這些 LLM 的開發(fā)和部署過(guò)程也相對(duì)復(fù)雜。劍橋大學(xué)的一項(xiàng)研究 [1] 指出,企業(yè)將花費(fèi)超過(guò) 90 天來(lái)部署單一的機(jī)器學(xué)習(xí) (ML) 模型。漫長(zhǎng)的周期阻礙了快速開發(fā)和迭代實(shí)驗(yàn)的步伐,而這在 AI 技術(shù)飛速發(fā)展的領(lǐng)域卻又至關(guān)重要。
綜合考慮以上因素和其他挑戰(zhàn),AI 的開發(fā)重心正逐漸轉(zhuǎn)向小語(yǔ)言模型 (Small Language Models, SLM),有時(shí)或稱小型 LLM,從而借助其效率更高、資源需求更少,以及更易于定制和控制等優(yōu)勢(shì)來(lái)解決多項(xiàng)挑戰(zhàn)。相比于生成較復(fù)雜或精細(xì)的內(nèi)容,SLM(例如 Llama、Mistral、Qwen、Gemma、Phi-3 的小規(guī)模參數(shù)版本)在執(zhí)行對(duì)話、翻譯、摘要和分類等較簡(jiǎn)單的集中任務(wù)時(shí),效率更高,其訓(xùn)練過(guò)程也僅需消耗較少的電力。
這有助于開發(fā)者構(gòu)建具有多模態(tài)功能的生成式 AI 解決方案,用于處理和生成文本、圖像和音頻等不同媒體形式的內(nèi)容。
Llama 3 等基礎(chǔ)模型可以利用特定上下文數(shù)據(jù)進(jìn)一步微調(diào),以專注于特定應(yīng)用領(lǐng)域,如醫(yī)學(xué)科學(xué)、代碼生成或其它專業(yè)知識(shí)領(lǐng)域。結(jié)合這些較小體量 LLM 的可及性,這些應(yīng)用讓生成式 AI 更為普及,并讓不具備 GPU 集群的應(yīng)用開發(fā)者也可獲得 AI 功能,進(jìn)而開辟了新的應(yīng)用和用例。
與此同時(shí),諸如量化等底層優(yōu)化技術(shù)也是提高模型效率的有效方式。量化技術(shù)通過(guò)對(duì)神經(jīng)網(wǎng)絡(luò)權(quán)重進(jìn)行更低精度計(jì)算,可以縮減模型大小。量化可以將 16 位浮點(diǎn)數(shù)壓縮為 4 位整數(shù),進(jìn)而大幅降低了內(nèi)存和計(jì)算需求,對(duì)準(zhǔn)確度也僅有細(xì)微影響。例如,應(yīng)用這一方法后,原本擁有 70 億參數(shù)的 Llama 2 模型可從 13.5 GB 縮減至 3.9 GB,130 億參數(shù)版本可從 26.1 GB 縮減至 7.3 GB,700 億參數(shù)模型可從 138 GB 縮減至 40.7 GB。這項(xiàng)技術(shù)提高了這些輕量級(jí)模型的運(yùn)行速度,還降低了軟件運(yùn)行成本,尤其是在 CPU 上的軟件運(yùn)行成本。
結(jié)合更高效、性能更強(qiáng)大的 Arm CPU 技術(shù),這些軟件進(jìn)展使規(guī)模更小、效率更高的 語(yǔ)言模型能夠直接在移動(dòng)設(shè)備上運(yùn)行 ,從而提高性能、保護(hù)隱私并優(yōu)化用戶體驗(yàn)。
llama.cpp 等專用框架也促進(jìn)了 SLM 的興起。與 PyTorch 等通用框架相比,llama.cpp 專注于優(yōu)化 CPU 推理的性能,能在通用硬件上更快速、更高效地執(zhí)行基于 Llama 的模型。這種可及性為廣泛部署提供了新的可能,而無(wú)需依賴專門的 GPU 資源,從而使 LLM 能夠服務(wù)于更廣泛的用戶群體和應(yīng)用。
那么,硬件在其中又扮演了什么角色呢?
以 Arm 的方式來(lái)體現(xiàn)效率的價(jià)值
Arm Neoverse CPU 通過(guò) Neon 和 SVE 等 SIMD 指令提升 ML 處理進(jìn)程,尤其是用以加速通用矩陣乘法 (General Matrix Multiplications, GEMM),這是一種涉及神經(jīng)網(wǎng)絡(luò)內(nèi)部復(fù)雜乘法的核心算法。在過(guò)去幾代產(chǎn)品中,Arm 不斷在其 Neon 和 SVE2 引擎中引入 SDOT (Signed Dot Product) 和 MMLA (Matrix Multiply Accumulate) 等功能指令,進(jìn)而增強(qiáng)關(guān)鍵的 ML 算法。這有助于提高廣泛部署的服務(wù)器 CPU 效率,如 AWS Graviton 和 NVIDIA Grace,以及近期宣布投入量產(chǎn)的 Microsoft Cobalt 和 Google Axion 。
典型的 LLM 管線可劃分為兩個(gè)階段:
第一階段:提示處理,準(zhǔn)備模型的輸入數(shù)據(jù),目的是提高響應(yīng)速度。
第二階段:詞元 (Token) 生成,一次創(chuàng)建一段文本,重點(diǎn)在于吞吐量和可擴(kuò)展性。
在聊天、風(fēng)格轉(zhuǎn)換、總結(jié)生成和內(nèi)容創(chuàng)建等不同應(yīng)用中,提示大小、詞元生成以及對(duì)于速度、質(zhì)量需求之間的優(yōu)先級(jí)會(huì)有所不同。交互式聊天優(yōu)先考慮快速響應(yīng),風(fēng)格轉(zhuǎn)換強(qiáng)調(diào)輸出質(zhì)量,總結(jié)生成需要平衡全面性和及時(shí)性,而內(nèi)容創(chuàng)建則側(cè)重于生成大量?jī)?yōu)質(zhì)素材。
簡(jiǎn)而言之,語(yǔ)言模型是否有效,取決于能否根據(jù)快速交互、高效摘要、高質(zhì)量寫作和大量?jī)?nèi)容創(chuàng)作輸入處理等任務(wù)需要,精細(xì)調(diào)整其輸入處理和文本生成。
Llama 3 在 AWS Graviton3 上的性能表現(xiàn)
為了評(píng)估 Neoverse CPU 執(zhí)行 LLM 任務(wù)的效率,Arm 軟件團(tuán)隊(duì)和合作伙伴對(duì) llama.cpp 中的 int4 和 int8 內(nèi)核進(jìn)行了優(yōu)化,以利用基于 Arm 架構(gòu)的服務(wù)器 CPU 中較新的指令。團(tuán)隊(duì)使用經(jīng)過(guò) int4 量化并具有 80 億參數(shù)的 Llama 3 模型,對(duì) AWS r7g.16xlarge 實(shí)例進(jìn)行了性能測(cè)試,該實(shí)例搭載了 64 個(gè)基于 Arm 架構(gòu)的 Graviton3 核心并配置了 512 GB RAM。
測(cè)試結(jié)果如下:
提示處理:經(jīng)過(guò) Arm 優(yōu)化,每秒處理的詞元數(shù)提高了三倍;在更大的批次大小時(shí),有小幅性能提升。
詞元生成:經(jīng)過(guò) Arm 優(yōu)化,吞吐量提高了兩倍,有助于更高效地處理更大的批次大小。
AWS Graviton3 在單個(gè)和批量處理場(chǎng)景中均達(dá)到了新興行業(yè)共同要求的針對(duì)交互式 LLM 部署的 100ms 延遲目標(biāo)。即使是在 2019 年推出的 Graviton2 上,也能在 100ms 延遲目標(biāo)內(nèi)運(yùn)行多達(dá) 80 億參數(shù)的 LLM。
與當(dāng)前一代 x86 實(shí)例相比,AWS Graviton3 在提示處理和詞元生成方面的性能高了三倍。
成本效益:Graviton3 實(shí)例的價(jià)格低于 Sapphire Rapids 和 Genoa。Graviton3 的單位價(jià)格詞元生成數(shù)量高了三倍,是采用和擴(kuò)展 LLM 經(jīng)濟(jì)高效的理想之選。
想要詳細(xì)了解該性能測(cè)試,盡請(qǐng)關(guān)注 Arm 社區(qū)的后續(xù)文章!
靈活且價(jià)格經(jīng)濟(jì)
基于 CPU 的云實(shí)例為開發(fā)者提供了靈活、經(jīng)濟(jì)、快速的開發(fā)起點(diǎn),使其能夠輕松在應(yīng)用中部署規(guī)模較小的專用 LLM。Arm 在自身的架構(gòu)中引入了多項(xiàng)關(guān)鍵功能,顯著提升了 LLM 的性能。得益于此,與其他服務(wù)器 CPU 相比,廣泛部署且基于 Neoverse 平臺(tái)的服務(wù)器處理器(如 AWS Graviton3)不僅能提供業(yè)界領(lǐng)先的 LLM 性能,還能為更多應(yīng)用開發(fā)者降低采用 LLM 的成本門檻。
具體來(lái)說(shuō),僅需兩分錢左右就可以在兩秒鐘內(nèi)處理完本篇推文,并在不到一秒鐘內(nèi)生成簡(jiǎn)短摘要。
Arm 一直處于推動(dòng)向 SLM 發(fā)展的前沿,我們深切認(rèn)識(shí)到了這一趨勢(shì)的潛力,并已準(zhǔn)備好迎接這一轉(zhuǎn)變。深深根植于 Arm DNA 的高效和出色性能的 CPU 廣受市場(chǎng)贊譽(yù),能在不會(huì)影響質(zhì)量或性能的前提下,無(wú)縫運(yùn)行 AI 工作負(fù)載。
較大規(guī)模的語(yǔ)言模型在短短一年多的時(shí)間對(duì)科技行業(yè)和整個(gè)社會(huì)產(chǎn)生了深遠(yuǎn)影響,短時(shí)間內(nèi)必然不會(huì)消失。
即使是 OpenAI 首席執(zhí)行官 Sam Altman 也已看到了即將發(fā)生的變化。他表示:大模型時(shí)代將告一段落,未來(lái)的重點(diǎn)將轉(zhuǎn)向?qū)S煤投ㄖ颇P?。只有根?jù)客戶和特定領(lǐng)域的數(shù)據(jù)對(duì)這些模型進(jìn)行優(yōu)化調(diào)整,才能真正釋放其價(jià)值潛能。
隨著定制化難度降低和必要性提升,SLM 正借此東風(fēng)展翅高飛,占據(jù)其市場(chǎng)位置。
正如 AI 初創(chuàng)公司 Hugging Face 首席執(zhí)行官 Clem Delangue 表示,多達(dá) 99% 的用例都可以使用 SLM 來(lái)解決,他預(yù)計(jì) 2024 年將是 SLM 綻放的一年。
我們即將迎來(lái)的小語(yǔ)言模型將大有可為!
評(píng)論