色婷婷AⅤ一区二区三区|亚洲精品第一国产综合亚AV|久久精品官方网视频|日本28视频香蕉

<legend id="agp4y"><var id="agp4y"><progress id="agp4y"></progress></var></legend>

"); //-->

博客專欄

EEPW首頁 > 博客 > 將330億參數(shù)大模型「塞進」單個消費級GPU，加速15%、性能不減

將330億參數(shù)大模型「塞進」單個消費級GPU，加速15%、性能不減

發(fā)布人：CV研究院時間：2023-06-09 來源：工程師

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

發(fā)布文章

轉(zhuǎn)自《機器之心》

預訓練大語言模型（LLM）在特定任務上的性能不斷提高，隨之而來的是，假如 prompt 指令得當，其可以更好的泛化到更多任務，很多人將這一現(xiàn)象歸功于訓練數(shù)據(jù)和參數(shù)的增多，然而最近的趨勢表明，研究者更多的集中在更小的模型上，不過這些模型是在更多數(shù)據(jù)上訓練而成，因而在推理時更容易使用。
舉例來說，參數(shù)量為 7B 的 LLaMA 在 1T token 上訓練完成，盡管平均性能略低于 GPT-3，但參數(shù)量是后者的 1/25。不僅如此，當前的壓縮技術還能將這些模型進一步壓縮，在保持性能的同時還能大幅減少內(nèi)存需求。通過這樣的改進，性能良好的模型可以在終端用戶設備（如筆記本）上進行部署。
然而，這又面臨另一個挑戰(zhàn)，即想要將這些模型壓縮到足夠小的尺寸以適應這些設備，怎樣才能兼顧生成質(zhì)量。研究表明，盡管壓縮后的模型生成的答案準確率還可以，但現(xiàn)有的 3-4 位量化技術仍然會讓準確性降低。由于 LLM 生成是順序進行的，依賴于先前生成的 token，小的相對誤差不斷累積并導致嚴重的輸出損壞。為了確?？煽康馁|(zhì)量，關鍵是設計出低位寬的量化方法，與 16 位模型相比不會降低預測性能。
然而，將每個參數(shù)量化到 3-4 位通常會導致中等程度、甚至是高等程度的準確率損失，特別是那些非常適合邊緣部署的 1-10B 參數(shù)范圍內(nèi)的較小模型。
為了解決準確性問題，來自華盛頓大學、蘇黎世聯(lián)邦理工學院等機構(gòu)的研究者提出了一種新的壓縮格式和量化技術 SpQR（Sparse-Quantized Representation，稀疏 - 量化表征），首次實現(xiàn)了 LLM 跨模型尺度的近無損壓縮，同時達到了與以前方法相似的壓縮水平。
SpQR 通過識別和隔離異常權(quán)重來工作，這些異常權(quán)重會導致特別大的量化誤差，研究者將它們以更高的精度存儲，同時將所有其他權(quán)重壓縮到 3-4 位，在 LLaMA 和 Falcon LLMs 中實現(xiàn)了不到 1% 的困惑度相對準確率損失。從而可以在單個 24GB 的消費級 GPU 上運行 33B 參數(shù)的 LLM，而不會有任何性能下降，同時還能提高 15% 的速度。
SpQR 算法高效，既可以將權(quán)重編碼為其他格式，也可以在運行時進行有效地解碼。具體來說，該研究為 SpQR 提供了一種高效的 GPU 推理算法，可以比 16 位基線模型更快地進行推理，同時實現(xiàn)了超過 4 倍的內(nèi)存壓縮收益。
方法
該研究提出一種混合稀疏量化的新格式 —— 稀疏量化表征（SpQR），可以將精確預訓練的 LLM 壓縮到每個參數(shù) 3-4 位，同時保持近乎無損。
具體來說，該研究將整個過程分為兩步。第一步是異常值檢測：該研究首先孤立了異常值權(quán)重，并證明其量化會導致高誤差：異常值權(quán)重保持高精度，而其他權(quán)重以低精度（例如 3 位的格式）存儲。然后，該研究以非常小的組大小實現(xiàn)分組量化（grouped quantization）的變體，并表明量化尺度本身可以被量化為 3 位表征。
SpQR 極大地減少了 LLM 的內(nèi)存占用，而不會降低準確性，同時與 16 位推理相比，LLM 的生成速度快了 20%-30%。
此外，該研究發(fā)現(xiàn)，權(quán)重矩陣中敏感權(quán)重的位置不是隨機的，而是具有特定的結(jié)構(gòu)。為了在量化過程中突出顯示其結(jié)構(gòu)，該研究計算了每個權(quán)重的敏感度，并為 LLaMA-65B 模型可視化這些權(quán)重敏感度。下圖 2 描繪了 LLaMA-65B 最后一個自注意力層的輸出投影。

該研究對量化過程進行了兩個改變：一個用于捕捉小的敏感權(quán)重組，另一個用于捕捉單個的異常值。下圖 3 為 SpQR 的總體架構(gòu)：

下表為 SpQR 量化算法，左邊的代碼片段描述了整個過程，右邊的代碼片段包含了二級量化和查找異常值的子程序：

實驗
該研究將 SpQR 與其他兩種量化方案進行了比較：GPTQ、RTN（rounding-to-nearest），并用兩個指標來評估量化模型的性能。首先是困惑度的測量，所用數(shù)據(jù)集包括 WikiText2、 Penn Treebank 以及 C4；其次是在五個任務上的零樣本準確率：WinoGrande、PiQA、HellaSwag、ARC-easy、ARC-challenge。
主要結(jié)果。圖 1 結(jié)果顯示，在相似的模型大小下，SpQR 的性能明顯優(yōu)于 GPTQ（以及相應的 RTN），特別是在較小的模型上。這種改進得益于 SpQR 實現(xiàn)了更多的壓縮，同時也減少了損失退化。

表 1、表 2 結(jié)果顯示，對于 4 位量化，與 GPTQ 相比，SpQR 相對于 16 位基線的誤差減半。

表 3 報告了 LLaMA-65B 模型在不同數(shù)據(jù)集上的困惑度結(jié)果。

最后，該研究評估了 SpQR 推理速度。該研究將專門設計的稀疏矩陣乘法算法與 PyTorch（cuSPARSE）中實現(xiàn)的算法進行了比較，結(jié)果如表 4 所示。可以看到，盡管 PyTorch 中的標準稀疏矩陣乘法并沒有比 16 位推理更快，但本文專門設計的稀疏矩陣乘法算法可以提高約 20-30% 的速度。

*博客內(nèi)容為網(wǎng)友個人發(fā)布，僅代表博主個人觀點，如有侵權(quán)請聯(lián)系工作人員刪除。

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關鍵詞： AI

相關推薦

國際奧委會：最大限度發(fā)揮 AI 工具影響力，體育人才選拔方式有望得到革新

智能計算 AI 奧運會體育 | 2024-07-26

人工智能是如何幫助阻止造假者的？

謝丫丫 | 2018-08-14

iCAN-4017 AI功能模塊

資源下載周立功單片機功能模塊 iCAN-4017 AI | 2007-03-30

攻擊成功率從 3% 到接近 100%，利用空格鍵可繞過 Meta AI 模型安全系統(tǒng)

智能計算 Meta AI | 2024-07-31

大嘴業(yè)話-AI目前市場分析

視頻人工智能，AI，ChatGPT，互聯(lián)網(wǎng)技術 | 2023-04-25

2021春晚黑科技，火爆全網(wǎng)的\"打工牛\"是什么來頭？

視頻 AI 機器人 | 2021-02-26

釋說芯語16：硬科技：構(gòu)建企業(yè)未來之路（附PPT）

jackwang | 2018-10-22

EEPW2018年6月刊(5G)

資源下載 5G AI | 2018-06-11

“破局AI開發(fā)，釋放邊緣算力開發(fā)者訪談”，干貨滿滿！

視頻 intel AI OpenVINO | 2021-06-10

深圳加快打造 AI 先鋒城市，今年將建成 4000PFLOPS 算力智算中心

智能計算 AI 智能計算深圳 | 2024-07-30

瑞薩電子AI單元解決方案成功提高GE醫(yī)療（日本）日野工廠的生產(chǎn)力

winni945 | 2018-09-12

AI驅(qū)動的嵌入式聲音和振動識別

視頻 ADI AI 嵌入式 OtoSense | 2018-10-23

蘋果承認：AI模型使用谷歌定制芯片訓練

智能計算蘋果 AI 谷歌定制芯片 | 2024-07-30

iPhone 16將不會預裝AI功能？計劃通過iOS 18.1發(fā)布

iPhone AI iOS | 2024-07-30

加大調(diào)整力度，教育部支持高校布局集成電路、AI 等專業(yè)

智能計算教育 AI 集成電路 | 2024-07-25

AI+機器視覺成趨勢，圖文詳解N大應用場景

智能計算安森美 AI 機器視覺 | 2024-07-31

Nvidia的CEO談AI的未來：“我們將需要三臺電腦... 一臺來創(chuàng)建AI... 一臺來模擬AI... 一臺來運行AI”

智能計算 AI | 2024-07-31

電子元件培訓教材

資源下載 NBA 電子元件識別電阻識別電容識別 AI MI SMT DIP 靜電防護 | 2008-09-20

萬家樂JSYZ5-AI燃氣熱水器電路圖

設計方案電路圖熱水器燃氣 JSYZ5-AI 萬家樂 | 2013-01-17

如何快速搭建手寫體識別演示系統(tǒng)

視頻 digikey AI 手寫體識別 | 2022-07-29

WTC-AI太陽能熱水器電路圖

設計方案 WTC-AI 太陽能熱水器電路圖 | 2012-07-24

EEPW2018年3月刊(工業(yè)物聯(lián)網(wǎng))

資源下載工業(yè)物聯(lián)網(wǎng) AI | 2018-03-12

WTC-AI型太陽能熱水器電路圖

設計方案電子電路圖，WTC-AI 太陽能熱水器電路熱水器 | 2012-07-30

摩根士丹利：僅 GB200 AI 服務器業(yè)務，就為英偉達創(chuàng)造 2100 億美元年收入

智能計算 GB200 AI 英偉達 GPU | 2024-07-26

CSR8670CSR8675智能語音Alexa藍牙方案開發(fā)

資源下載 AI 智能語音 | 2017-12-14

蘋果表示其AI模型是在谷歌的定制芯片上訓練的

智能計算 AI | 2024-07-30

海聯(lián)達（Aigale）Ai-HD1 無線全高清套件拆解

zhuwei0710 | 2013-04-28

繼上次海聯(lián)達Ai-ap100拆機之電源改造

zhuwei0710 | 2013-04-03

焦點

推薦視頻

更多>>

技術專區(qū)

關閉

<object id="a16i4"><tt id="a16i4"></tt></object>

<menu id="a16i4"><samp id="a16i4"><video id="a16i4"></video></samp></menu>