色婷婷AⅤ一区二区三区|亚洲精品第一国产综合亚AV|久久精品官方网视频|日本28视频香蕉

"); //-->

博客專欄

EEPW首頁(yè) > 博客 > 堅(jiān)持做行業(yè)大模型，竹間智能給大模型造了一座「模型工廠」（1）

堅(jiān)持做行業(yè)大模型，竹間智能給大模型造了一座「模型工廠」（1）

發(fā)布人：機(jī)器之心時(shí)間：2023-07-03 來(lái)源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

發(fā)布文章

企業(yè)被放在了開往大模型時(shí)代列車的駕駛座上。

從 2 月份起，我們就被絡(luò)繹不絕的大模型發(fā)布和各種 AI 新品轟炸。風(fēng)暴眼當(dāng)然是 ChatGPT。

除了極少數(shù)瞄準(zhǔn)通用底層的野心，一眾以 AIGC、NLP 技術(shù)為名的創(chuàng)業(yè)公司后臺(tái)接入基礎(chǔ)大模型底座，前端做 UI 設(shè)計(jì)，上架應(yīng)用商店。

還有一些 AI 公司沒有通用底層的抱負(fù)，但也不滿足于 API 式創(chuàng)新，而是瞄準(zhǔn)了中間層與應(yīng)用層的戰(zhàn)略價(jià)值。他們往往沒有參數(shù)規(guī)模的執(zhí)念，更關(guān)心行業(yè)落地的效率。

竹間智能就是其中一員。八年前，前微軟（亞洲）互聯(lián)網(wǎng)工程院副院長(zhǎng)簡(jiǎn)仁賢堅(jiān)定看好對(duì)話機(jī)器人在企業(yè)級(jí)市場(chǎng)的潛力，離開微軟創(chuàng)業(yè)。最近，竹間智能也官宣了自己大模型產(chǎn)品矩陣「1+4」，希望解決大模型落地行業(yè)「最后一公里問(wèn)題」。

「實(shí)際上大部分企業(yè)場(chǎng)景不需要 AGI（通用人工智能）來(lái)滿足，在合理的成本下選擇合適的模型才是企業(yè)客戶需要思考的?！构?CEO 簡(jiǎn)仁賢在接受機(jī)器之心專訪時(shí)談道。

這套「1+4」產(chǎn)品的邏輯關(guān)系，簡(jiǎn)明清晰。

「1」指 EmotiBrain ，一個(gè)大模型微調(diào)訓(xùn)練平臺(tái)，專注降低大模型訓(xùn)練的成本，提供從模型選擇、微調(diào)訓(xùn)練、評(píng)測(cè)、部署到最后接入企業(yè)應(yīng)用的一站式服務(wù)。

定制好的模型只是一臺(tái)強(qiáng)大的發(fā)動(dòng)機(jī)，沒辦法直接上路。為此，竹間智能又推出四款裝配先進(jìn)發(fā)動(dòng)機(jī)的「車型」。

如果你體驗(yàn)過(guò)微軟 Office Copilot ，超級(jí)助手 KKbot 的功能幾乎與之無(wú)異。 Magic Writer 是大模型 AIGC 能力最典型的應(yīng)用，除了文本生成，還可以文生圖。 Emoti Coach 是由大語(yǔ)言模型和生成式AI驅(qū)動(dòng)的「教練」，培訓(xùn)效果完勝被動(dòng)式的e-learning。

至于 Knowledge Factory 、Bot Factory+，顧名思義，肯定與批量生產(chǎn)有關(guān)。

背靠大模型， Bot Factory 能力升級(jí)，以更低成本、更高效率批量生產(chǎn)對(duì)話機(jī)器人。 Knowledge Factory 協(xié)助企業(yè)在私域數(shù)據(jù)必須「足不出戶」的限制下，更好管理內(nèi)部知識(shí)數(shù)據(jù)，也為穩(wěn)定大模型的輸出質(zhì)量打好基礎(chǔ)，讓知識(shí)與模型形成閉環(huán)。

一、「中間層」的價(jià)值

企業(yè)要想享受到大模型的神奇能力，一般有三個(gè)辦法。

像谷歌、Meta、OpenAI 一樣從零開始、全量訓(xùn)練基礎(chǔ)大模型。但巨額開發(fā)成本（動(dòng)輒百萬(wàn)甚至千萬(wàn)美金）和頂尖人才（據(jù)說(shuō)全球不過(guò)百人）稀缺注定這是一條「少有人走的路」。

第二個(gè)辦法是在開源預(yù)訓(xùn)練模型上面做微調(diào)( Fine-Tuning ) 。 Vicuna、Alpaca 、Guanaco 羊駝系列預(yù)訓(xùn)練模型都是在最初的 LLaMA 上做了微調(diào)。目前，大部分國(guó)產(chǎn)大模型也是在 GPT、LLaMA 的框架上進(jìn)行訓(xùn)練與微調(diào)，并在此基礎(chǔ)上為客戶定制行業(yè)模型。

「還有一個(gè)辦法是在與訓(xùn)練好的模型上用 embedding 與 vectorization 做預(yù)檢索給企業(yè)提供私有數(shù)據(jù)的大模型。」簡(jiǎn)仁賢說(shuō)。

這個(gè)辦法做起來(lái)很方便，但弊端也很明顯。檢索依賴檢索的indexing及語(yǔ)義匹配效果來(lái)獲得比較好的輸出，如果 indexing 的檢索、ranking、語(yǔ)義相似與理解的匹配能力不夠，給到大模型的數(shù)據(jù)也會(huì)有誤差，這些技術(shù) NLP 廠商相對(duì)的做的更好。

在他看來(lái)，通過(guò)在預(yù)訓(xùn)練模型上微調(diào)獲得定制化行業(yè)模型（也就是第二個(gè)辦法）最適合中國(guó)國(guó)情，不過(guò)成本比只用 embedding 的方式高，技術(shù)與數(shù)據(jù)的門檻也比較高。

「生成式 AI 有一個(gè)很重要的特點(diǎn)，它是根據(jù)訓(xùn)練數(shù)據(jù)生成的，所以大模型在中國(guó)落地面臨的最大挑戰(zhàn)就是數(shù)據(jù)安全，模型安全?！购?jiǎn)仁賢認(rèn)為。

企業(yè)不可能把內(nèi)部數(shù)據(jù)上傳，比如產(chǎn)品設(shè)計(jì)、技術(shù)架構(gòu)、核心代碼、制造工藝、配方、客戶隱私，會(huì)議紀(jì)要，戰(zhàn)略文檔，業(yè)務(wù)規(guī)劃，商業(yè)邏輯等，一定要保留在內(nèi)部，尤其是對(duì)于國(guó)央企、金融、能源、大型集團(tuán)企業(yè)、先進(jìn)制造等數(shù)據(jù)敏感性較高的行業(yè)而言。所以，「未來(lái)一定是企業(yè)擁有自己專屬的、定制化、場(chǎng)景化的大模型?！?nbsp;

從成本上來(lái)看，在模型微調(diào)階段，可以依據(jù)不同任務(wù)(Task)來(lái)微調(diào)訓(xùn)練大模型，訓(xùn)練數(shù)據(jù)的多少，模型參數(shù)大小以及能力涵蓋的范圍，如果能有高效的訓(xùn)練方式以及自動(dòng)化的訓(xùn)練量產(chǎn)，可以達(dá)到規(guī)?；牡统杀?，絕大多數(shù)中型以上企業(yè)足以負(fù)擔(dān)。

國(guó)金證券曾做過(guò)初步測(cè)算，由 8 塊 A100 組成的 AI 服務(wù)器可為規(guī)模達(dá) 2,000 人的中大型企業(yè)提供 AI 服務(wù)，離線部署方案每年的推理算力成本約為 33.2 萬(wàn)元，若采用云計(jì)算方案則每年需花費(fèi)約 66 萬(wàn)元算力成本。

不過(guò)，企業(yè)負(fù)擔(dān)得起成本是一回事，工程技術(shù)上能不能靠自己搞定完全是另一碼事。

中國(guó) IT 應(yīng)用開發(fā)的成熟度不像美國(guó)那么發(fā)達(dá)。很多企業(yè)有 IT 團(tuán)隊(duì)，規(guī)模也不小，但主要是在維護(hù)內(nèi)部的業(yè)務(wù)系統(tǒng)，沒有人懂得模型如何落地，外部合格的人才也缺乏。

也許你會(huì)說(shuō)，直接賣給他們模型不就好了？但中國(guó)軟件和算法領(lǐng)域環(huán)境，跟美國(guó)差別很大。中國(guó)企業(yè)會(huì)花 2000 萬(wàn)買很多服務(wù)器，但很難買一個(gè)軟件。

「將模型當(dāng)作一個(gè)商品（commodity）賣給企業(yè)，就像賣代碼一樣，不太現(xiàn)實(shí)?！购?jiǎn)仁賢有過(guò)多年的中美從業(yè)經(jīng)驗(yàn)，美國(guó)企業(yè)能用 SaaS 就用 SaaS，中國(guó)企業(yè)更喜歡own （擁有）、control（把控）這個(gè)東西。「但如果你能給到一個(gè) total solution ，企業(yè)更容易買單?！?nbsp;

這也是竹間智能過(guò)去一直堅(jiān)持「授人以漁」的根本原因。借由他們提供的機(jī)器人「工廠」（BotFactory），銀行、證券、保險(xiǎn)、能源、制造、消費(fèi)等行業(yè)七、八百家客戶已經(jīng)定制出無(wú)數(shù)個(gè)私有的行業(yè)模型、特殊任務(wù)模型，包括情感分析在內(nèi)。

現(xiàn)在大語(yǔ)言模型可以做很多不需要再用代碼做的事情。未來(lái)代碼量會(huì)越來(lái)越少，模型數(shù)會(huì)越來(lái)越多，「模型就是代碼」。簡(jiǎn)仁賢一直強(qiáng)調(diào)這一點(diǎn)。

而另一方面，海量場(chǎng)景又需要不斷切換和更新、訓(xùn)練、運(yùn)維模型，那么，中間層會(huì)變得很重。「管理數(shù)據(jù)，管理模型、訓(xùn)練模型、微調(diào)模型，評(píng)測(cè)模型，推理運(yùn)維，讓模型持續(xù)迭代就會(huì)成為一個(gè)非常重要的產(chǎn)業(yè)?！顾J(rèn)為。

「這就像蓋房子并不難，但要蓋一個(gè)豪宅還是平民住宅，那就不一樣了?！?nbsp;

二、EmotiBrain 如何實(shí)現(xiàn)可定制？

有了 EmotiBrain 「金剛鉆」，幾乎可以解決企業(yè)攬下「瓷器活兒」過(guò)程中 70% 的問(wèn)題。

企業(yè)只用勾選基礎(chǔ)模型、訓(xùn)練數(shù)據(jù)和微調(diào)（Fine-Tuning ）方法，然后交給平臺(tái)自動(dòng)訓(xùn)練。根據(jù)結(jié)果評(píng)測(cè)，選出最適合業(yè)務(wù)的模型，直接接入企業(yè)應(yīng)用即可。

EmotiBrain 是一個(gè)企業(yè)定制化大模型的流水線平臺(tái)，所有復(fù)雜微調(diào)流程都被封裝在里面，內(nèi)置多個(gè)參數(shù)高效微調(diào)技術(shù)( Parameter-Efficient Fine Tuning )與驗(yàn)證過(guò)的訓(xùn)練數(shù)據(jù)集，包括竹間積累七年的行業(yè)訓(xùn)練數(shù)據(jù)集，透過(guò)簡(jiǎn)單 UI 設(shè)計(jì)，有「basic understanding 」的人就能馬上上手。

當(dāng)然，「你至少要了解什么樣數(shù)據(jù)合適，還有一些 Fine-Tuning 基本知識(shí)，但不需要知道很多細(xì)節(jié)?！购?jiǎn)仁賢補(bǔ)充道。

EmotiBrain 由三個(gè)核心部分組成。

一個(gè)是訓(xùn)練大模型的地方，Model Factory。工廠里，企業(yè)可以同時(shí)訓(xùn)練二十多個(gè)甚至上百個(gè)大模型，包括非常前沿的開源 LLM。比如，羊駝系列( LLaMA )。

企業(yè)也可以自己下載開源模型，放到平臺(tái)去訓(xùn)練。另外，模型工廠還提供竹間智能自己訓(xùn)練微調(diào)好的大模型。

「2019 年我們的模型做到了 3.4 億的參數(shù)量，也已開發(fā) Transformer 的模型」，據(jù)簡(jiǎn)仁賢透露，「現(xiàn)在已經(jīng)訓(xùn)練出來(lái)、可用的有 70 億、130 億的參數(shù)規(guī)模，下一步是 330 億參數(shù)與 650 億參數(shù)的模型，650 億參數(shù)的模型微調(diào)時(shí)間比較久一點(diǎn)，但新的高效方法如 QLoRA 提速了不少?！?nbsp;

模型選好后，就要選擇訓(xùn)練數(shù)據(jù)集，比如指令數(shù)據(jù)集，法律領(lǐng)域數(shù)據(jù)集、中醫(yī)西醫(yī)領(lǐng)域數(shù)據(jù)集、醫(yī)藥的數(shù)據(jù)集、財(cái)經(jīng)類數(shù)據(jù)集，汽車，電商，企業(yè)私有數(shù)據(jù)。

AI 大模型實(shí)現(xiàn)高性能，數(shù)據(jù)質(zhì)量比數(shù)據(jù)體量更重要。因此，竹間智能將過(guò)去七年積累下的行業(yè)訓(xùn)練語(yǔ)料（包括中英文訓(xùn)練數(shù)據(jù)）做了優(yōu)化，放到了平臺(tái)。

選好訓(xùn)練數(shù)據(jù)集后，就來(lái)到最具挑戰(zhàn)的環(huán)節(jié)——對(duì)預(yù)訓(xùn)練的模型展開微調(diào)。「現(xiàn)在大模型還有一個(gè)非常大的缺點(diǎn)，你要會(huì)寫提示（prompt）才能把大模型用得好，這可不是任何人都能寫得好的。」簡(jiǎn)仁賢說(shuō)。

讓大模型變得聰明起來(lái)的辦法很多，無(wú)論是 Instruct learning、in context learning、Chain of Thought (CoT)，門檻都比較高，模型工程師也要懂得很多技術(shù)細(xì)節(jié)。竹間智能將八年來(lái) NLP 模型訓(xùn)練的 know-how，再加上大語(yǔ)言模型訓(xùn)練的know-how，以及包括最前沿、最新微調(diào)技術(shù)在內(nèi)的許多微調(diào)方法（比如DeepSpeed、LoRA、QLoRA、P-Tuning等），都做到了模型工廠里，變成幫助企業(yè)的工具。即使用戶不用懂技術(shù)細(xì)節(jié)，也可以做微調(diào)。

用戶還可以用 RLHF（Human Feedback Reinforcement Learning）的 Fine-Tuning 方式進(jìn)行微調(diào)，等于賦予企業(yè)以「指令微調(diào)定制」的方式滿足自己的個(gè)性化需求。

例如，選出某個(gè)模型，詢問(wèn)相關(guān)問(wèn)題，看看輸出結(jié)果怎么樣，給它做標(biāo)注。以少量標(biāo)注的高質(zhì)量模板數(shù)據(jù)，對(duì)模型的輸出進(jìn)行誘導(dǎo)與限制，讓模型的輸出更加符合企業(yè)業(yè)務(wù)的喜好，同時(shí)減少模型的有害輸出。

簡(jiǎn)仁賢反復(fù)強(qiáng)調(diào)，EmotiBrain 可以幫你構(gòu)建的，從來(lái)不是一個(gè)模型，而是同時(shí)訓(xùn)練多個(gè)模型。例如，當(dāng)用戶選擇三個(gè)預(yù)訓(xùn)練模型進(jìn)行微調(diào)時(shí)，又分別選擇了三組測(cè)試數(shù)據(jù)、三種微調(diào)方法，最后會(huì)得到 27 個(gè)定制化模型。

如何從多個(gè)模型里面選出最合適的？這就離不開平臺(tái)的第二個(gè)核心要件 Benchmark System。在這里，每個(gè)模型就像一個(gè)個(gè)被多維度評(píng)分系統(tǒng)加以評(píng)估的小朋友，每個(gè)人都有自己的一套得分：比如平均分?jǐn)?shù)、推理分?jǐn)?shù)、知識(shí)分?jǐn)?shù)、對(duì)話分?jǐn)?shù)、上下文，文本生成分?jǐn)?shù)等。每個(gè)模型的長(zhǎng)處、短板和綜合實(shí)力，一目了然。

最后，用戶可透過(guò)平臺(tái)將選定的定制化模型部署到自己的服務(wù)器，或者跑在企業(yè)私有云，當(dāng)然，也支持對(duì)接所有廠商的云計(jì)算平臺(tái)。系統(tǒng)會(huì)自動(dòng)產(chǎn)生 API，與既有的企業(yè)應(yīng)用做結(jié)合，企業(yè)馬上就能用起來(lái)。

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關(guān)鍵詞： AI

相關(guān)推薦

WTC-AI太陽(yáng)能熱水器電路圖

設(shè)計(jì)方案 WTC-AI 太陽(yáng)能熱水器電路圖 | 2012-07-24

WTC-AI型太陽(yáng)能熱水器電路圖

設(shè)計(jì)方案電子電路圖，WTC-AI 太陽(yáng)能熱水器電路熱水器 | 2012-07-30

蘋果承認(rèn)：AI模型使用谷歌定制芯片訓(xùn)練

智能計(jì)算蘋果 AI 谷歌定制芯片 | 2024-07-30

蘋果表示其AI模型是在谷歌的定制芯片上訓(xùn)練的

智能計(jì)算 AI | 2024-07-30

深圳加快打造 AI 先鋒城市，今年將建成 4000PFLOPS 算力智算中心

智能計(jì)算 AI 智能計(jì)算深圳 | 2024-07-30

國(guó)際奧委會(huì)：最大限度發(fā)揮 AI 工具影響力，體育人才選拔方式有望得到革新

智能計(jì)算 AI 奧運(yùn)會(huì) 體育 | 2024-07-26

海聯(lián)達(dá)（Aigale）Ai-HD1 無(wú)線全高清套件拆解

zhuwei0710 | 2013-04-28

如何快速搭建手寫體識(shí)別演示系統(tǒng)

視頻 digikey AI 手寫體識(shí)別 | 2022-07-29

2021春晚黑科技，火爆全網(wǎng)的\"打工牛\"是什么來(lái)頭？

視頻 AI 機(jī)器人 | 2021-02-26

AI驅(qū)動(dòng)的嵌入式聲音和振動(dòng)識(shí)別

視頻 ADI AI 嵌入式 OtoSense | 2018-10-23

“破局AI開發(fā)，釋放邊緣算力開發(fā)者訪談”，干貨滿滿！

視頻 intel AI OpenVINO | 2021-06-10

萬(wàn)家樂(lè)JSYZ5-AI燃?xì)鉄崴麟娐穲D

設(shè)計(jì)方案電路圖熱水器 JSYZ5-AI 萬(wàn)家樂(lè) | 2013-01-17

攻擊成功率從 3% 到接近 100%，利用空格鍵可繞過(guò) Meta AI 模型安全系統(tǒng)

智能計(jì)算 Meta AI | 2024-07-31

大嘴業(yè)話-AI目前市場(chǎng)分析

視頻人工智能，AI，ChatGPT，互聯(lián)網(wǎng)技術(shù) | 2023-04-25

Nvidia的CEO談AI的未來(lái)：“我們將需要三臺(tái)電腦... 一臺(tái)來(lái)創(chuàng)建AI... 一臺(tái)來(lái)模擬AI... 一臺(tái)來(lái)運(yùn)行AI”

智能計(jì)算 AI | 2024-07-31

CSR8670CSR8675智能語(yǔ)音Alexa藍(lán)牙方案開發(fā)

資源下載 AI 智能語(yǔ)音 | 2017-12-14

摩根士丹利：僅 GB200 AI 服務(wù)器業(yè)務(wù)，就為英偉達(dá)創(chuàng)造 2100 億美元年收入

智能計(jì)算 GB200 AI 英偉達(dá) GPU | 2024-07-26

EEPW2018年3月刊(工業(yè)物聯(lián)網(wǎng))

資源下載工業(yè)物聯(lián)網(wǎng) AI | 2018-03-12

繼上次海聯(lián)達(dá)Ai-ap100拆機(jī)之電源改造

zhuwei0710 | 2013-04-03

人工智能是如何幫助阻止造假者的？

謝丫丫 | 2018-08-14

EEPW2018年6月刊(5G)

資源下載 5G AI | 2018-06-11

電子元件培訓(xùn)教材

資源下載 NBA 電子元件識(shí)別電阻識(shí)別電容識(shí)別 AI MI SMT DIP 靜電防護(hù) | 2008-09-20

iCAN-4017 AI功能模塊

資源下載周立功單片機(jī) 功能模塊 iCAN-4017 AI | 2007-03-30

AI+機(jī)器視覺成趨勢(shì)，圖文詳解N大應(yīng)用場(chǎng)景

智能計(jì)算安森美 AI 機(jī)器視覺 | 2024-07-31

iPhone 16將不會(huì)預(yù)裝AI功能？計(jì)劃通過(guò)iOS 18.1發(fā)布

iPhone AI iOS | 2024-07-30

加大調(diào)整力度，教育部支持高校布局集成電路、AI 等專業(yè)

智能計(jì)算教育 AI 集成電路 | 2024-07-25

瑞薩電子AI單元解決方案成功提高GE醫(yī)療（日本）日野工廠的生產(chǎn)力

winni945 | 2018-09-12

釋說(shuō)芯語(yǔ)16：硬科技：構(gòu)建企業(yè)未來(lái)之路（附PPT）

jackwang | 2018-10-22

焦點(diǎn)

推薦視頻

更多>>

技術(shù)專區(qū)