GPT國內(nèi)的一些產(chǎn)品真的比國外的差嗎?(1)
本次討論的話題僅限于計算機視覺研究院個人觀點,若有說的不對的地方勿噴,有興趣的也可以加入我們ChatGPT討論興趣小組。
一、背景
ChatGPT到底是個啥?對于小白或者不知情的人士,其實對其還是很不了解,并且通過各種媒體報道,覺得它是一個神乎其神的產(chǎn)品,也是未來可替代部分勞動力的源頭。那今天我們來聊聊這個GPT,并說說國內(nèi)發(fā)布的情況以及未來發(fā)展,真的國內(nèi)會比國外差嗎?——這個問題是開放性問題,大家可以一起討論。
ChatGPT的橫空出世拉開了大語言模型(LLM)產(chǎn)業(yè)和生成式AI產(chǎn)業(yè)蓬勃發(fā)展的序幕。今天我們先分析“OpenAI ChatGPT的成功之路”、“國內(nèi)ChatGPT產(chǎn)業(yè)發(fā)展趨勢”、“ChatGPT應用場景”、“ChatGPT風波下的‘?!c‘機’”四個問題。聚焦國內(nèi)市場,辨析中國自研通用基礎大語言模型的重要意義、分析中國大語言模型產(chǎn)業(yè)參與角色分化路徑及原因、梳理呈現(xiàn)中國大語言模型產(chǎn)業(yè)受益鏈圖譜。
大模型(以LLM為主,包含多模態(tài)模型等)產(chǎn)業(yè)的蓬勃發(fā)展將改變數(shù)字產(chǎn)業(yè)生態(tài),助力AI工業(yè)化進程、變革交互方式、創(chuàng)造數(shù)字產(chǎn)業(yè)新的增長空間。
二、分析
OpenAI ChatGPT的成功之路
ChatGPT的發(fā)展史可以追溯到2015年,美國OpenAI公司由特斯拉創(chuàng)始人馬斯克等硅谷大亨創(chuàng)立。2017年,OpenAI推出了基于Transformer模型的GPT-1,隨后于2018年推出了具有1.17億個參數(shù)的GPT-1模型。2019年,OpenAI公布了GPT-2,具有15億個參數(shù),該模型架構與GPT-1原理相同,主要區(qū)別是比GPT-1的規(guī)模更大。2020年,OpenAI推出了最新的GPT-3模型,具有1750億個參數(shù)。GPT-3模型的訓練規(guī)模比GPT-2更大,使用了更大量的語料庫進行訓練,從而可以生成更加準確和有用的文本。2022年3月,OpenAI推出了InstructGPT模型,該模型為GPT-3的微調(diào)版,以教人為目的而訓練的 language model。2022年11月底,人工智能對話聊天機器人ChatGPT推出,短短幾個月時間,ChatGPT在2023年1月份的月活躍用戶數(shù)已達1億,這使其成為史上用戶數(shù)增長最快的消費者應用。
總的來說,ChatGPT的發(fā)展歷程曲折而精彩,OpenAI公司在人工智能領域持續(xù)探索,不斷推出新的模型和產(chǎn)品,旨在讓人工智能技術更好地服務于人類。
- ChatGPT與InstructGPT
談到Chatgpt,就要聊聊它的“前身”InstructGPT。2022年初,OpenAI發(fā)布了InstructGPT;在這項研究中,相比 GPT-3 而言,OpenAI 采用對齊研究(alignment research),訓練出更真實、更無害,而且更好地遵循用戶意圖的語言模型 InstructGPT,InstructGPT是一個經(jīng)過微調(diào)的新版本GPT-3,可以將有害的、不真實的和有偏差的輸出最小化。
- InstructGPT的工作原理是什么?
開發(fā)人員通過結合監(jiān)督學習+從人類反饋中獲得的強化學習。來提高GPT-3的輸出質(zhì)量。在這種學習中,人類對模型的潛在輸出進行排序;強化學習算法則對產(chǎn)生類似于高級輸出材料的模型進行獎勵。訓練數(shù)據(jù)集以創(chuàng)建提示開始,其中一些提示是基于GPT-3用戶的輸入,比如“給我講一個關于青蛙的故事”或“用幾句話給一個6歲的孩子解釋一下登月”。開發(fā)人員將提示分為三個部分,并以不同的方式為每個部分創(chuàng)建響應:人類作家會對第一組提示做出響應。開發(fā)人員微調(diào)了一個經(jīng)過訓練的GPT-3,將它變成InstructGPT以生成每個提示的現(xiàn)有響應。下一步是訓練一個模型,使其對更好的響應做出更高的獎勵。對于第二組提示,經(jīng)過優(yōu)化的模型會生成多個響應。人工評分者會對每個回復進行排名。在給出一個提示和兩個響應后,一個獎勵模型(另一個預先訓練的GPT-3)學會了為評分高的響應計算更高的獎勵,為評分低的回答計算更低的獎勵。
開發(fā)人員使用第三組提示和強化學習方法近端策略優(yōu)化(Proximal Policy Optimization, PPO)進一步微調(diào)了語言模型。給出提示后,語言模型會生成響應,而獎勵模型會給予相應獎勵。PPO使用獎勵來更新語言模型。重要在何處?核心在于——人工智能需要是能夠負責任的人工智能OpenAI的語言模型可以助力教育領域、虛擬治療師、寫作輔助工具、角色扮演游戲等,在這些領域,社會偏見、錯誤信息和毒害信息存在都是比較麻煩的,能夠避免這些缺陷的系統(tǒng)才能更具備有用性。
- Chatgpt與InstructGPT的訓練過程有哪些不同?
總體來說,Chatgpt和上文的InstructGPT一樣,是使用RLHF(從人類反饋中強化學習)訓練的。不同之處在于數(shù)據(jù)是如何設置用于訓練(以及收集)的。(注解:之前的InstructGPT模型,是給一個輸入就給一個輸出,再跟訓練數(shù)據(jù)對比,對了有獎勵不對有懲罰;現(xiàn)在的Chatgpt是一個輸入,模型給出多個輸出,然后人給這個輸出結果排序,讓模型去給這些結果從“更像人話”到“狗屁不通”排序,讓模型學習人類排序的方式,這種策略叫做supervised learning。
國內(nèi)外競品分析
國內(nèi)外主要LLMs研發(fā)路徑與技術對比(轉自艾瑞咨詢)
(轉自艾瑞咨詢)
- 國內(nèi)外LLMs產(chǎn)商商業(yè)路徑對比
a、研究方向:
國外:谷歌、微軟、臉書等大型語言模型公司主要研究方向為自然語言處理技術(NLP)和人工智能(AI),致力于開發(fā)更為智能、更具有交互性的語言模型。他們將大語言模型視為未來數(shù)字世界與人類之間溝通的橋梁,以此為出發(fā)點不斷拓展技術邊界。
國內(nèi):國內(nèi)公司在確保技術領先的基礎上,更加關注產(chǎn)業(yè)鏈的整合和布局。中國大型語言模型公司傾向于在多個領域同時發(fā)力,包括基礎層(芯片、算法、云計算)、技術層(語言模型、預訓練模型)和應用層(智能手機、智能汽車、智能家居等),旨在打造更加全面和具有綜合競爭力的產(chǎn)業(yè)生態(tài)。
b、商業(yè)變現(xiàn):
國外:國外公司主要通過向企業(yè)出售大型語言模型提供的API服務接口來實現(xiàn)商業(yè)變現(xiàn),或者通過將廣告投放至模型輸出結果界面等方式獲得營收。
(轉自艾瑞咨詢)
國內(nèi):國內(nèi)公司則主要依靠向企業(yè)提供定制化的AI能力輸出、技術賦能和解決方案,從而實現(xiàn)收益。同時,基于大語言模型的AI 2.0技術也在逐步拓展到智能手機、智能汽車、智能家居等領域,通過與移動互聯(lián)網(wǎng)、物聯(lián)網(wǎng)等產(chǎn)業(yè)結合,實現(xiàn)更為豐富的應用場景和商業(yè)模式。
(轉自艾瑞咨詢)
c、未來展望:
國外:未來,國外公司將繼續(xù)深耕自然語言處理技術和人工智能領域,致力于打造更為智能、更為人性化的大語言模型。同時,國外公司也將拓展更多元化的應用場景,例如醫(yī)療、教育等領域,通過大語言模型技術的不斷升級和進步,為用戶帶來更多便利和價值。
國內(nèi):國內(nèi)公司將繼續(xù)在基礎研究和應用場景方面取得平衡發(fā)展,注重提升大語言模型的智能性和可用性。同時,隨著中國產(chǎn)業(yè)升級和消費升級的推進,大語言模型技術將被廣泛應用于智能制造、智慧城市、智能金融等領域,為中國經(jīng)濟的數(shù)字化轉型和升級提供強有力的支撐。
總體來說,國內(nèi)外大語言模型產(chǎn)商的商業(yè)路徑存在一定差異,但都在不斷拓展技術邊界,以更好地適應市場需求和變化。隨著大語言模型技術的不斷發(fā)展和成熟,這些差異可能會逐漸縮小,而更加注重發(fā)掘模型的商業(yè)價值和技術實用性。
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權請聯(lián)系工作人員刪除。