GPT-3 不夠 Open,BigScience 構建開放語言模型,規(guī)模小 16 倍
編譯 | 禾木木
出品 | AI科技大本營(ID:rgznai100)
大約一年前,總部位于紐約布魯克林的自然語言處理初創(chuàng)公司 Hugging Face 推出了 BigScience。這是一個擁有 900 多名研究人員的國際項目,旨在更好地理解自然語言模型原理和提高大型語言模型的質量。大型語言模型(LLM)能夠實現(xiàn)基于文本的數(shù)據(jù)集識別、預測和生成語言的算法,已經(jīng)吸引了商業(yè)和技術愛好者的廣泛關注。但是,它們背后沒有像 OpenAI 和 DeepMind 這樣的資源,開發(fā) LLM 所需要的昂貴硬件成本仍然是研究人員的困難。
從歐洲核研究組織(CERN)及大型強子對接機等項目中收獲得靈感,BigScience 的目標是創(chuàng)建 LLM 和大型文本數(shù)據(jù)集,并將這些數(shù)據(jù)集最終向更廣泛的人工智能社區(qū)開放。這些模型將在法國巴黎附近的 Jean Zay 超級計算機上進行訓練,這也是迄今為止全球最強大的機器設備之一。
對企業(yè)巨頭們的影響可能還不清楚,但 BigScience 這樣的努力實際是在降低 LLM 的接觸門檻、提升模型開發(fā)透明度。除了由開放 AI 研究小組 EleutherAI 創(chuàng)建的幾個模型之外,很少有經(jīng)過培訓的 LLM 可供研究或部署到生產(chǎn)中。OpenAI 拒絕將其最強大的 GPT-3 模型開源,反而是將源代碼獨家授權給了微軟。與此同時,像英偉達等廠商雖然發(fā)布了性能不錯的 LLM 代碼,但是將這些 LLM 的訓練留給了具有足夠強大硬件的用戶。
剛剛離開 Meta(前 Facebook)AI 研究部門、轉投 Hugging Face 擔任研究主管的 Douwe Kiela 表示:“很明顯,直接跟業(yè)界巨頭對抗并非明智之舉。但作為弱勢一方,我們可以找尋 Hugging Face 最與眾不同的優(yōu)勢。初創(chuàng)企業(yè)更具活力,工作進程更快,而且對于開源的關注也讓我們能夠與來自學界乃至其他領域的研究人員們建立起強大的社區(qū)合作關系。這一切,都是在為 AI 技術的大眾化與公平化進程而努力?!?/p>
LLM 大眾化
LLM 與其他任何語言模型一樣,也需要根據(jù)文本示例理解單詞出現(xiàn)的幾率。較為簡單的模型會在特定語境下瀏覽,而大型模型則直接去理解句子甚至是段落。示例以訓練數(shù)據(jù)集中的文本形式出現(xiàn),包含從社交媒體、維基百科、書籍、GitHub 等軟件托管平臺以及公共網(wǎng)絡上抓取到的 TB 級、甚至是 PB 級數(shù)據(jù)素材。
我們往往無法使用現(xiàn)成商用硬件訓練最先進的 LLM 模型,部署最先進的 LLM 的障礙才是巨大的。像英偉達及微軟的 Megatron 530B LLM 整個訓練周期耗費可能高達數(shù)百萬美元,這還不包含模型存儲所帶來的費用。接下來則是推理階段,即通過運行訓練后模型獲得預測結果。根據(jù)估計,在單一 AWS 實例上運行 GPT-3 的成本至少為 87000 美元。
年初發(fā)布的 EleutherAi 模型與訓練數(shù)據(jù)集倒是做出了一些更加可行的商業(yè)化。但此次 BigScience 的適用范圍更廣,不僅涵蓋 LLM 的訓練與發(fā)布,同時也解決了不少重大技術缺陷。
解決不平等問題
從計算的角度來看,LLM的好處并不是嚴格地分布不均的。英語法 LLM 的數(shù)量遠遠超過其他語言培訓的 LLM,少數(shù)西歐語言(特別是德語,法語和西班牙語)占據(jù)了主導地位。正如哈佛大學、喬治梅森(George Mason)和卡耐基梅隆大學(Carnegie Mellon)近期共同發(fā)布了一項關于語言技術的研究,語言使用者的"經(jīng)濟實力"往往會推動模型的發(fā)展,而不是人口需求。
用英語以外的語言訓練的大型多語言和單語模型雖然很少開源,但正變得比以前更常見,部分歸功于企業(yè)利益。但是,由于公共數(shù)據(jù)源中的系統(tǒng)性偏差,非英語模型的表現(xiàn)并不總是與英語模型一樣好。例如,基于維基百科的數(shù)據(jù)集內不同語種的素材規(guī)模差異巨大,而且在待完善內容方面的立項百分比、編輯次數(shù)和用戶瀏覽量上也截然不同。相當一部分使用特定語種的群體根本無法訪問維基百科。此外,阿拉伯語和烏爾都語版本的電子書大多為圖像掃描件、而非純文本,在使用光學字符識別工具轉錄過程中其精度可能低至 70%。
作為其工作的一部分,BigScience表示,它已經(jīng)制作了分布在世界各地的近200種語言資源的目錄。該項目的貢獻者還創(chuàng)建了最大的阿拉伯語公共自然語言目錄之一,稱為Masader,擁有200多個數(shù)據(jù)集。
結語
在商業(yè)應用中,BIgScience 的工作很有可能會激發(fā)出原有 LLM 無法利用的全新 AI 驅動產(chǎn)品。語言模型已成為醫(yī)療保健、金融服務等行業(yè)的關鍵工具,可用于處理專利、從科學論文中獲得見解,推薦新聞文章等。但是,規(guī)模較小的組織也越來越多地被排除在 AI 的前沿進步之外。
在 John Snow Labs 與 Gradient Flow 在 2021 年的一項調查中,受訪企業(yè)普遍將準確性列為語言模型評估中的重要要素,其次是生產(chǎn)就緒性和可擴展性。最大的挑戰(zhàn)體現(xiàn)為成本、維護與數(shù)據(jù)共享。
盡管 LLM 有潛在的危害,仍然在基礎知識層面也仍然沒有找到可行的出路,經(jīng)常會自主打破語義規(guī)則并無休止地原地轉圈。例如,模型經(jīng)常會在沒有轉義的情況下改變對話主題,或者說出自相矛盾的言論。LLM 在道德、歷史和法律問題上的了解也堪稱淺薄,甚至會在無意間暴露出公共訓練數(shù)據(jù)集中的個人信息。
Kiela 表示“在 Hugging Face 各研究團隊的共同努力下,我們希望在 Meta 式的自下而上探索,與 DeepMind/OpenAI 式的自上而下研究之間找到完美的平衡點。在自下而上時,我們往往會遇到不必要的摩擦、競爭與資源爭用問題。至于自上而下,研究人員的自由意志與創(chuàng)造力則會受到打壓。我們的員工來自谷歌、Meta 以及整個學術界,所以當下正是最好的探索時機。我們希望創(chuàng)造出一種新的開創(chuàng)性研究環(huán)境,給傳統(tǒng)實驗思維帶來一點有益的啟發(fā)和補充。”
原文鏈接:
https://venturebeat.com/2022/01/10/inside-bigscience-the-quest-to-build-a-powerful-open-language-model/
*博客內容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權請聯(lián)系工作人員刪除。