大模型能自己「寫」論文了,還帶公式和參考文獻(xiàn),試用版已上線
Meta AI 提出了一個(gè)可以總結(jié)學(xué)術(shù)文獻(xiàn),解決數(shù)學(xué)問題的新模型,該模型還能生成百科文章,編寫科學(xué)代碼,注釋分子和蛋白質(zhì)等等。
近年來,隨著各學(xué)科領(lǐng)域研究的進(jìn)步,科學(xué)文獻(xiàn)和數(shù)據(jù)呈爆炸式增長(zhǎng),使學(xué)術(shù)研究者從大量信息中發(fā)現(xiàn)有用的見解變得越來越困難。通常,人們借助搜索引擎來獲取科學(xué)知識(shí),但搜索引擎不能自主組織科學(xué)知識(shí)。
現(xiàn)在,來自 Meta AI 的研究團(tuán)隊(duì)提出了一種新的大型語言模型 Galactica,可以存儲(chǔ)、組合和推理科學(xué)知識(shí)。
論文地址:https://galactica.org/static/paper.pdf
試用地址:https://galactica.org/
Galactica 模型有多強(qiáng)大呢,它可以自己總結(jié)歸納出一篇綜述論文:
也可以生成詞條的百科查詢:
對(duì)所提問題作出知識(shí)性的回答:
這些任務(wù)對(duì)于人類學(xué)者來說尚且是具有挑戰(zhàn)性的任務(wù),但 Galactica 卻很好地完成了。圖靈獎(jiǎng)得主 Yann LeCun 也在推特上發(fā)文稱贊:
我們來看一下 Galactica 模型的具體細(xì)節(jié)。
模型概述
Galactica 模型是在大量的論文、參考資料、知識(shí)庫(kù)和許多其他來源的科學(xué)語料庫(kù)上進(jìn)行訓(xùn)練的,包括超過 4800 萬篇論文、教科書和講義、數(shù)百萬種化合物和蛋白質(zhì)知識(shí)、科學(xué)網(wǎng)站、百科全書等。與依賴于未經(jīng)整理的、基于網(wǎng)絡(luò)爬蟲文本的現(xiàn)有語言模型不同,Galactica 訓(xùn)練所用的語料庫(kù)是高質(zhì)量且經(jīng)過高度整理的。該研究在不過擬合的前提下對(duì)模型進(jìn)行多個(gè) epoch 的訓(xùn)練,其中在上游和下游任務(wù)上的性能通過使用重復(fù)的 token 得到改善。
Galactica 的性能在一系列科學(xué)任務(wù)上優(yōu)于現(xiàn)有模型。在 LaTeX 方程式等技術(shù)知識(shí)的探索任務(wù)上,Galactica 與 GPT-3 的性能是 68.2% VS 49.0%。Galactica 在推理方面也表現(xiàn)出色,在數(shù)學(xué) MMLU 基準(zhǔn)上的表現(xiàn)顯著優(yōu)于 Chinchilla。
盡管沒有接受過通用語料庫(kù)的訓(xùn)練,Galactica 在 BIG-bench 上的性能也優(yōu)于 BLOOM 和 OPT-175B。此外,它還在 PubMedQA 和 MedMCQA 開發(fā)等下游任務(wù)上創(chuàng)下了 77.6% 和 52.9% 的性能新高。
簡(jiǎn)單來說,該研究將逐步推理封裝在特殊的 token 中,以模仿內(nèi)部工作原理。這允許研究人員使用自然語言與模型進(jìn)行交互,下圖是 Galactica 的試用界面。
值得一提的是,除了文本生成,Galactica 還可以執(zhí)行涉及化學(xué)公式和蛋白質(zhì)序列的多模態(tài)任務(wù)。這將為****物發(fā)現(xiàn)領(lǐng)域做出貢獻(xiàn)。
實(shí)現(xiàn)細(xì)節(jié)
本文的語料庫(kù)包含 1060 億個(gè) token,這些 token 來自論文、參考文獻(xiàn)、百科全書以及其他科學(xué)資料??梢哉f該研究將自然語言資源(論文、參考書)與自然界中的序列(蛋白質(zhì)序列、化學(xué)形式)都囊括了。表 1 和表 2 中顯示了語料庫(kù)的細(xì)節(jié)。
語料庫(kù)有了,接下來是對(duì)數(shù)據(jù)怎么操作。一般來講,對(duì) tokenization 的設(shè)計(jì)是非常重要的。例如,蛋白質(zhì)序列是根據(jù)氨基酸殘基來編寫的,那么基于字符的 tokenization 是合適的。為了實(shí)現(xiàn) tokenization,該研究對(duì)不同的模態(tài)進(jìn)行了專門的 token 化。具體表現(xiàn)在(包括但不僅限于):
引用:用特殊的參考 token[START_REF]和 [END_REF] 來包裝引用;
逐步推理:用 working memory token 來封裝逐步推理,模擬內(nèi)部 working memory 上下文;
數(shù)字:把數(shù)字分成單獨(dú)的 token。例如, 737612.62 → 7,3,7,6,1,2,.,6,2;
SMILES 公式:用 [START_SMILES] 和[END_SMILES]包裝序列,并應(yīng)用基于字符的 tokenization。同樣,該研究使用 [START_I_SMILES] 和[END_I_SMILES]來表示異構(gòu)體 SMILES。例如:C(C(=O)O)N→C,(,C,(,=,O,),O,),N;
DNA 序列:應(yīng)用一種基于字符的 tokenization,將每個(gè)核苷酸堿基視為一個(gè) token,其中起始 token 為 [START_DNA] 和[END_DNA]。例如,CGGTACCCTC→C, G, G, T, A, C, C, C, T, C。
如下圖 4 顯示了對(duì)一篇論文的引用進(jìn)行處理的示例。在處理引用時(shí)使用全局標(biāo)識(shí)符和特殊 token[START_REF]和 [END_REF] 來表示引用的地方。
數(shù)據(jù)集處理好之后,接下來就是怎么實(shí)現(xiàn)。Galactica 在 Transformer 架構(gòu)的基礎(chǔ)上進(jìn)行了以下修改:
GeLU 激活:將 GeLU 激活用于各種大小的模型;
上下文窗口:對(duì)于不同大小的模型,使用 2048 長(zhǎng)度的上下文窗口;
無偏置:遵循 PaLM,在密集內(nèi)核或?qū)右?guī)范中不使用偏置;
學(xué)習(xí)位置嵌入:學(xué)習(xí)位置嵌入用于模型;
詞匯表:使用 BPE 構(gòu)建一個(gè)包含 50k token 的詞匯表。
表 5 列出了不同大小模型以及訓(xùn)練超參數(shù)。
實(shí)驗(yàn)
重復(fù)的 token 被認(rèn)為是無害的
從圖 6 可以看出,在經(jīng)過四個(gè) epoch 的訓(xùn)練之后,驗(yàn)證損失繼續(xù)下降。擁有 120B 參數(shù)的模型在第五個(gè) epoch 開始時(shí)才開始過擬合。這是出乎意料的,因?yàn)楝F(xiàn)有的研究表明重復(fù)的 token 可能對(duì)性能有害。該研究還發(fā)現(xiàn),30B 和 120B 的模型在 epoch-wise 后表現(xiàn)出雙下降效應(yīng),即驗(yàn)證損失達(dá)到平穩(wěn)(或上升),然后是下降。這種效果在每個(gè) epoch 后都變得更強(qiáng),最明顯的是 120B 模型在訓(xùn)練結(jié)束時(shí)。
圖 8 結(jié)果顯示實(shí)驗(yàn)沒有出現(xiàn)過擬合跡象,這表明重復(fù) token 能夠提高下游和上游任務(wù)性能。
其他結(jié)果
鍵入公式太慢了,現(xiàn)在用提示就能生成 LaTeX:
在化學(xué)反應(yīng)中,要求 Galactica 在化學(xué)方程 LaTeX 中預(yù)測(cè)反應(yīng)的產(chǎn)物,模型僅根據(jù)反應(yīng)物就能進(jìn)行推理,結(jié)果如下:
表 7 中報(bào)告了一些其他結(jié)果:
Galactica 的推理能力。該研究首先在 MMLU mathematics 基準(zhǔn)上進(jìn)行評(píng)估,并在表 8 中報(bào)告了評(píng)估結(jié)果。Galactica 與較大的基礎(chǔ)模型相比表現(xiàn)強(qiáng)勁,并且使用 token 似乎可以提高 Chinchilla 的性能,即使對(duì)于較小的 30B Galactica 模型也是如此。
該研究還對(duì) MATH 數(shù)據(jù)集進(jìn)行了評(píng)估,以進(jìn)一步探索 Galactica 的推理能力:
從實(shí)驗(yàn)結(jié)果可以得出:Galactica 在思維鏈和提示方面都大大優(yōu)于基礎(chǔ) PaLM 模型。這表明 Galactica 在處理數(shù)學(xué)任務(wù)上是個(gè)更好的選擇。
在下游任務(wù)的評(píng)估結(jié)果如表 10 所示。Galactica 顯著優(yōu)于其他語言模型,并且在大多數(shù)任務(wù)中優(yōu)于更大的模型(Gopher 280B)。與 Chinchilla 相比,性能表現(xiàn)差異更大,Chinchilla 在子集任務(wù)上似乎更強(qiáng):特別是高中科目以及數(shù)學(xué)較少、記憶密集型任務(wù)。相比之下,Galactica 往往在數(shù)學(xué)和研究生水平的任務(wù)中表現(xiàn)更好。
該研究還評(píng)估了 Chinchilla 在給定輸入上下文的情況下預(yù)測(cè)引用的能力,這是對(duì) Chinchilla 組織科學(xué)文獻(xiàn)能力的一個(gè)重要測(cè)試。結(jié)果如下:
更多實(shí)驗(yàn)內(nèi)容,請(qǐng)參考原論文。
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。
高通濾波器相關(guān)文章:高通濾波器原理