萬字長文解讀:從Transformer到ChatGPT,通用人工智能曙光初現(xiàn)(1)
圖1 ChatGPT引發(fā) Google“紅色警報” [1][2][3]
從機器翻譯到ChatGPT:自然語言處理的進化自然語言處理的歷史可以追溯到1949年,恰好與共和國同齡。但是由香農(nóng)的學生、數(shù)學家Warren Weaver發(fā)布的有關機器翻譯的研討備忘錄被認為是自然語言處理的起點,比1956年達特茅斯會議提出“人工智能(Artificial Intelligence,AI)” 的概念還略早一些。二十世紀五、六十年代是自然語言處理發(fā)展的第一階段,致力于通過詞典、生成語法(圖2)和形式語言來研究自然語言,奠定了自然語言處理技術的基礎,并使得人們認識到了計算對于語言的重要意義。這個階段的代表性的成果有1954年自動翻譯(俄語到英語)的“Georgetown–IBM實驗”,諾姆·喬姆斯基(Noam Chomsky)于1955年提交的博士論文《變換分析(Transformational Analysis)》和1957年出版的著作《句法結構(Syntactic Structures)》等。圖2 句法分析示例,來自《知識圖譜:認知智能理論與實戰(zhàn)》圖4-5,P149[6]在二十世紀六、七十年代,對話系統(tǒng)得到了發(fā)展,比如SHRDLU、LUNAR和ELIZA(圖3)。麻省理工學院的SHRDLU采用句法分析與“啟發(fā)式理解器(heuristic understander)”相結合的方法來理解語言并做出響應。LUNAR科學自然語言信息系統(tǒng)(Lunar Sciences Natural Language Information System)則試圖通過英語對話的方式來幫助科學家們便捷地從阿帕網(wǎng)(ARPA net)獲取信息,這倒像是當前爆火的ChatGPT雛形。ELIZA是那時對話系統(tǒng)的集大成者,集成了關鍵詞識別(圖4)、最小上下文挖掘、模式匹配和腳本編輯等功能[5]。圖3 ELIZA對話系統(tǒng),摘自維基百科ELIZA詞條圖4 ELIZA系統(tǒng)中關鍵詞挖掘的流程圖[5]隨著自然語言處理任務愈加復雜,人們認識到知識的缺乏會導致在復雜任務上難以為繼,由此知識驅動人工智能逐漸在二十世紀七、八十年代興起。語義網(wǎng)絡(Semantic Network)和本體(Ontology)是當時研究的熱點,其目的是將知識表示成機器能夠理解和使用的形式,并最終發(fā)展為現(xiàn)在的知識圖譜[6]。在這個階段,WordNet、CYC等大量本體庫被構建,基于本體和邏輯的自然語言處理系統(tǒng)是研究熱點。進入二十世紀末二十一世紀初,人們認識到符號方法存在一些問題,比如試圖讓邏輯與知識覆蓋智能的全部方面幾乎是不可完成的任務。統(tǒng)計自然語言處理(Statistical NLP)由此興起并逐漸成為語言建模的核心,其基本理念是將語言處理視為噪聲信道信息傳輸,并通過給出每個消息的觀測輸出概率來表征傳輸,從而進行語言建模。相比于符號方法,統(tǒng)計方法靈活性更強,在大量語料支撐下能獲得更優(yōu)的效果。在統(tǒng)計語言建模中,互信息(Mutual Information)可以用于詞匯關系的研究,N元語法(N-Gram)模型是典型的語言模型之一,最大似然準則用于解決語言建模的稀疏問題,淺層神經(jīng)網(wǎng)絡也早早就應用于語言建模,隱馬爾可夫模型(Hidden Markov Model,HMM)和條件隨機場(Conditional Random Fields ,CRF)(圖5)是這個階段的扛把子。在搜索引擎的推動下,統(tǒng)計自然語言處理在詞法分析、機器翻譯、序列標注和語音識別等任務中廣泛使用。圖5 條件隨機場,來自《知識圖譜:認知智能理論與實戰(zhàn)》圖3-8,P104[6]特別地,從這個階段開始,中文自然語言處理興起,中國的機構緊緊跟上了人工智能發(fā)展的潮流。由于中文分詞、詞性標注和句法分析等工作與英語等西方語言有著很大的不同,許多針對中文語言處理的方法被深入研究并在推動自然語言處理的發(fā)展中發(fā)揮著巨大作用。2006年起,深度學習開始流行,并在人工智能的各個細分領域“大殺四方”,獲得了非凡的成就,自然語言處理也開始使用深度學習的方法。隨著2013年Word2vec的出現(xiàn),詞匯的稠密向量表示展示出強大的語義表示能力,為自然語言處理廣泛使用深度學習方法鋪平了道路。從現(xiàn)在來看,Word2vec也是現(xiàn)今預訓練大模型的“嬰兒”時期。隨后,在循環(huán)神經(jīng)網(wǎng)絡(Recurrent Neural Network,RNN)、長短期記憶網(wǎng)絡(Long Short-Term Memory,LSTM)、注意力機制、卷積神經(jīng)網(wǎng)絡(Convolutional Neural Network,CNN)、遞歸神經(jīng)網(wǎng)絡(Recursive Neural Tensor Network)等都被用于構建語言模型,并在句子分類、機器翻譯、情感分析、文本摘要、問答系統(tǒng)、實體抽取、關系抽取、事件分析等任務中取得了巨大的成功。2017年發(fā)布的變換器網(wǎng)絡(Transformer)[7]極大地改變了人工智能各細分領域所使用的方法,并發(fā)展成為今天幾乎所有人工智能任務的基本模型。變換器網(wǎng)絡基于自注意力(self-attention)機制,支持并行訓練模型,為大規(guī)模預訓練模型打下堅實的基礎。自此,自然語言處理開啟了一種新的范式,并極大地推進了語言建模和語義理解,成就了今天爆火出圈的 ChatGPT,并讓人們能夠自信地開始探討通用人工智能(Artificial General Intelligence,AGI)。
BERT & GPT的基礎:變換器網(wǎng)絡變換器網(wǎng)絡是2017年Google在論文《Attention Is All You Need》[7]中提出的一種序列到序列(Sequence to sequence, seq2seq)的深度神經(jīng)網(wǎng)絡架構,其架構如圖6所示。圖6 變換器網(wǎng)絡架構[7]該網(wǎng)絡在當時并未引起轟動,僅僅如蝴蝶扇動了幾下翅膀。但隨著時間的推移卻引發(fā)了蝴蝶效應,最終掀起了自然語言處理乃至人工智能的海嘯。限于篇幅,這里簡要介紹變換器網(wǎng)絡的重要特點。變換器網(wǎng)絡完全依賴于注意力機制,支持極大的并行化。如圖6所示,變換器網(wǎng)絡由兩部分組成,左邊是編碼部門,有N個編碼器組成;右邊是解碼部分,由N個****組成。編碼部分將輸入序列(文本)進行編碼,解碼部分以自回歸的方法不斷解碼下一個詞元,最終完成從序列到序列的變換并輸出。圖7展示了一個中文到英文翻譯的序列到序列的實例——將中文“《知識圖譜:認知智能理論與實戰(zhàn)》是一本人工智能必看書籍”翻譯為英文“Knowledge Graph: Theory and Practice of Cognitive Intelligence is a must read book on AI.”。翻譯也是最典型的序列到序列的語言任務,事實上也正是這個任務在1949年開啟了自然語言處理這門學科,同時在變換器網(wǎng)絡的論文中,用的評測也正是翻譯任務。圖7 用變換器網(wǎng)絡進行中譯英的實例變換器網(wǎng)絡的最大創(chuàng)新是完全使用多頭自注意力機制(Multi-Head Self-Attention Mechanism,其架構如圖8所示)。變換器網(wǎng)絡的編碼器和****都是用了同樣的多頭自注意力結構,有所不同的是,編碼器中,自注意力是雙向的,而****中,自注意力只允許關注輸出序列中較早的位置。如圖8的左邊圖所示,****的自注意力層在自注意力計算的 softmax 步驟之前設置為-inf來屏蔽(mask)未來位置,即圖中標簽為“Mask(opt.)”的框所標識的。這也正是圖6的****中被稱為“Masked Multi-Head Attention”的原由。圖8 多頭自注意力機制[7]多頭自注意力機制的核心就是自注意力。圖9是自注意力的一個實例,直觀地理解,自注意力就是模型在處理當前輸入序列的某個詞元與該序列其他詞元的語義相關性。不同的“頭”關注了不同維度/方面的語義。圖9示例了“今”字與同一輸入序列(句子)的其他字的語義相關性,不同顏色表示了不同的“頭”( 頂部色塊表示了不同的“頭”的標識),而顏色的深淺表示了語義相關性的強弱。在這個例子中,“今”字在有多個“注意力頭”最關注了“古”字,而在另一個“注意力頭”則最關注“魂”字,還有兩個“注意力頭”最關注了“的”字。圖9 自注意力實例,《知識圖譜:認知智能理論與實戰(zhàn)》圖3-15(P124)[6]值得一提的是,變換器網(wǎng)絡是近5年自然語言處理乃至全部人工智能高速發(fā)展的最大功臣!近年來叱咤風云的BERT就是以變換器網(wǎng)絡的編碼器為基礎的,而 GPT 則是以其****為基礎的。
*博客內容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權請聯(lián)系工作人員刪除。