獨家 | 語言模型初學(xué)者指南
過去十年中,從文本數(shù)據(jù)中提取信息的技術(shù)發(fā)生了巨大變化,自然語言處理這一術(shù)語已經(jīng)超躍文本挖掘,成為該領(lǐng)域的主導(dǎo)方法。與此同時,該方法也發(fā)生了翻天覆地的變化。引發(fā)變化的主要驅(qū)動因素是語言模型的出現(xiàn),它旨在從原始文本中提取有價值的見解,成為了許多應(yīng)用程序的基礎(chǔ)。
語言模型的定義
語言模型使用機(jī)器學(xué)習(xí)預(yù)測單詞的概率分布,基于前一個條目來預(yù)測句子中最有可能出現(xiàn)的下一個單詞。語言模型從文本中學(xué)習(xí),可用于生成原始文本、預(yù)測文本中的下一個單詞、語音識別、光學(xué)字符識別和手寫識別。
在自然語言處理的學(xué)習(xí)過程中,我對過去幾年中語言模型的演變非常著迷,你或許已經(jīng)聽說過GPT-3及其它所構(gòu)成的潛在威脅,但又是如何走到這一步的呢?機(jī)器又是如何制作出一篇模仿記者的文章的呢?
語言模型預(yù)測單詞或單詞序列的概率分布。在項目實踐中,它給出了某個單詞序列是“有效的”的概率,此時的有效性并不是指語法上的有效性,相反,它是指類似于人類的寫作方式,這便是語言模型所學(xué)習(xí)的東西。正如其他機(jī)器學(xué)習(xí)模型,特別是深度神經(jīng)網(wǎng)絡(luò)一樣,語言模型并不是在變魔術(shù),它只是一個以簡潔的方式合并豐富信息的工具,可以重用樣本外的語境。
對自然語言的抽象理解是從語境中推斷單詞概率的必要條件,可以用于多項任務(wù)。詞性化或詞干化的目的是將一個詞簡化為其最基本的形式,從而大幅度減少標(biāo)記的數(shù)量。如果知道這個詞的詞性,算法會工作得更好,動詞的后綴可以不同于名詞的后綴,因此,詞性標(biāo)記(或pos標(biāo)記)是語言模型的基本原理,同時也是語言模型的一項常見任務(wù)。
有了良好的語言模型,便可以對文本進(jìn)行提取或抽象摘要。有了不同語言的模型,可以非常容易地建立一個機(jī)器翻譯系統(tǒng)。用例包括回答問題(帶或不帶語境,請參見文末的示例)。語言模型還可用于語音識別、OCR、手寫識別等領(lǐng)域,有很各種各樣的應(yīng)用。
語言模型的種類
有兩種類型的語言模型:
1. 概率統(tǒng)計方法。
2. 基于神經(jīng)網(wǎng)絡(luò)的現(xiàn)代語言模型
注意區(qū)分二者之間的不同非常重要。
通過計算單詞的n-gram概率,建立起一個簡單的概率語言模型。n-gram是由n個單詞組成的序列,n為大于0的整數(shù)。n-gram概率是n-gram單詞跟隨一個特定的n-1 gram單詞(省去最后一個單詞)的條件概率,即在n-1gram之后,省略掉最后一個單詞的比例。這個概念是一個馬爾可夫假設(shè)。給定n-1 gram(現(xiàn)在),n-gram概率(未來)不依賴于n-2、n-3(過去)單詞的概率。
這種方法也有一些明顯的缺點:前面的n個單詞會影響下一個單詞的概率分布。復(fù)雜的文本有深刻的語境,可能對下一個詞的選擇產(chǎn)生決定性的影響。因此,即使n等于20或50,從前面的n個單詞中推導(dǎo)出下一個單詞的并非輕而易舉。一個術(shù)語對之前的用詞會產(chǎn)生影響:如果出現(xiàn)了United這個單詞,那么States of America緊隨其后的概率便有可能大得多,稱之為語境問題。
最為重要的是,很明顯,這種方法并不適合大規(guī)模學(xué)習(xí)。隨著(n)的增加,單詞排列的數(shù)量飆升,即便文本中從未發(fā)生大多數(shù)的單詞排列,并且所有發(fā)生的概率(或全部n-gram計數(shù))都必須計算和存儲。此外,未出現(xiàn)的n-gram計數(shù)會產(chǎn)生稀疏性問題,概率分布的粒度會相當(dāng)?shù)?。單詞概率鮮有不同的值,絕大多數(shù)單詞具有相同的概率。
基于神經(jīng)網(wǎng)絡(luò)的語言模型通過編碼輸入的方式,解決了稀疏性問題。Word嵌入層為每個單詞創(chuàng)建一個任意大小的向量,向量中同時包含了語義關(guān)系,連續(xù)的向量在下一個單詞的概率分布中創(chuàng)建了所需的粒度。此外,語言模型同時也是一個函數(shù),所有的神經(jīng)網(wǎng)絡(luò)都有大量的矩陣計算,所以無需存儲所有的n-gram計數(shù)來生成下一個單詞的概率分布。
盡管神經(jīng)網(wǎng)絡(luò)解決了稀疏性問題,但語境問題仍然存在。首先,語言模型更有效地解決了語境問題——引入越來越多的語境詞來影響概率分布。其次,目標(biāo)是創(chuàng)建一個架構(gòu),使模型能夠?qū)W習(xí)哪些語境詞更為重要。
前文概述的第一個模型,是一個密集的(或隱含的)層和一個輸出層,堆疊在一個連續(xù)的單詞包(CBOW)Word2Vec模型之上。CBOW Word2Vec模型被訓(xùn)練成從上下文中猜測單詞;Skip-Gram Word2Vec模型則相反,從單詞中猜測上下文。在項目實踐中,需要通過多個結(jié)構(gòu)化的示例訓(xùn)練 CBOW Word2Vec模型:輸入是在單詞之前和/或之后的n個單詞,從中可以看到,語境問題依然沒有得到解決。
遞歸神經(jīng)網(wǎng)絡(luò)(RNN)
遞歸神經(jīng)網(wǎng)絡(luò)(RNNs)是對這一問題的一個改進(jìn),RNN既可以是一個長短期記憶(LSTM),也可以是一個基于門控循環(huán)單元(GRU)單元的網(wǎng)絡(luò),它們在選擇下一個單詞的同時考慮了所有先前的單詞。AllenNLP的ELMo進(jìn)一步提出了這個概念,利用一個雙向的LSTM,將單詞計數(shù)前后的語境考慮進(jìn)來。
基于RNN架構(gòu)的主要缺點在于它們的序列性質(zhì),因為沒有并行化,長序列的訓(xùn)練時間會飆升。解決這個問題的方法是采用Transformer架構(gòu)。
OpenAI的GPT和谷歌的BERT模型均采用了Transformer架構(gòu),與此同時,這些模型還采用了一種稱為“注意力”的機(jī)制,通過這種機(jī)制,模型可以學(xué)習(xí)在某些情況下哪些輸入比其他輸入更值得關(guān)注。
在模型架構(gòu)方面,有數(shù)量級飛躍的首先是RNN,尤其是LSTM和GRU,很好地解決了稀疏性問題,減少語言模型對磁盤空間的占用,其次是Transformer架構(gòu),使并行化成為可能,并創(chuàng)建了注意力機(jī)制。但是,架構(gòu)并不是語言模型之所以優(yōu)越的唯一考量。
與GPT-1架構(gòu)相比,除了規(guī)模上變大了之外,GPT-3實際上沒有什么新穎之處。GPT-3有1750億個參數(shù),并且是在普通訓(xùn)練集的大語料庫上訓(xùn)練的。語言模型的半監(jiān)督訓(xùn)練策略,使得這在一定程度上成為可能,將省略一些單詞的文本作為訓(xùn)練示例。GPT-3令人難以置信的力量在于,它或多或少閱讀了過去幾年出現(xiàn)在互聯(lián)網(wǎng)上的所有文本,而且能夠準(zhǔn)確反映自然語言所包含的絕大多數(shù)復(fù)雜性。
最后,我想回顧一下谷歌的T5模型。以前,語言模型被用于標(biāo)準(zhǔn)的自然語言處理任務(wù),如詞性(POS)標(biāo)注或經(jīng)過輕微修改的機(jī)器翻譯。只要經(jīng)過重新訓(xùn)練,BERT就可以成為一個pos標(biāo)記器,因為它具有理解自然語言底層結(jié)構(gòu)的抽象能力。
對于T5,無需對NLP任務(wù)進(jìn)行任何修改,如果它獲取到一個帶標(biāo)記的文本,它就知道用哪些標(biāo)記來填充適當(dāng)單詞的空白;它也可以回答問題,如果它在問題之后收到了一些語境信息,它會從中搜索出答案。否則,它會根據(jù)自己的知識得出答案。有趣的是:它在問答小測試中擊敗了自己的創(chuàng)造者。
我個人認(rèn)為,這是離創(chuàng)造人工智能最近的領(lǐng)域。關(guān)于人工智能有很多非議,從市場營銷的角度來看,許多簡單的決策系統(tǒng)和神經(jīng)網(wǎng)絡(luò)均可稱之為人工智能。根據(jù)定義,人工智能涉及到由機(jī)器執(zhí)行的類人智能能力。遷移學(xué)習(xí)在計算機(jī)視覺領(lǐng)域很突出,遷移學(xué)習(xí)的概念對人工智能系統(tǒng)至關(guān)重要,同一模型可以完成廣泛的自然語言處理任務(wù),并可以從輸入中推斷出該做什么,它讓我們離真正創(chuàng)造類人智能系統(tǒng)又近了一步。
原文鏈接:https://builtin.com/data-science/beginners-guide-language-models
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。