色婷婷AⅤ一区二区三区|亚洲精品第一国产综合亚AV|久久精品官方网视频|日本28视频香蕉

<del id="ss4us"><fieldset id="ss4us"></fieldset></del>

<table id="ss4us"><tbody id="ss4us"></tbody></table><bdo id="ss4us"></bdo>

<del id="ss4us"><kbd id="ss4us"></kbd></del><abbr id="ss4us"><optgroup id="ss4us"></optgroup></abbr>

"); //-->

博客專欄

EEPW首頁 > 博客 > 獨家 | 語言模型初學(xué)者指南

獨家 | 語言模型初學(xué)者指南

發(fā)布人：數(shù)據(jù)派THU 時間：2023-03-19 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

發(fā)布文章

過去十年中，從文本數(shù)據(jù)中提取信息的技術(shù)發(fā)生了巨大變化，自然語言處理這一術(shù)語已經(jīng)超躍文本挖掘，成為該領(lǐng)域的主導(dǎo)方法。與此同時，該方法也發(fā)生了翻天覆地的變化。引發(fā)變化的主要驅(qū)動因素是語言模型的出現(xiàn)，它旨在從原始文本中提取有價值的見解，成為了許多應(yīng)用程序的基礎(chǔ)。

語言模型的定義

語言模型使用機(jī)器學(xué)習(xí)預(yù)測單詞的概率分布，基于前一個條目來預(yù)測句子中最有可能出現(xiàn)的下一個單詞。語言模型從文本中學(xué)習(xí)，可用于生成原始文本、預(yù)測文本中的下一個單詞、語音識別、光學(xué)字符識別和手寫識別。

在自然語言處理的學(xué)習(xí)過程中，我對過去幾年中語言模型的演變非常著迷，你或許已經(jīng)聽說過GPT-3及其它所構(gòu)成的潛在威脅，但又是如何走到這一步的呢？機(jī)器又是如何制作出一篇模仿記者的文章的呢？

什么是語言模型？

語言模型預(yù)測單詞或單詞序列的概率分布。在項目實踐中，它給出了某個單詞序列是“有效的”的概率，此時的有效性并不是指語法上的有效性，相反，它是指類似于人類的寫作方式，這便是語言模型所學(xué)習(xí)的東西。正如其他機(jī)器學(xué)習(xí)模型，特別是深度神經(jīng)網(wǎng)絡(luò)一樣，語言模型并不是在變魔術(shù)，它只是一個以簡潔的方式合并豐富信息的工具，可以重用樣本外的語境。

語言模型能做什么？

對自然語言的抽象理解是從語境中推斷單詞概率的必要條件，可以用于多項任務(wù)。詞性化或詞干化的目的是將一個詞簡化為其最基本的形式，從而大幅度減少標(biāo)記的數(shù)量。如果知道這個詞的詞性，算法會工作得更好，動詞的后綴可以不同于名詞的后綴，因此，詞性標(biāo)記（或pos標(biāo)記）是語言模型的基本原理，同時也是語言模型的一項常見任務(wù)。

有了良好的語言模型，便可以對文本進(jìn)行提取或抽象摘要。有了不同語言的模型，可以非常容易地建立一個機(jī)器翻譯系統(tǒng)。用例包括回答問題（帶或不帶語境，請參見文末的示例）。語言模型還可用于語音識別、OCR、手寫識別等領(lǐng)域，有很各種各樣的應(yīng)用。

語言模型的種類

有兩種類型的語言模型：

1. 概率統(tǒng)計方法。

2. 基于神經(jīng)網(wǎng)絡(luò)的現(xiàn)代語言模型

注意區(qū)分二者之間的不同非常重要。

概率統(tǒng)計語言模型

通過計算單詞的n-gram概率，建立起一個簡單的概率語言模型。n-gram是由n個單詞組成的序列，n為大于0的整數(shù)。n-gram概率是n-gram單詞跟隨一個特定的n-1 gram單詞（省去最后一個單詞）的條件概率，即在n-1gram之后，省略掉最后一個單詞的比例。這個概念是一個馬爾可夫假設(shè)。給定n-1 gram（現(xiàn)在），n-gram概率（未來）不依賴于n-2、n-3（過去）單詞的概率。

這種方法也有一些明顯的缺點：前面的n個單詞會影響下一個單詞的概率分布。復(fù)雜的文本有深刻的語境，可能對下一個詞的選擇產(chǎn)生決定性的影響。因此，即使n等于20或50，從前面的n個單詞中推導(dǎo)出下一個單詞的并非輕而易舉。一個術(shù)語對之前的用詞會產(chǎn)生影響：如果出現(xiàn)了United這個單詞，那么States of America緊隨其后的概率便有可能大得多，稱之為語境問題。

最為重要的是，很明顯，這種方法并不適合大規(guī)模學(xué)習(xí)。隨著(n)的增加，單詞排列的數(shù)量飆升，即便文本中從未發(fā)生大多數(shù)的單詞排列，并且所有發(fā)生的概率（或全部n-gram計數(shù)）都必須計算和存儲。此外，未出現(xiàn)的n-gram計數(shù)會產(chǎn)生稀疏性問題，概率分布的粒度會相當(dāng)?shù)?。單詞概率鮮有不同的值，絕大多數(shù)單詞具有相同的概率。

基于神經(jīng)網(wǎng)絡(luò)的語言模型

基于神經(jīng)網(wǎng)絡(luò)的語言模型通過編碼輸入的方式，解決了稀疏性問題。Word嵌入層為每個單詞創(chuàng)建一個任意大小的向量，向量中同時包含了語義關(guān)系，連續(xù)的向量在下一個單詞的概率分布中創(chuàng)建了所需的粒度。此外，語言模型同時也是一個函數(shù)，所有的神經(jīng)網(wǎng)絡(luò)都有大量的矩陣計算，所以無需存儲所有的n-gram計數(shù)來生成下一個單詞的概率分布。

語言模型的演進(jìn)

盡管神經(jīng)網(wǎng)絡(luò)解決了稀疏性問題，但語境問題仍然存在。首先，語言模型更有效地解決了語境問題——引入越來越多的語境詞來影響概率分布。其次，目標(biāo)是創(chuàng)建一個架構(gòu)，使模型能夠?qū)W習(xí)哪些語境詞更為重要。

前文概述的第一個模型，是一個密集的（或隱含的）層和一個輸出層，堆疊在一個連續(xù)的單詞包（CBOW）Word2Vec模型之上。CBOW Word2Vec模型被訓(xùn)練成從上下文中猜測單詞；Skip-Gram Word2Vec模型則相反，從單詞中猜測上下文。在項目實踐中，需要通過多個結(jié)構(gòu)化的示例訓(xùn)練 CBOW Word2Vec模型：輸入是在單詞之前和/或之后的n個單詞，從中可以看到，語境問題依然沒有得到解決。

遞歸神經(jīng)網(wǎng)絡(luò)（RNN）

遞歸神經(jīng)網(wǎng)絡(luò)（RNNs）是對這一問題的一個改進(jìn)，RNN既可以是一個長短期記憶（LSTM），也可以是一個基于門控循環(huán)單元（GRU）單元的網(wǎng)絡(luò)，它們在選擇下一個單詞的同時考慮了所有先前的單詞。AllenNLP的ELMo進(jìn)一步提出了這個概念，利用一個雙向的LSTM，將單詞計數(shù)前后的語境考慮進(jìn)來。

TRANSFORMERS

基于RNN架構(gòu)的主要缺點在于它們的序列性質(zhì)，因為沒有并行化，長序列的訓(xùn)練時間會飆升。解決這個問題的方法是采用Transformer架構(gòu)。

OpenAI的GPT和谷歌的BERT模型均采用了Transformer架構(gòu)，與此同時，這些模型還采用了一種稱為“注意力”的機(jī)制，通過這種機(jī)制，模型可以學(xué)習(xí)在某些情況下哪些輸入比其他輸入更值得關(guān)注。

在模型架構(gòu)方面，有數(shù)量級飛躍的首先是RNN，尤其是LSTM和GRU，很好地解決了稀疏性問題，減少語言模型對磁盤空間的占用，其次是Transformer架構(gòu)，使并行化成為可能，并創(chuàng)建了注意力機(jī)制。但是，架構(gòu)并不是語言模型之所以優(yōu)越的唯一考量。

與GPT-1架構(gòu)相比，除了規(guī)模上變大了之外，GPT-3實際上沒有什么新穎之處。GPT-3有1750億個參數(shù)，并且是在普通訓(xùn)練集的大語料庫上訓(xùn)練的。語言模型的半監(jiān)督訓(xùn)練策略，使得這在一定程度上成為可能，將省略一些單詞的文本作為訓(xùn)練示例。GPT-3令人難以置信的力量在于，它或多或少閱讀了過去幾年出現(xiàn)在互聯(lián)網(wǎng)上的所有文本，而且能夠準(zhǔn)確反映自然語言所包含的絕大多數(shù)復(fù)雜性。

多用途訓(xùn)練

最后，我想回顧一下谷歌的T5模型。以前，語言模型被用于標(biāo)準(zhǔn)的自然語言處理任務(wù)，如詞性（POS）標(biāo)注或經(jīng)過輕微修改的機(jī)器翻譯。只要經(jīng)過重新訓(xùn)練，BERT就可以成為一個pos標(biāo)記器，因為它具有理解自然語言底層結(jié)構(gòu)的抽象能力。

對于T5，無需對NLP任務(wù)進(jìn)行任何修改，如果它獲取到一個帶標(biāo)記的文本，它就知道用哪些標(biāo)記來填充適當(dāng)單詞的空白；它也可以回答問題，如果它在問題之后收到了一些語境信息，它會從中搜索出答案。否則，它會根據(jù)自己的知識得出答案。有趣的是：它在問答小測試中擊敗了自己的創(chuàng)造者。

語言模型的未來

我個人認(rèn)為，這是離創(chuàng)造人工智能最近的領(lǐng)域。關(guān)于人工智能有很多非議，從市場營銷的角度來看，許多簡單的決策系統(tǒng)和神經(jīng)網(wǎng)絡(luò)均可稱之為人工智能。根據(jù)定義，人工智能涉及到由機(jī)器執(zhí)行的類人智能能力。遷移學(xué)習(xí)在計算機(jī)視覺領(lǐng)域很突出，遷移學(xué)習(xí)的概念對人工智能系統(tǒng)至關(guān)重要，同一模型可以完成廣泛的自然語言處理任務(wù)，并可以從輸入中推斷出該做什么，它讓我們離真正創(chuàng)造類人智能系統(tǒng)又近了一步。

原文標(biāo)題：A Beginner’s Guide to Language Models

原文鏈接：https://builtin.com/data-science/beginners-guide-language-models

*博客內(nèi)容為網(wǎng)友個人發(fā)布，僅代表博主個人觀點，如有侵權(quán)請聯(lián)系工作人員刪除。

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關(guān)鍵詞： AI

相關(guān)推薦

摩根士丹利：僅 GB200 AI 服務(wù)器業(yè)務(wù)，就為英偉達(dá)創(chuàng)造 2100 億美元年收入

智能計算 GB200 AI 英偉達(dá) GPU | 2024-07-26

瑞薩電子AI單元解決方案成功提高GE醫(yī)療（日本）日野工廠的生產(chǎn)力

winni945 | 2018-09-12

深圳加快打造 AI 先鋒城市，今年將建成 4000PFLOPS 算力智算中心

智能計算 AI 智能計算深圳 | 2024-07-30

2021春晚黑科技，火爆全網(wǎng)的\"打工牛\"是什么來頭？

視頻 AI 機(jī)器人 | 2021-02-26

海聯(lián)達(dá)（Aigale）Ai-HD1 無線全高清套件拆解

zhuwei0710 | 2013-04-28

繼上次海聯(lián)達(dá)Ai-ap100拆機(jī)之電源改造

zhuwei0710 | 2013-04-03

人工智能是如何幫助阻止造假者的？

謝丫丫 | 2018-08-14

蘋果承認(rèn)：AI模型使用谷歌定制芯片訓(xùn)練

智能計算蘋果 AI 谷歌定制芯片 | 2024-07-30

iCAN-4017 AI功能模塊

資源下載周立功單片機(jī) 功能模塊 iCAN-4017 AI | 2007-03-30

大嘴業(yè)話-AI目前市場分析

視頻人工智能，AI，ChatGPT，互聯(lián)網(wǎng)技術(shù) | 2023-04-25

萬家樂JSYZ5-AI燃?xì)鉄崴麟娐穲D

設(shè)計方案電路圖熱水器 JSYZ5-AI 萬家樂 | 2013-01-17

Nvidia的CEO談AI的未來：“我們將需要三臺電腦... 一臺來創(chuàng)建AI... 一臺來模擬AI... 一臺來運行AI”

智能計算 AI | 2024-07-31

釋說芯語16：硬科技：構(gòu)建企業(yè)未來之路（附PPT）

jackwang | 2018-10-22

國際奧委會：最大限度發(fā)揮 AI 工具影響力，體育人才選拔方式有望得到革新

智能計算 AI 奧運會體育 | 2024-07-26

蘋果表示其AI模型是在谷歌的定制芯片上訓(xùn)練的

智能計算 AI | 2024-07-30

AI+機(jī)器視覺成趨勢，圖文詳解N大應(yīng)用場景

智能計算安森美 AI 機(jī)器視覺 | 2024-07-31

“破局AI開發(fā)，釋放邊緣算力開發(fā)者訪談”，干貨滿滿！

視頻 intel AI OpenVINO | 2021-06-10

電子元件培訓(xùn)教材

資源下載 NBA 電子元件識別電阻識別電容識別 AI MI SMT DIP 靜電防護(hù) | 2008-09-20

攻擊成功率從 3% 到接近 100%，利用空格鍵可繞過 Meta AI 模型安全系統(tǒng)

智能計算 Meta AI | 2024-07-31

如何快速搭建手寫體識別演示系統(tǒng)

視頻 digikey AI 手寫體識別 | 2022-07-29

CSR8670CSR8675智能語音Alexa藍(lán)牙方案開發(fā)

資源下載 AI 智能語音 | 2017-12-14

加大調(diào)整力度，教育部支持高校布局集成電路、AI 等專業(yè)

智能計算教育 AI 集成電路 | 2024-07-25

EEPW2018年3月刊(工業(yè)物聯(lián)網(wǎng))

資源下載工業(yè)物聯(lián)網(wǎng) AI | 2018-03-12

iPhone 16將不會預(yù)裝AI功能？計劃通過iOS 18.1發(fā)布

iPhone AI iOS | 2024-07-30

EEPW2018年6月刊(5G)

資源下載 5G AI | 2018-06-11

WTC-AI型太陽能熱水器電路圖

設(shè)計方案電子電路圖，WTC-AI 太陽能熱水器電路熱水器 | 2012-07-30

AI驅(qū)動的嵌入式聲音和振動識別

視頻 ADI AI 嵌入式 OtoSense | 2018-10-23

WTC-AI太陽能熱水器電路圖

設(shè)計方案 WTC-AI 太陽能熱水器電路圖 | 2012-07-24

焦點

推薦視頻

更多>>

技術(shù)專區(qū)

<rt id="w4wem"><xmp id="w4wem"></xmp></rt>