色婷婷AⅤ一区二区三区|亚洲精品第一国产综合亚AV|久久精品官方网视频|日本28视频香蕉

<samp id="kweuq"></samp>

<center id="kweuq"></center>

<nav id="kweuq"></nav>

<nav id="kweuq"></nav><button id="kweuq"></button>

<blockquote id="kweuq"></blockquote>

<input id="kweuq"></input>

<table id="kweuq"></table>

<bdo id="kweuq"><strong id="kweuq"></strong></bdo>

"); //-->

博客專欄

EEPW首頁 > 博客 > 有時抄個1000詞，有時自己發(fā)揮，新研究揭示GPT到底是怎么寫作文的

有時抄個1000詞，有時自己發(fā)揮，新研究揭示GPT到底是怎么寫作文的

發(fā)布人：機器之心時間：2021-11-21 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

發(fā)布文章

GPT-2 這樣的大規(guī)模語言模型也能學(xué)會「句法」、生成新詞，然而事情真要這么簡單就好了。

深度學(xué)習(xí)到底能學(xué)多深？在過去的一段時間，我們大多會用生成文本的質(zhì)量來評價 GPT 等語言生成模型的表現(xiàn)。但與此同時，我們忽略了一個問題：那些用生成模型做的「狗屁不通文章生成器」、「滿分作文生成器」到底是鸚鵡學(xué)舌（簡單地記住看過的例子，并以淺顯的方式重新組合），還是真的學(xué)到了復(fù)雜的語言結(jié)構(gòu)？

在最近的一篇文章中，來自約翰霍普金斯大學(xué)、微軟研究院等機構(gòu)的研究者就提出了這樣一個問題。

神經(jīng)網(wǎng)絡(luò)語言模型可以生成合乎語法的連貫文本，但文本本身并不能告訴我們它是由模型構(gòu)建的還是從訓(xùn)練集中抄的。論文作者認為，理清這一問題非常關(guān)鍵，因為除了已經(jīng)成為標(biāo)準(zhǔn)的質(zhì)量評估外，文本生成模型的新穎性評估也很重要。

為什么新穎性如此重要？首先，從語言學(xué)的角度來看，能夠以新穎的方式將熟悉的部分組合起來是衡量語言掌握能力的一個關(guān)鍵要素。其次，從機器學(xué)習(xí)的角度來看，模型本來就應(yīng)該學(xué)到訓(xùn)練分布，而不僅僅是把訓(xùn)練集記下來。最后，從更加實用的角度來看，那些只會復(fù)制訓(xùn)練數(shù)據(jù)的模型可能會泄露敏感信息，或重復(fù)仇恨言論。

在這篇論文中，為了評估生成文本的新穎性，研究者提出了一套名為「RAVEN（RAting VErbal Novelty）」的分析系統(tǒng)。分析指標(biāo)包括序列結(jié)構(gòu)（n-grams）和句法結(jié)構(gòu)?！窻AVEN」的名字來源于愛倫 · 坡的詩《烏鴉》，在這首詩中，敘述者遇到了一只神秘的烏鴉，它不斷地叫著「永不復(fù)還（Nevermore）！」敘述者不知道烏鴉只是在重復(fù)人說的話，還是在構(gòu)建自己的話語。

他們將這套系統(tǒng)應(yīng)用于 LSTM、Transformer、Transformer-XL 以及四種尺寸的 GPT-2 生成的文本。因為有很多方法可以從語言模型中生成文本，所以他們測試了 12 種生成方法和 4 種 prompt 長度。作為基線，他們還分析了來自每個模型測試集的人工生成文本。

在實驗中，研究者發(fā)現(xiàn)，上述模型在結(jié)構(gòu)分析的每個方面都表現(xiàn)出了新穎性：它們生成了新的 n-grams、形態(tài)組合和句法結(jié)構(gòu)。例如，GPT-2 生成了幾種類型的新詞，包括屈折變化（如 Swissified）、派生（IKEA-ness）等；在 Transformer-XL 生成的句子中，74% 的句子具有訓(xùn)練句子所沒有的句法結(jié)構(gòu)。因此，神經(jīng)語言模型并不是簡單地記住訓(xùn)練數(shù)據(jù)，而是使用某種流程，以一種新穎的方式將熟悉的部分組合起來。

其中，在考慮小 n-grams 時，這些模型生成的文本并沒有 baseline 那么新穎。例如，對于每一個模型，人類生成的基線文本的新穎 bigram 數(shù)是模型的 1.4 到 3.3 倍。對于大于 5-gram 的 n-grams，模型的新穎性要高于基線，但它們偶爾也會大量復(fù)制：GPT-2 有時會復(fù)制超過 1000 詞的訓(xùn)練文本。

論文鏈接：https://arxiv.org/pdf/2111.09509.pdf

目前，該論文的代碼還沒有公布，但作者表示，如果能得到其中幾位作者的雇主的批準(zhǔn)，他們將盡快公布代碼。

方法概覽

如上所述，研究者通過 n-grams 和句法結(jié)構(gòu)來評估生成文本的新穎度。如果生成文本出現(xiàn)在訓(xùn)練集或上下文（「prompt」和「語言模型已經(jīng)基于 prompt 生成的文本」之間的連結(jié)）中，該文本會被判定為復(fù)制文本，否則為新穎文本。

復(fù)制未必都是不好的。例如，一些很長的 n-grams 可能是從訓(xùn)練集中復(fù)制的，如書名。為了分辨這種情況，研究者將模型生成的文本與來自測試集的人工生成文本進行了比較，這樣他們就能知道模型訓(xùn)練域中大約存在多少需要復(fù)制的文本。如果模型的新穎程度至少達到了基線的水平，研究者就判定它沒有過度復(fù)制。

實驗一：基于序列結(jié)構(gòu)（n-grams）的新穎性分析

為了進行架構(gòu)之間的受控比較，該研究使用了在同一個數(shù)據(jù)集上訓(xùn)練的三個模型，即 Wikitext-103（Merity et al.，2017）。Wikitext-103 是在詞的級別進行分詞的高質(zhì)量維基百科文章集合，它的訓(xùn)練集包含 1.03 億個詞。研究者在該訓(xùn)練集上比較了 LSTM（Hochreiter and Schmidhuber，1997）、Transformer（Vaswani et al.，2017）和 Transformer-XL（TXL；Dai et al.，2019）架構(gòu)。采用這三種模型是因為它們給出了語言建模中兩種主要的處理類型：循環(huán)（在 LSTM 中使用）和自注意力（在 Transformer 中使用），TXL 同時用到了這兩種機制。

除了這些系統(tǒng)分析之外，該研究還分析了更大規(guī)模的 Transformer LM——GPT-2（Radford et al.，2019），選用 GPT-2 是因為在能找到訓(xùn)練集的眾多模型中，它的訓(xùn)練集是最大的。與實驗中的其他模型不同，GPT-2 在 WebText 語料庫上進行訓(xùn)練，該語料庫由鏈接到 Reddit 上的網(wǎng)頁構(gòu)建而成。

GPT-2 的分詞方案也不同于實驗中的其他模型：其他模型均使用詞級分詞（其中每個 token 都是一個完整的詞），而 GPT-2 使用子詞（subword）分詞方案（Sennrich et al.，2016）。WebText 訓(xùn)練語料庫包含 77 億個詞，比 Wikitext-103 大得多。

該研究首先在 n-gram 層面研究各種模型的新穎性，其中 n-gram 是 n 個詞的序列。

在 n 取不同的值時，模型生成文本的新穎性有何不同

該研究發(fā)現(xiàn)：對于較小的 n 值，LM 生成的 n-gram 很少是新穎的；而對于較大的 n 值 (n > 6)，生成的 n-gram 幾乎總是新穎的。

當(dāng) n 取值較大時，模型會復(fù)制文本嗎？

該研究發(fā)現(xiàn)：所有的模型偶爾都會復(fù)制 100 詞或更長的訓(xùn)練集段落。

具體來說，模型很少復(fù)制大于 10 個 token 的 n-gram。但是，偶爾會出現(xiàn)模型復(fù)制極長序列的情況。例如，在幾種情況下，GPT-2 生成的文本中某個段落（超過 1000 個詞）是完全復(fù)制訓(xùn)練集的。該研究使用「supercopying」指代這些極端復(fù)制情況（supercopying 指大小為 100 或更大的 n-gram 重復(fù)。

下圖給出了幾種模型「supercopying」訓(xùn)練集 100-grams 的次數(shù)統(tǒng)計數(shù)據(jù)。

新穎性與解碼方案及生成文本的質(zhì)量有何關(guān)系？

研究者發(fā)現(xiàn)，改變解碼參數(shù)可以在很大程度上改變模型的新穎性。新穎性可以通過提高 top-p 采樣中的 p、top-k 采樣中的 k 或溫度來提升。然而，所有提高生成文本新穎性的變動均會降低質(zhì)量。

圖 2：對解碼方案的控制可以生成高質(zhì)量的文本(例如，更低的困惑度；x 軸)，但也會降低新穎性(例如，更大程度的重復(fù); y 軸)。每個點顯示不同的解碼方案。

附錄中提供了其他分析。研究者發(fā)現(xiàn)，模型大小 (附錄 H) 和 prompt 長度 (附錄 I) 對新穎性沒有明顯的影響；對于某些模型，新穎性受到生成文本中的位置的影響，但影響很小(附錄 J) ；如果只考慮從訓(xùn)練集中復(fù)制，而不考慮從上下文和 / 或訓(xùn)練集中復(fù)制，那么新穎性結(jié)果不會有太大變化(附錄 K)。

實驗二：基于句法結(jié)構(gòu)的新穎性分析

在全局句子結(jié)構(gòu)層面，模型表現(xiàn)出了高度的句法新穎性，大多數(shù)生成的句子具備訓(xùn)練數(shù)據(jù)中的句子所沒有的整體句法結(jié)構(gòu)。對于局部結(jié)構(gòu)，模型也展示出了一定程度的新穎性，但要比基線低得多。

圖 3: 句法新穎性?？s寫分別表示: seq = sequence; dep = dependency; struct = structure

GPT-2 生成能力的手動分析

最后，研究者對新生成的文本進行了人工分析。這種分析是勞動密集型的，基于提升效率的考慮，這里主要關(guān)注了 GPT-2，因為它是性能最強的模型。在初步分析階段，研究者只分析了 GPT-2 產(chǎn)生的新詞語，GPT-2 使用了子詞級分詞，所以它可以用新的方式組合可見的子詞來產(chǎn)生新詞語。附錄 O 和 P 中展示了 GPT-2 生成新詞的詳細分類。

GPT-2 生成新詞的詞法結(jié)構(gòu)是否完備？

GPT-2 生成的新詞絕大多數(shù) (96%) 是詞法完備的，然而這低于基線(99%)。

GPT-2 生成的新詞是否符合上下文句法？

GPT-2 生成的新詞絕大多數(shù) (94%) 是在語法正確的上下文中使用的，但它確實比基線中的錯誤多。

GPT-2 生成的新詞是否意義合理？

GPT-2 在這一領(lǐng)域的表現(xiàn)不如在詞法和語法上的表現(xiàn)，這與語言模型只學(xué)習(xí)「形式」而不學(xué)習(xí)「意義」的說法 (Bender and Koller, 2020) 相符。

圖 6：新詞與其上下文的語義匹配程度。

通過使用 RAVEN 分析系統(tǒng)，研究者發(fā)現(xiàn)模型產(chǎn)生了許多種類的新穎性：各種大小的新穎 n-gram、新穎的句法結(jié)構(gòu)和新穎的詞法組合。模型屬于「創(chuàng)作，但沒有完全創(chuàng)作」的狀態(tài)，結(jié)果也顯示出許多復(fù)制的跡象：對于局部結(jié)構(gòu)，模型表現(xiàn)大大低于基線; 此外也偶爾出現(xiàn)大規(guī)模的復(fù)制，例如復(fù)制超過 1000 詞的訓(xùn)練集段落。

除了文本生成之外，研究者表示，希望這項工作能夠讓人們更加謹慎地考慮在 NLP 的訓(xùn)練集與測試集之間現(xiàn)存的分歧。

*博客內(nèi)容為網(wǎng)友個人發(fā)布，僅代表博主個人觀點，如有侵權(quán)請聯(lián)系工作人員刪除。

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關(guān)鍵詞： AI

相關(guān)推薦

海聯(lián)達（Aigale）Ai-HD1 無線全高清套件拆解

zhuwei0710 | 2013-04-28

2021春晚黑科技，火爆全網(wǎng)的\"打工牛\"是什么來頭？

視頻 AI 機器人 | 2021-02-26

如何快速搭建手寫體識別演示系統(tǒng)

視頻 digikey AI 手寫體識別 | 2022-07-29

“破局AI開發(fā)，釋放邊緣算力開發(fā)者訪談”，干貨滿滿！

視頻 intel AI OpenVINO | 2021-06-10

AI+機器視覺成趨勢，圖文詳解N大應(yīng)用場景

智能計算安森美 AI 機器視覺 | 2024-07-31

攻擊成功率從 3% 到接近 100%，利用空格鍵可繞過 Meta AI 模型安全系統(tǒng)

智能計算 Meta AI | 2024-07-31

繼上次海聯(lián)達Ai-ap100拆機之電源改造

zhuwei0710 | 2013-04-03

摩根士丹利：僅 GB200 AI 服務(wù)器業(yè)務(wù)，就為英偉達創(chuàng)造 2100 億美元年收入

智能計算 GB200 AI 英偉達 GPU | 2024-07-26

萬家樂JSYZ5-AI燃氣熱水器電路圖

設(shè)計方案電路圖熱水器燃氣 JSYZ5-AI 萬家樂 | 2013-01-17

釋說芯語16：硬科技：構(gòu)建企業(yè)未來之路（附PPT）

jackwang | 2018-10-22

EEPW2018年3月刊(工業(yè)物聯(lián)網(wǎng))

資源下載工業(yè)物聯(lián)網(wǎng) AI | 2018-03-12

深圳加快打造 AI 先鋒城市，今年將建成 4000PFLOPS 算力智算中心

智能計算 AI 智能計算深圳 | 2024-07-30

蘋果承認：AI模型使用谷歌定制芯片訓(xùn)練

智能計算蘋果 AI 谷歌定制芯片 | 2024-07-30

加大調(diào)整力度，教育部支持高校布局集成電路、AI 等專業(yè)

智能計算教育 AI 集成電路 | 2024-07-25

iCAN-4017 AI功能模塊

資源下載周立功單片機功能模塊 iCAN-4017 AI | 2007-03-30

AI驅(qū)動的嵌入式聲音和振動識別

視頻 ADI AI 嵌入式 OtoSense | 2018-10-23

人工智能是如何幫助阻止造假者的？

謝丫丫 | 2018-08-14

瑞薩電子AI單元解決方案成功提高GE醫(yī)療（日本）日野工廠的生產(chǎn)力

winni945 | 2018-09-12

Nvidia的CEO談AI的未來：“我們將需要三臺電腦... 一臺來創(chuàng)建AI... 一臺來模擬AI... 一臺來運行AI”

智能計算 AI | 2024-07-31

EEPW2018年6月刊(5G)

資源下載 5G AI | 2018-06-11

WTC-AI太陽能熱水器電路圖

設(shè)計方案 WTC-AI 太陽能熱水器電路圖 | 2012-07-24

iPhone 16將不會預(yù)裝AI功能？計劃通過iOS 18.1發(fā)布

iPhone AI iOS | 2024-07-30

大嘴業(yè)話-AI目前市場分析

視頻人工智能，AI，ChatGPT，互聯(lián)網(wǎng)技術(shù) | 2023-04-25

CSR8670CSR8675智能語音Alexa藍牙方案開發(fā)

資源下載 AI 智能語音 | 2017-12-14

WTC-AI型太陽能熱水器電路圖

設(shè)計方案電子電路圖，WTC-AI 太陽能熱水器電路熱水器 | 2012-07-30

電子元件培訓(xùn)教材

資源下載 NBA 電子元件識別電阻識別電容識別 AI MI SMT DIP 靜電防護 | 2008-09-20

蘋果表示其AI模型是在谷歌的定制芯片上訓(xùn)練的

智能計算 AI | 2024-07-30

國際奧委會：最大限度發(fā)揮 AI 工具影響力，體育人才選拔方式有望得到革新

智能計算 AI 奧運會體育 | 2024-07-26

焦點

推薦視頻

更多>>

技術(shù)專區(qū)

<button id="geow2"><em id="geow2"></em></button>

<samp id="geow2"><kbd id="geow2"></kbd></samp><center id="geow2"><option id="geow2"></option></center>