色婷婷AⅤ一区二区三区|亚洲精品第一国产综合亚AV|久久精品官方网视频|日本28视频香蕉

"); //-->

博客專(zhuān)欄

EEPW首頁(yè) > 博客 > Transformer的細(xì)節(jié)到底是怎么樣的？Transformer 18問(wèn)?。?）

Transformer的細(xì)節(jié)到底是怎么樣的？Transformer 18問(wèn)?。?）

發(fā)布人：數(shù)據(jù)派THU 時(shí)間：2023-07-19 來(lái)源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

發(fā)布文章

來(lái)源丨知乎

作者丨愛(ài)問(wèn)問(wèn)題的王宸@知乎

為什么想通過(guò)十八個(gè)問(wèn)題的方式總結(jié)Transformer？

有兩點(diǎn)原因：

第一，Transformer是既MLP、RNN、CNN之后的第四大特征提取器，也被稱為第四大基礎(chǔ)模型；最近爆火的chatGPT，其最底層原理也是Transformer，Transformer的重要性可見(jiàn)一斑。

第二，希望通過(guò)問(wèn)問(wèn)題這種方式，更好的幫助大家理解Transformer的內(nèi)容和原理。

1.2017年深度學(xué)習(xí)領(lǐng)域的重大突破是什么？

Transformer。有兩方面的原因：

1.1 一方面，Transformer是深度學(xué)習(xí)領(lǐng)域既MLP、RNN、CNN之后的第4大特征提取器（也被稱為基礎(chǔ)模型）。什么是特征提取器？大腦是人與外部世界（圖像、文字、語(yǔ)音等）交互的方式；特征提取器是計(jì)算機(jī)為了模仿大腦，與外部世界（圖像、文字、語(yǔ)音等）交互的方式，如圖1所示。舉例而言：Imagenet數(shù)據(jù)集中包含1000類(lèi)圖像，人們已經(jīng)根據(jù)自己的經(jīng)驗(yàn)把這一百萬(wàn)張圖像分好1000類(lèi)，每一類(lèi)圖像（如美洲豹）都有獨(dú)特的特征。這時(shí)，神經(jīng)網(wǎng)絡(luò)（如ResNet18）也是想通過(guò)這種分類(lèi)的方式，把每一類(lèi)圖像的特有特征盡可能提取或識(shí)別出來(lái)。分類(lèi)不是最終目的，而是一種提取圖像特征的手段，掩碼補(bǔ)全圖像也是一種提取特征的方式，圖像塊順序打亂也是一種提取特征的方式。

圖1 神經(jīng)網(wǎng)絡(luò)為了模仿大腦中的神經(jīng)元
1.2 另一方面，Transformer在深度學(xué)習(xí)領(lǐng)域扮演的角色：第3次和第4次熱潮的基石，如下圖2所示。

圖2 深度學(xué)習(xí)發(fā)展的4個(gè)階段
2. Transformer的提出背景是什么？

2.1 在領(lǐng)域發(fā)展背景層面：當(dāng)時(shí)時(shí)處2017年，深度學(xué)習(xí)在計(jì)算機(jī)視覺(jué)領(lǐng)域火了已經(jīng)幾年。從Alexnet、VGG、GoogLenet、ResNet、DenseNet；從圖像分類(lèi)、目標(biāo)檢測(cè)再到語(yǔ)義分割；但在自然語(yǔ)言處理領(lǐng)域并沒(méi)有引起很大反響。

2.2 技術(shù)背景層面：（1）當(dāng)時(shí)主流的序列轉(zhuǎn)錄任務(wù)（如機(jī)器翻譯）的解決方案如下圖3所示，在Sequence to Sequence架構(gòu)下（Encoder- Decoder的一種），RNN來(lái)提取特征，Attention機(jī)制將Encoder提取到的特征高效傳遞給Decoder。（2）這種做法有兩個(gè)不足之處，一方面是在提取特征時(shí)的RNN天生從前向后時(shí)序傳遞的結(jié)構(gòu)決定了其無(wú)法并行運(yùn)算，其次是當(dāng)序列長(zhǎng)度過(guò)長(zhǎng)時(shí)，最前面序列的信息有可能被遺忘掉。因此可以看到，在這個(gè)框架下，RNN是相對(duì)薄弱急需改進(jìn)的地方。

圖3 序列轉(zhuǎn)錄任務(wù)的主流解決方案
3. Transformer到底是什么？

3.1 Transformer是一種由Encoder和Decoder組成的架構(gòu)。那么什么是架構(gòu)呢？最簡(jiǎn)單的架構(gòu)就是A+B+C。

3.2 Transformer也可以理解為一個(gè)函數(shù)，輸入是“我愛(ài)學(xué)習(xí)”，輸出是“I love study”。

3.3 如果把Transformer的架構(gòu)進(jìn)行分拆，如圖4所示。

圖4 Transformer的架構(gòu)圖
4. 什么是Transformer Encoder？

4.1 從功能角度，Transformer Encoder的核心作用是提取特征，也有使用Transformer Decoder來(lái)提取特征。例如，一個(gè)人學(xué)習(xí)跳舞，Encoder是看別人是如何跳舞的，Decoder是將學(xué)習(xí)到的經(jīng)驗(yàn)和記憶，展現(xiàn)出來(lái)

4.2 從結(jié)構(gòu)角度，如圖5所示，Transformer Encoder = Embedding + Positional Embedding + N*（子Encoder block1 + 子Encoder block2）；

子Encoder block1 = Multi head attention + ADD + Norm；

子Encoder block2 = Feed Forward + ADD + Norm；

4.3 從輸入輸出角度，N個(gè)Transformer Encoder block中的第一個(gè)Encoder block的輸入為一組向量 X = （Embedding + Positional Embedding），向量維度通常為512*512，其他N個(gè)TransformerEncoder block的輸入為上一個(gè) Transformer Encoder block的輸出，輸出向量的維度也為512*512（輸入輸出大小相同）。

4.4 為什么是512*512？前者是指token的個(gè)數(shù)，如“我愛(ài)學(xué)習(xí)”是4個(gè)token，這里設(shè)置為512是為了囊括不同的序列長(zhǎng)度，不夠時(shí)padding。后者是指每一個(gè)token生成的向量維度，也就是每一個(gè)token使用一個(gè)序列長(zhǎng)度為512的向量表示。人們常說(shuō)，Transformer不能超過(guò)512，否則硬件很難支撐；其實(shí)512是指前者，也就是token的個(gè)數(shù)，因?yàn)槊恳粋€(gè)token要做self attention操作；但是后者的512不宜過(guò)大，否則計(jì)算起來(lái)也很慢。

圖5 Transformer Encoder的架構(gòu)圖
5. 什么是Transformer Decoder？

5.1 從功能角度，相比于Transformer Encoder，Transformer Decoder更擅長(zhǎng)做生成式任務(wù)，尤其對(duì)于自然語(yǔ)言處理問(wèn)題。

5.2 從結(jié)構(gòu)角度，如圖6所示，Transformer Decoder = Embedding + Positional Embedding + N*（子Decoder block1 + 子Decoder block2 + 子Decoder block3）+ Linear + Softmax；

子Decoder block1 = Mask Multi head attention + ADD + Norm；子Decoder block2 = Multi head attention + ADD + Norm；子Decoder block3 = Feed Forward + ADD + Norm；

圖6 Transformer Decoder的架構(gòu)圖

5.3 從（Embedding+Positional Embedding）（N個(gè)Decoder block）（Linear + softmax) 這三個(gè)每一個(gè)單獨(dú)作用角度：

Embedding + Positional Embedding ：以機(jī)器翻譯為例，輸入“Machine Learning”，輸出“機(jī)器學(xué)習(xí)”；這里的Embedding是把“機(jī)器學(xué)習(xí)”也轉(zhuǎn)化成向量的形式。

N個(gè)Decoder block：特征處理和傳遞過(guò)程。

Linear + softmax：softmax是預(yù)測(cè)下一個(gè)詞出現(xiàn)的概率，如圖7所示，前面的Linear層類(lèi)似于分類(lèi)網(wǎng)絡(luò)（ResNet18）最后分類(lèi)層前接的MLP層。

圖7 Transformer Decoder 中softmax的作用
5.4 Transformer Decoder的輸入、輸出是什么？在Train和Test時(shí)是不同的。在Train階段，如圖8所示。這時(shí)是知道label的，decoder的第一個(gè)輸入是begin字符，輸出第一個(gè)向量與label中第一個(gè)字符使用cross entropy loss。Decoder的第二個(gè)輸入是第一個(gè)向量的label，Decoder的第N個(gè)輸入對(duì)應(yīng)的輸出是End字符，到此結(jié)束。這里也可以看到，在Train階段是可以進(jìn)行并行訓(xùn)練的。

圖8 Transformer Decoder在訓(xùn)練階段的輸入和輸出
在Test階段，下一個(gè)時(shí)刻的輸入時(shí)是前一個(gè)時(shí)刻的輸出，如圖9所示。因此，Train和Test時(shí)候，Decoder的輸入會(huì)出現(xiàn)Mismatch，在Test時(shí)候確實(shí)有可能會(huì)出現(xiàn)一步錯(cuò)，步步錯(cuò)的情況。有兩種解決方案：一種是train時(shí)偶爾給一些錯(cuò)誤，另一種是Scheduled sampling。

圖9 Transformer Decoder在Test階段的輸入和輸出
5.5 Transformer Decoder block內(nèi)部的輸出和輸出是什么？
前面提到的是在整體train和test階段，Decoder的輸出和輸出，那么Transformer Decoder內(nèi)部的Transformer Decoder block，如圖10所示，的輸入輸出又是什么呢？

圖10 Transformer Decoder block的架構(gòu)圖

對(duì)于N=6中的第1次循環(huán)（N=1時(shí)）：子Decoder block1 的輸入是 embedding +Positional Embedding，子Decoder block2 的輸入的Q來(lái)自子Decoder block1的輸出，KV來(lái)自Transformer Encoder最后一層的輸出。

對(duì)于N=6的第2次循環(huán)：子Decoder block1的輸入是N=1時(shí)，子Decoder block3的輸出，KV同樣來(lái)自Transformer Encoder的最后一層的輸出。

總的來(lái)說(shuō)，可以看到，無(wú)論在Train還是Test時(shí)，Transformer Decoder的輸入不僅來(lái)自（ground truth或者上一個(gè)時(shí)刻Decoder的輸出），還來(lái)自Transformer Encoder的最后一層。

訓(xùn)練時(shí)：第i個(gè)decoder的輸入 = encoder輸出 + ground truth embedding。

預(yù)測(cè)時(shí)：第i個(gè)decoder的輸入 = encoder輸出 + 第(i-1)個(gè)decoder輸出.

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關(guān)鍵詞： AI

相關(guān)推薦

國(guó)際奧委會(huì)：最大限度發(fā)揮 AI 工具影響力，體育人才選拔方式有望得到革新

智能計(jì)算 AI 奧運(yùn)會(huì) 體育 | 2024-07-26

“破局AI開(kāi)發(fā)，釋放邊緣算力開(kāi)發(fā)者訪談”，干貨滿滿！

視頻 intel AI OpenVINO | 2021-06-10

人工智能是如何幫助阻止造假者的？

謝丫丫 | 2018-08-14

加大調(diào)整力度，教育部支持高校布局集成電路、AI 等專(zhuān)業(yè)

智能計(jì)算教育 AI 集成電路 | 2024-07-25

摩根士丹利：僅 GB200 AI 服務(wù)器業(yè)務(wù)，就為英偉達(dá)創(chuàng)造 2100 億美元年收入

智能計(jì)算 GB200 AI 英偉達(dá) GPU | 2024-07-26

如何快速搭建手寫(xiě)體識(shí)別演示系統(tǒng)

視頻 digikey AI 手寫(xiě)體識(shí)別 | 2022-07-29

WTC-AI型太陽(yáng)能熱水器電路圖

設(shè)計(jì)方案電子電路圖，WTC-AI 太陽(yáng)能熱水器電路熱水器 | 2012-07-30

Nvidia的CEO談AI的未來(lái)：“我們將需要三臺(tái)電腦... 一臺(tái)來(lái)創(chuàng)建AI... 一臺(tái)來(lái)模擬AI... 一臺(tái)來(lái)運(yùn)行AI”

智能計(jì)算 AI | 2024-07-31

iPhone 16將不會(huì)預(yù)裝AI功能？計(jì)劃通過(guò)iOS 18.1發(fā)布

iPhone AI iOS | 2024-07-30

AI驅(qū)動(dòng)的嵌入式聲音和振動(dòng)識(shí)別

視頻 ADI AI 嵌入式 OtoSense | 2018-10-23

電子元件培訓(xùn)教材

資源下載 NBA 電子元件識(shí)別電阻識(shí)別電容識(shí)別 AI MI SMT DIP 靜電防護(hù) | 2008-09-20

萬(wàn)家樂(lè)JSYZ5-AI燃?xì)鉄崴麟娐穲D

設(shè)計(jì)方案電路圖熱水器 JSYZ5-AI 萬(wàn)家樂(lè) | 2013-01-17

攻擊成功率從 3% 到接近 100%，利用空格鍵可繞過(guò) Meta AI 模型安全系統(tǒng)

智能計(jì)算 Meta AI | 2024-07-31

EEPW2018年3月刊(工業(yè)物聯(lián)網(wǎng))

資源下載工業(yè)物聯(lián)網(wǎng) AI | 2018-03-12

EEPW2018年6月刊(5G)

資源下載 5G AI | 2018-06-11

CSR8670CSR8675智能語(yǔ)音Alexa藍(lán)牙方案開(kāi)發(fā)

資源下載 AI 智能語(yǔ)音 | 2017-12-14

AI+機(jī)器視覺(jué)成趨勢(shì)，圖文詳解N大應(yīng)用場(chǎng)景

智能計(jì)算安森美 AI 機(jī)器視覺(jué) | 2024-07-31

瑞薩電子AI單元解決方案成功提高GE醫(yī)療（日本）日野工廠的生產(chǎn)力

winni945 | 2018-09-12

釋說(shuō)芯語(yǔ)16：硬科技：構(gòu)建企業(yè)未來(lái)之路（附PPT）

jackwang | 2018-10-22

大嘴業(yè)話-AI目前市場(chǎng)分析

視頻人工智能，AI，ChatGPT，互聯(lián)網(wǎng)技術(shù) | 2023-04-25

海聯(lián)達(dá)（Aigale）Ai-HD1 無(wú)線全高清套件拆解

zhuwei0710 | 2013-04-28

iCAN-4017 AI功能模塊

資源下載周立功單片機(jī) 功能模塊 iCAN-4017 AI | 2007-03-30

深圳加快打造 AI 先鋒城市，今年將建成 4000PFLOPS 算力智算中心

智能計(jì)算 AI 智能計(jì)算深圳 | 2024-07-30

蘋(píng)果表示其AI模型是在谷歌的定制芯片上訓(xùn)練的

智能計(jì)算 AI | 2024-07-30

WTC-AI太陽(yáng)能熱水器電路圖

設(shè)計(jì)方案 WTC-AI 太陽(yáng)能熱水器電路圖 | 2012-07-24

2021春晚黑科技，火爆全網(wǎng)的\"打工牛\"是什么來(lái)頭？

視頻 AI 機(jī)器人 | 2021-02-26

蘋(píng)果承認(rèn)：AI模型使用谷歌定制芯片訓(xùn)練

智能計(jì)算蘋(píng)果 AI 谷歌定制芯片 | 2024-07-30

繼上次海聯(lián)達(dá)Ai-ap100拆機(jī)之電源改造

zhuwei0710 | 2013-04-03

焦點(diǎn)

推薦視頻

更多>>

技術(shù)專(zhuān)區(qū)