微軟亞洲研究院持續(xù)迭代BEiT,為通用基礎模型的大一統(tǒng)發(fā)展奠定基礎
韋福如,本科、碩士和博士畢業(yè)于武漢大學計算機學院。博士期間,他在香港理工大學計算機系擔任訪問學者,自此開始從事自然語言處理(Natural Language Processing,NLP)領域的研究工作。
幾年間,韋福如在 NLP 領域取得了多次突破,并在大規(guī)模預訓練模型、自然語言處理,多模態(tài)人工智能等領域持續(xù)創(chuàng)新,曾入選2017年《麻省理工科技評論》“35歲以下科技創(chuàng)新35人”中國區(qū)榜單。
微軟亞洲研究院首席研究員韋福如
目前,韋福如已在微軟亞洲研究院工作12年,現(xiàn)任自然語言計算組首席研究員。他以 NLP 為主攻領域,這是人工智能的核心課題之一,是一門研究機器如何理解和生成自然語言的學科。該領域包括語言分析、信息抽取、信息檢索、文本挖掘、機器閱讀理解、智能問答、機器翻譯、自動文摘,文本生成以及綜合場景應用等研究課題。
近年來,隨著自然語言處理的研究和技術廣泛遷移到人工智能的其他領域,韋福如和團隊還專注于跨任務、跨語言和跨模態(tài)基礎模型、語音處理、文檔智能和多模態(tài)人工智能等領域的研究。
從技術層面來看,最近幾年 NLP 領域取得了非常出色的進展。大規(guī)模預訓練模型正在引領人工智能領域進行一場前所未有的范式遷移:在海量的未標注數(shù)據(jù)上通過自監(jiān)督預訓練得到一個預訓練模型(又稱為基礎模型),再通過微調或少樣本/零樣本學習使用少量標注,甚至不需要標注數(shù)據(jù),即可把基礎模型廣泛應用到下游任務模型上。新的范式取得了優(yōu)異的效果,并展現(xiàn)出了強大的泛化和通用能力。
“這幾年有三個重要的關鍵詞。第一個是大規(guī)模預訓練模型,或稱為基礎模型,即在通過自監(jiān)督學習完成預訓練的同時,也實現(xiàn)了模型訓練的范式遷移。第二個是多語言,也就是用一個模型可以支持多種語言的下游任務。第三個是多模態(tài),即不同模態(tài)(例如文本、圖像、語音等)的建模和學習逐漸趨于融合和統(tǒng)一?!表f福如表示。
生成式自監(jiān)督視覺預訓練模型BEiT和通用多模態(tài)基礎模型BEiT-3
計算機視覺(Computer Vision, CV)領域通常使用的是有監(jiān)督預訓練,也就是利用有標注的數(shù)據(jù)進行訓練。但隨著視覺模型的不斷擴大,標注數(shù)據(jù)難以滿足模型需求,當模型達到一定規(guī)模時,即使模型再擴大,也無法得到更好的結果,這就是所謂的數(shù)據(jù)饑餓(data hungry)。因此,科研人員開始使用無標注數(shù)據(jù)進行自監(jiān)督學習,以此預訓練大模型參數(shù)。
以往在 CV 領域,無標注數(shù)據(jù)的自監(jiān)督學習常采用對比學習。但對比學習存在一個問題——對圖像干擾操作過于依賴。當噪聲太簡單時,模型學習不到有用的知識;而對圖像改變過大,甚至面目全非時,模型無法進行有效學習。所以對比學習很難把握這之間的平衡,且需要大批量訓練,對顯存和工程實現(xiàn)要求很高。
在此背景下,韋福如團隊于2021年推出了生成式自監(jiān)督的視覺預訓練模型 BEiT,借助掩碼圖像建模(Masked Image Modeling,MIM)方法完成預訓練任務。
國際表征學習(International Conference on Learning Representations,ICLR)大會評審委員會認為,BEiT 為視覺大模型預訓練的研究開創(chuàng)了一個全新的方向,首次成功將掩碼預訓練應用在了 CV 領域非常具有創(chuàng)新性。實驗結果表明,與之前的預訓練方法相比,BEiT 可實現(xiàn)更為優(yōu)越的效果。
基于 BEiT,2022年韋福如和團隊進一步豐富了自監(jiān)督學習的語義信息,發(fā)布了 BEiT-2,并隨后將其升級為 BEiT-3。
2022年8月31日,相關論文以《把圖像視為外語:適用于所有視覺和視覺-語言任務的BEiT預訓練方法》(Image as a Foreign Language: BEiT Pretraining for All Vision and Vision-Language Tasks)為題發(fā)布在預印本平臺 arXiv [1]。
BEiT-3 論文
隨著大模型的發(fā)展,語言、視覺等多模態(tài)領域的預訓練模型已呈現(xiàn)出“大一統(tǒng)”趨勢。模型在大規(guī)模、海量數(shù)據(jù)上預訓練之后,能順利遷移至各種下游任務中。因此,預訓練一個能夠處理多種模態(tài)的通用基礎模型,也成為目前人工智能研究的一個關鍵課題。
BEiT-3 正是這樣一種通用的多模態(tài)基礎模型,在廣泛的視覺和視覺-語言任務上,都實現(xiàn)了最好的遷移性能。
BEiT-3 預訓練概述
在 BEiT-3 中,研究人員從骨干網絡、預訓練方法和模型規(guī)?;齻€方面出發(fā),推動了視覺-語言預訓練任務的融合。
首先,研究人員使用 Multiway Transformer 作為骨干模型來編碼不同的模態(tài)。每一個 Multiway Transformer 模塊都由一個共享的自注意力模塊和一組用于不同模態(tài)的前饋網絡池(即模態(tài)專家)組成,從而可以同時編碼多種模態(tài)。
此外,通過模塊化的設計,統(tǒng)一架構可以用于不同的視覺及視覺-語言下游任務。其中,Multiway Transformer 每一層都包括一個視覺專家和一個語言專家。
最上面的三層有專門為融合編碼器設計的視覺-語言專家。共享的自注意力模塊可以對不同模態(tài)之間的對齊(即尋找對應關系)進行學習,并能深度融合多模態(tài)(如視覺-語言)信息。
可以遷移到各種視覺和視覺-語言下游任務的 BEiT-3
統(tǒng)一的模型架構使 BEiT-3 能遷移到各種視覺和視覺-語言下游任務中。它不僅可以應用于圖像分類、目標檢測、實例分割等視覺任務的骨干網絡,還可以在模型微調后成為高效的圖像-文本檢索的雙編碼器,以及多模態(tài)理解和生成任務的融合編碼器等。
其次,在預訓練 BEiT-3 的過程中,研究人員采用單模態(tài)和多模態(tài)數(shù)據(jù)的統(tǒng)一掩碼數(shù)據(jù)建模(Masked Data Modeling)方法。這種方法能夠隨機屏蔽一定比例的文本或像素塊,并訓練模型去恢復被屏蔽的部分。統(tǒng)一的掩碼-預測任務,不僅可以學習各模態(tài)的特征,還能學習它們之間的對齊。
其他視覺-語言模型一般采用圖像-文本對比、圖像-文本匹配等多種預訓練任務,而 BEiT-3 只使用了一種預訓練任務,這不僅有利于擴大模型規(guī)模,還有助于實現(xiàn) GPU 內存等多方成本的降低。
最后,該團隊從模型規(guī)模和數(shù)據(jù)規(guī)模兩方面出發(fā),將 BEiT-3 進行規(guī)?;?,從而提高基礎模型的泛化能力。
據(jù)悉,BEiT-3 由1408個隱藏神經元、6144個中間層神經元、16組注意力模塊的40層 Multiway Transformer 骨干網絡組成,模型共包含大約19億個參數(shù),其中視覺專家參數(shù)6.92億,語言專家參數(shù)6.92億,視覺-語言專家參數(shù)0.52億,共享自注意力模塊參數(shù)為3.17億個。
據(jù)介紹,微軟亞洲研究院在單模態(tài)和多模態(tài)數(shù)據(jù)上對 BEiT-3 進行了100萬次迭代的預訓練,每個批量的訓練數(shù)據(jù)包含6144個樣本,其中有2048張圖像、2048個文本和2048個圖像-文本對。相比使用對比學習方法訓練的模型來說, BEiT-3 的批量規(guī)模要小得多。值得一提的是,這里面所有數(shù)據(jù)都是開源的。
BEiT-3 模型參數(shù)分布及預訓練數(shù)據(jù)
同時,在包含視覺問答、視覺推理、圖像描述生成等在內的視覺-語言任務,以及包含目標檢測與實例分割、語義分割、圖像分類等在內的一共12個視覺-語言下游任務上,該團隊評估了 BEiT-3 的泛化能力。結果表明,BEiT-3 在這些任務上都取得了 SOTA 的遷移性能。
與其他特定模型或基礎模型相比,BEiT-3 在廣泛任務中實現(xiàn)了最佳性能
“通用走向未來”:大規(guī)模預訓練模型將朝“大一統(tǒng)”方向發(fā)展
目前,在開發(fā)和訓練大模型的過程中,仍然存在許多需要探討和深思的問題。
例如,很多企業(yè)都會將數(shù)據(jù)收集類的工作外包處理,這個過程中不僅存在安全隱患,還會造成數(shù)據(jù)不均衡的問題。對此,韋福如表示,數(shù)據(jù)是模型的重要組成部分。沒有好的數(shù)據(jù),就不可能有好的模型。數(shù)據(jù)本身就是大模型研究的一部分,因此這部分的工作需要更加重視。
從某種程度上看,對數(shù)據(jù)部分的研究更需要匯集聰明才智。如何收集、整理以及使用數(shù)據(jù),也是最值得投入和研究的課題之一。
又比如,研發(fā)大模型時不僅會消耗大量成本,甚至也會對氣候造成一定影響。談及這個問題,韋福如表示大模型的能效(efficiency)很重要,這也是接下來需要研究的重要部分之一。但另一方面,因為通用大模型的出現(xiàn),相關領域的特定任務和模型將變得更加簡單,這也有利于降低重復建設的成本。
在韋福如看來,未來大規(guī)模預訓練模型向“大一統(tǒng)”方向發(fā)展,已經成為必然。這個“大一統(tǒng)”主要可從兩個層面理解:
第一,從技術層面看,如何用相同的技術構建不同領域的基礎模型?這包括構建通用骨干網絡、生成式自監(jiān)督學習為主的學習方式,以及持續(xù)擴大(scaling up)模型規(guī)模。
第二,從模型和應用層面看,如何構建一個能夠處理不同語言和模態(tài)任務的基礎模型?隨著技術的統(tǒng)一,未來將會出現(xiàn)能夠應用于各種領域的通用基礎大模型。
韋福如認為:“只有模型標準化,才可能實現(xiàn)規(guī)?;?,進而為大范圍產業(yè)化提供基礎和可能?!笠唤y(tǒng)’中很重要的一點是,技術會變得越來越通用,只有通用才有可能更接近本質,也更利于不同領域的深度合作和相互促進。”
而對于 BEiT-3 來說,其核心思想就是把圖像作為一種外語進行建模和學習,從而實現(xiàn)以統(tǒng)一的方式完成圖像、文本和圖像-文本的掩碼“語言”建模,這也在自然語言處理領域被證實為最有效的擴大模型規(guī)模的技術方向和方案,這也將成為規(guī)?;A模型一個頗有前景的方向。
未來,韋福如和團隊將繼續(xù)開展多模態(tài)預訓練方面的工作,并將在其中加入包括音頻、多語言在內的更多模態(tài),在促進跨語言和跨模態(tài)轉換的同時,推動跨任務、跨語言和跨模態(tài)的大規(guī)模預訓練融合。
支持:王貝貝
參考資料:
1.W. Wang, H. Bao, L. Dong, J. Bjorck.et al. Image as a Foreign Language: BEiT Pretraining for All Vision and Vision-Language Tasks. arXiv (2022).https://doi.org/10.48550/arXiv.2208.10442
H. Bao, L. Dong, S. Piao. F. Wei, BEiT:BERT Pre-Training of Image Transformers. arXiv (2021).https://doi.org/10.48550/arXiv.2106.08254
Z. Peng, L. Dong, H. Bao, Q. Ye, F. Wei, BEiT v2: Masked Image Modeling with Vector-Quantized Visual Tokenizers. arXiv (2022)https://doi.org/10.48550/arXiv.2208.06366
*博客內容為網友個人發(fā)布,僅代表博主個人觀點,如有侵權請聯(lián)系工作人員刪除。
電子管相關文章:電子管原理
模擬信號相關文章:什么是模擬信號
可控硅相關文章:可控硅工作原理
比較器相關文章:比較器工作原理
低通濾波器相關文章:低通濾波器原理
電子負載相關文章:電子負載原理