色婷婷AⅤ一区二区三区|亚洲精品第一国产综合亚AV|久久精品官方网视频|日本28视频香蕉

          "); //-->

          博客專欄

          EEPW首頁 > 博客 > CLIP不接地氣?你需要一個更懂中文的模型

          CLIP不接地氣?你需要一個更懂中文的模型

          發(fā)布人:機(jī)器之心 時間:2022-12-21 來源:工程師 發(fā)布文章
          隨著 CLIP 的提出,多模態(tài)預(yù)訓(xùn)練近年來發(fā)展迅速,但 CLIP 對于特定語言的理解有比較明顯的欠缺。本文介紹的是達(dá)摩院魔搭社區(qū) ModelScope 近期開源的中文 CLIP 大規(guī)模預(yù)訓(xùn)練圖文表征模型,更加懂中文和中文互聯(lián)網(wǎng)的圖像,在圖文檢索、零樣本圖片分類等多個任務(wù)中實現(xiàn)最優(yōu)效果,同時代碼和模型已經(jīng)全部開源,用戶能夠使用魔搭快速上手。

          圖片


          • 模型使用入口: https://modelscope.cn/models/damo/multi-modal_clip-vit-base-patch16_zh/summary
          • Github: https://github.com/OFA-Sys/Chinese-CLIP
          • 論文: https://arxiv.org/pdf/2211.01335.pdf
          • 圖文檢索 demo: https://modelscope.cn/studios/damo/chinese_clip_applications/summary 


          1. 簡介
          在當(dāng)下的互聯(lián)網(wǎng)生態(tài)中,多模態(tài)相關(guān)任務(wù)和場景簡直數(shù)不勝數(shù),如圖文檢索、圖片分類、視頻和圖文內(nèi)容等場景。近年火爆全網(wǎng)的圖片生成更是熱度躥升,迅速出圈。這些任務(wù)的背后,一個強(qiáng)大的圖文理解模型顯然是必須的。OpenAI 在 2021 年推出的 CLIP 模型,相信大家都不會陌生,通過簡單的圖文雙塔對比學(xué)習(xí)和大量的圖文語料,使模型具有了顯著的圖文特征對齊能力,在零樣本圖像分類、跨模態(tài)檢索中效果拔群,也被作為 DALLE2、Stable Diffusion 等圖片生成模型的關(guān)鍵模塊。
          但很可惜的是,OpenAI CLIP 的預(yù)訓(xùn)練主要使用英文世界的圖文數(shù)據(jù),不能天然支持中文。即便是社區(qū)有研究者通過翻譯的文本,蒸餾出多語言版本的 Multilingual-CLIP (mCLIP),同樣無法很好滿足中文世界的需求,對于中文領(lǐng)域的文本理解不很到位,比如搜索“春節(jié)對聯(lián)”,返回的卻是圣誕相關(guān)的內(nèi)容:

          圖片

          mCLIP 檢索 demo 搜索 “春節(jié)對聯(lián)” 返回結(jié)果
          這也說明,我們需要一個更懂中文的 CLIP,不僅懂我們的語言,也更懂中文世界的圖像。
          2. 方法
          達(dá)摩院的研究人員收集了大規(guī)模的中文圖文對數(shù)據(jù)(約 2 億規(guī)模),其中包括來自 LAION-5B 中文子集、Wukong 的中文數(shù)據(jù)、以及來自 COCO、Visual Genome 的翻譯圖文數(shù)據(jù)等。訓(xùn)練圖文絕大部分來自公開數(shù)據(jù)集,大大降低了復(fù)現(xiàn)難度。而在訓(xùn)練方法上,為了有效提升模型的訓(xùn)練效率和模型效果,研究人員則設(shè)計了兩階段訓(xùn)練的流程:

          圖片

          Chinese CLIP 方法示意圖
          如圖所示,在第一階段,模型使用已有的圖像預(yù)訓(xùn)練模型和文本預(yù)訓(xùn)練模型分別初始化 Chinese-CLIP 的雙塔,并凍結(jié)圖像側(cè)參數(shù),讓語言模型關(guān)聯(lián)上已有的圖像預(yù)訓(xùn)練表示空間,同時減小訓(xùn)練開銷。隨后,在第二階段解凍圖像側(cè)參數(shù),讓圖像模型和語言模型關(guān)聯(lián)的同時并建模中文特色的數(shù)據(jù)分布。研究者發(fā)現(xiàn),相比從頭開始做預(yù)訓(xùn)練,該方法在多個下游任務(wù)上均展現(xiàn)顯著更優(yōu)的實驗效果,而其顯著更高的收斂效率也意味著更小的訓(xùn)練開銷。相比全程只訓(xùn)練文本側(cè)做一階段訓(xùn)練,加入第二階段訓(xùn)練能有效在圖文下游任務(wù),尤其是中文原生(而非翻譯自英文數(shù)據(jù)集)的圖文任務(wù)上進(jìn)一步提升效果。

          圖片

          在 MUGE 中文電商圖文檢索、Flickr30K-CN 翻譯版本通用圖文檢索兩個數(shù)據(jù)集上觀察 zero-shot 隨著預(yù)訓(xùn)練持續(xù)進(jìn)行的效果變化趨勢
          利用這一策略,研究人員訓(xùn)練了多個規(guī)模的模型,從最小的 ResNet-50、ViT-Base 和 Large,直到 ViT-Huge 應(yīng)有盡有,目前已經(jīng)全部開放,用戶完全可以按需使用最適合自身場景的模型:

          圖片


          3. 實驗
          多項實驗數(shù)據(jù)表明,Chinese-CLIP 可以在中文跨模態(tài)檢索取得最優(yōu)表現(xiàn),其中在中文原生的電商圖像檢索數(shù)據(jù)集 MUGE 上,多個規(guī)模的 Chinese CLIP 均取得該規(guī)模的最優(yōu)表現(xiàn)。而在英文原生的 Flickr30K-CN 等數(shù)據(jù)集上,不論是零樣本還是微調(diào)的設(shè)定下,Chinese CLIP 均能顯著地超出國內(nèi) Wukong、Taiyi、R2D2 等基線模型。這在很大程度上歸功于 Chinese-CLIP 更大規(guī)模的中文預(yù)訓(xùn)練圖文語料,以及 Chinese-CLIP 不同于國內(nèi)現(xiàn)有一些圖文表征模型為了最小化訓(xùn)練成本全程凍結(jié)圖像側(cè),而是采用兩階段的訓(xùn)練策略的做法,以更好適配中文領(lǐng)域:

          圖片

          MUGE 中文電商圖文檢索數(shù)據(jù)集實驗結(jié)果

          圖片

          Flickr30K-CN 中文圖文檢索數(shù)據(jù)集實驗結(jié)果
          同時,研究人員在零樣本圖像分類數(shù)據(jù)集上驗證了中文 CLIP 的效果。由于中文領(lǐng)域比較權(quán)威的零樣本圖像分類任務(wù)并不多,研究人員目前在英文翻譯版本的數(shù)據(jù)集上進(jìn)行了測試。Chinese-CLIP 在這些任務(wù)上,通過中文的 prompt 和類別標(biāo)簽,能夠取得和 CLIP 相當(dāng)?shù)谋憩F(xiàn):

          圖片

          零樣本分類實驗結(jié)果

          圖片

          零樣本圖片分類示例
          4.快速使用
          如何才能用上 Chinese-CLIP ?很簡單,點擊文章開頭的鏈接訪問魔搭社區(qū)或使用開源代碼,短短幾行就能完成圖文特征提取和相似度計算了。如需快速使用和體驗,魔搭社區(qū)提供了配置好環(huán)境的 Notebook,點擊右上方即可使用。       

          圖片


          Chinese-CLIP 也支持用戶使用自己的數(shù)據(jù)進(jìn)行 finetune,同時還提供了一個圖文檢索的 demo,供大家實際體驗 Chinese-CLIP 各規(guī)模模型的效果:

          圖片


          5. 結(jié)語
          此次達(dá)魔搭社區(qū)推出 Chinese-CLIP 項目,為廣大中文多模態(tài)研究和產(chǎn)業(yè)界用戶,提供了一個優(yōu)秀的預(yù)訓(xùn)練圖文理解模型,幫助大家無門檻快速上手圖文特征 & 相似度計算、圖文檢索以及零樣本分類,并可嘗試用于搭建像是圖像生成這樣更復(fù)雜的多模態(tài)應(yīng)用。想要在中文多模態(tài)領(lǐng)域一展拳腳的朋友們,請一定不要錯過!而這也僅僅是魔搭社區(qū)的一項應(yīng)用之一,ModelScope 讓眾多 AI 領(lǐng)域的基礎(chǔ)模型扮演應(yīng)用基座的角色,支持更多創(chuàng)新模型、應(yīng)用甚至產(chǎn)品的誕生。


          *博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。



          關(guān)鍵詞: AI

          相關(guān)推薦

          技術(shù)專區(qū)

          關(guān)閉