色婷婷AⅤ一区二区三区|亚洲精品第一国产综合亚AV|久久精品官方网视频|日本28视频香蕉

          "); //-->

          博客專欄

          EEPW首頁(yè) > 博客 > 熔巖羊駝LLaVA來(lái)了:像GPT-4一樣可以看圖聊天,無(wú)需****,在線可玩

          熔巖羊駝LLaVA來(lái)了:像GPT-4一樣可以看圖聊天,無(wú)需****,在線可玩

          發(fā)布人:機(jī)器之心 時(shí)間:2023-04-23 來(lái)源:工程師 發(fā)布文章

          盡管 LLaVA 是用一個(gè)小的多模態(tài)指令數(shù)據(jù)集訓(xùn)練的,但它在一些示例上展示了與多模態(tài)模型 GPT-4 非常相似的推理結(jié)果。


          圖片


          GPT-4 的識(shí)圖能力什么時(shí)候能上線呢?這個(gè)問(wèn)題目前依然沒(méi)有答案。
          但研究社區(qū)已經(jīng)等不及了,紛紛自己上手 DIY,其中最火的是一個(gè)名為 MiniGPT-4 的項(xiàng)目。MiniGPT-4 展示了許多類似于 GPT-4 的能力,例如生成詳細(xì)的圖像描述并從手寫(xiě)草稿創(chuàng)建網(wǎng)站。此外,作者還觀察到 MiniGPT-4 的其他新興能力,包括根據(jù)給定的圖像創(chuàng)作故事和詩(shī)歌,提供解決圖像中顯示的問(wèn)題的解決方案,根據(jù)食品照片教用戶如何烹飪等。該項(xiàng)目上線 3 天就拿到了近一萬(wàn)的 Star 量。

          圖片


          今天要介紹的項(xiàng)目 ——LLaVA(Large Language and Vision Assistant)與之類似,是一個(gè)由威斯康星大學(xué)麥迪遜分校、微軟研究院和哥倫比亞大學(xué)研究者共同發(fā)布的多模態(tài)大模型。
          圖片

          • 論文鏈接:https://arxiv.org/pdf/2304.08485.pdf
          • 項(xiàng)目鏈接:https://llava-vl.github.io/


          該模型展示出了一些接近多模態(tài) GPT-4 的圖文理解能力:相對(duì)于 GPT-4 獲得了 85.1% 的相對(duì)得分。當(dāng)在科學(xué)問(wèn)答(Science QA)上進(jìn)行微調(diào)時(shí),LLaVA 和 GPT-4 的協(xié)同作用實(shí)現(xiàn)了 92.53% 準(zhǔn)確率的新 SoTA。
          圖片
          以下是機(jī)器之心的試用結(jié)果(更多結(jié)果見(jiàn)文末):
          圖片
          論文概覽
          人類通過(guò)視覺(jué)和語(yǔ)言等多種渠道與世界交互,因?yàn)椴煌那涝诖砗蛡鬟_(dá)某些概念時(shí)都有各自獨(dú)特的優(yōu)勢(shì),多渠道的方式有利于更好地理解世界。人工智能的核心愿望之一是開(kāi)發(fā)一個(gè)通用的助手,能夠有效地遵循多模態(tài)指令,例如視覺(jué)或語(yǔ)言的指令,滿足人類的意圖,在真實(shí)環(huán)境中完成各種任務(wù)。
          為此,社區(qū)興起了對(duì)開(kāi)發(fā)基于語(yǔ)言增強(qiáng)的視覺(jué)模型的風(fēng)潮。這類模型在開(kāi)放世界視覺(jué)理解方面具有強(qiáng)大的能力,如分類、檢測(cè)、分割和圖文,以及視覺(jué)生成和視覺(jué)編輯能力。每個(gè)任務(wù)都由一個(gè)大型視覺(jué)模型獨(dú)立解決,在模型設(shè)計(jì)中隱含地考慮了任務(wù)的需求。此外,語(yǔ)言僅用于描述圖像內(nèi)容。雖然這使得語(yǔ)言在將視覺(jué)信號(hào)映射到語(yǔ)言語(yǔ)義(人類交流的常見(jiàn)渠道)方面發(fā)揮了重要作用,但它導(dǎo)致模型通常具有固定的界面,在交互性和對(duì)用戶指令的適應(yīng)性上存在限制。
          另一方面,大型語(yǔ)言模型(LLM)已經(jīng)表明,語(yǔ)言可以發(fā)揮更廣泛的作用:作為通用智能助理的通用交互接口。在通用接口中,各種任務(wù)指令可以用語(yǔ)言明確表示,并引導(dǎo)端到端訓(xùn)練的神經(jīng)網(wǎng)絡(luò)助理切換模式來(lái)完成任務(wù)。例如,ChatGPT 和 GPT-4 最近的成功證明了 LLM 在遵循人類指令完成任務(wù)方面的能量,并掀起了開(kāi)發(fā)開(kāi)源 LLM 的熱潮。其中,LLaMA 是一種與 GPT-3 性能相近的開(kāi)源 LLM。Alpaca、Vicuna、GPT-4-LLM 利用各種機(jī)器生成的高質(zhì)量指令跟蹤樣本來(lái)提高 LLM 的對(duì)齊能力,與專有 LLM 相比,展示出了令人印象深刻的性能。但遺憾的是,這些模型的輸入僅為文本。
          在本文中,研究者提出了視覺(jué) instruction-tuning 方法,首次嘗試將 instruction-tuning 擴(kuò)展到多模態(tài)空間,為構(gòu)建通用視覺(jué)助理鋪平了道路。
          具體來(lái)說(shuō),本文做出了以下貢獻(xiàn):

          • 多模態(tài)指令數(shù)據(jù)。當(dāng)下關(guān)鍵的挑戰(zhàn)之一是缺乏視覺(jué)與語(yǔ)言組成的指令數(shù)據(jù)。本文提出了一個(gè)數(shù)據(jù)重組方式,使用 ChatGPT/GPT-4 將圖像 - 文本對(duì)轉(zhuǎn)換為適當(dāng)?shù)闹噶罡袷剑?/span>
          • 大型多模態(tài)模型。研究者通過(guò)連接 CLIP 的開(kāi)源視覺(jué)編碼器和語(yǔ)言**** LLaMA,開(kāi)發(fā)了一個(gè)大型多模態(tài)模型(LMM)—— LLaVA,并在生成的視覺(jué) - 語(yǔ)言指令數(shù)據(jù)上進(jìn)行端到端微調(diào)。實(shí)證研究驗(yàn)證了將生成的數(shù)據(jù)用于 LMM 進(jìn)行 instruction-tuning 的有效性,并為構(gòu)建遵循視覺(jué) agent 的通用指令提供了較為實(shí)用的技巧。使用 GPT-4,本文在 Science QA 這個(gè)多模態(tài)推理數(shù)據(jù)集上實(shí)現(xiàn)了最先進(jìn)的性能。
          • 開(kāi)源。研究者向公眾發(fā)布了以下資產(chǎn):生成的多模式指令數(shù)據(jù)、用于數(shù)據(jù)生成和模型訓(xùn)練的代碼庫(kù)、模型檢查點(diǎn)和可視化聊天演示。


          LLaVA 架構(gòu)
          本文的主要目標(biāo)是有效利用預(yù)訓(xùn)練的 LLM 和視覺(jué)模型的功能。網(wǎng)絡(luò)架構(gòu)如圖 1 所示。本文選擇 LLaMA 模型作為 LLM fφ(?),因?yàn)樗挠行砸呀?jīng)在幾個(gè)開(kāi)源的純語(yǔ)言 instruction-tuning 工作中得到了證明。
          圖片
          對(duì)于輸入圖像 X_v,本文使用預(yù)訓(xùn)練的 CLIP 視覺(jué)編碼器 ViT-L/14 進(jìn)行處理,得到視覺(jué)特征 Z_v=g (X_v)。實(shí)驗(yàn)中使用的是最后一個(gè) Transformer 層之前和之后的網(wǎng)格特征。本文使用一個(gè)簡(jiǎn)單的線性層來(lái)將圖像特征連接到單詞嵌入空間中。具體而言,應(yīng)用可訓(xùn)練投影矩陣 W 將 Z_v 轉(zhuǎn)換為語(yǔ)言嵌入標(biāo)記 H_q,H_q 具有與語(yǔ)言模型中的單詞嵌入空間相同的維度:
          圖片
          之后,得到一系列視覺(jué)標(biāo)記 H_v。這種簡(jiǎn)單投影方案具有輕量級(jí)、成本低等特點(diǎn),能夠快速迭代以數(shù)據(jù)為中心的實(shí)驗(yàn)。也可以考慮連接圖像和語(yǔ)言特征的更復(fù)雜(但昂貴)的方案,例如 Flamingo 中的門(mén)控交叉注意力機(jī)制和 BLIP-2 中的 Q-former,或者提供對(duì)象級(jí)特征的其他視覺(jué)編碼器,如 SAM。
          實(shí)驗(yàn)結(jié)果
          多模態(tài)聊天機(jī)器人
          研究者開(kāi)發(fā)了一個(gè)聊天機(jī)器人示例產(chǎn)品,以展示 LLaVA 的圖像理解和對(duì)話能力。為了進(jìn)一步研究 LLaVA 如何處理視覺(jué)輸入,展現(xiàn)其處理指令的能力,研究者首先使用 GPT-4 原始論文中的示例,如表 4 和表 5 所示。使用的 prompt 需要貼合圖像內(nèi)容。為了進(jìn)行比較,本文引用了其論文中多模態(tài)模型 GPT-4 的 prompt 和結(jié)果。
          圖片
          圖片
          令人驚訝的是,盡管 LLaVA 是用一個(gè)小的多模態(tài)指令數(shù)據(jù)集(約 80K 的不重復(fù)圖像)訓(xùn)練的,但它在以上這兩個(gè)示例上展示了與多模態(tài)模型 GPT-4 非常相似的推理結(jié)果。請(qǐng)注意,這兩張圖像都不在 LLaVA 的數(shù)據(jù)集范圍內(nèi),LLaVA 能夠理解場(chǎng)景并按照問(wèn)題說(shuō)明進(jìn)行回答。相比之下,BLIP-2 和 OpenFlamingo 專注于描述圖像,而不是按照用戶指令以適當(dāng)?shù)姆绞竭M(jìn)行回答。更多示例如圖 3、圖 4 和圖 5 所示。
          圖片
          圖片
          圖片
          定量評(píng)估結(jié)果見(jiàn)表 3。
          圖片
          ScienceQA
          ScienceQA 包含 21k 個(gè)多模態(tài)多選問(wèn)題,涉及 3 個(gè)主題、26 個(gè)話題、127 個(gè)類別和 379 種技能,具有豐富的領(lǐng)域多樣性?;鶞?zhǔn)數(shù)據(jù)集分為訓(xùn)練、驗(yàn)證和測(cè)試部分,分別有 12726、4241 和 4241 個(gè)樣本。本文對(duì)比了兩種有代表性的方法,包括 GPT-3.5 模型(text-davinci-002)和沒(méi)有思維鏈(CoT)版本的 GPT-3.5 模型,LLaMA-Adapter,以及多模態(tài)思維鏈(MM-CoT)[57],這是該數(shù)據(jù)集上當(dāng)前的 SoTA 方法,結(jié)果如表 6 所示。
          圖片
          試用反饋
          在論文給出的可視化使用頁(yè)面上,機(jī)器之心也嘗試著輸入了一些圖片和指令。首先是問(wèn)答里常見(jiàn)的數(shù)人任務(wù)。測(cè)試表明,數(shù)人的時(shí)候較小的目標(biāo)會(huì)被忽略,重疊的人也有識(shí)別誤差,性別也有識(shí)別誤差。
          圖片
          圖片
          接著,我們嘗試了一些生成任務(wù),比如為圖片起名字,或者根據(jù)圖片講一個(gè)故事。模型輸出的結(jié)果還是偏向于圖片內(nèi)容理解,生成方面的能力還有待加強(qiáng)。
          圖片
          圖片
          在這張照片中,即便人體有重合也依然能準(zhǔn)確地識(shí)別出人數(shù)。從圖片描述和理解能力的角度來(lái)看,本文的工作還是存在亮點(diǎn),存在著二創(chuàng)的空間。


          *博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。



          關(guān)鍵詞: AI

          相關(guān)推薦

          技術(shù)專區(qū)

          關(guān)閉