色婷婷AⅤ一区二区三区|亚洲精品第一国产综合亚AV|久久精品官方网视频|日本28视频香蕉

<label id="11616"></label><blockquote id="11616"></blockquote>

<mark id="11616"><samp id="11616"></samp></mark>

<blockquote id="11616"><sub id="11616"><thead id="11616"></thead></sub></blockquote>

<ul id="11616"><font id="11616"></font></ul>

"); //-->

博客專欄

EEPW首頁 > 博客 > 字節(jié)團(tuán)隊提出猞猁Lynx模型：多模態(tài)LLMs理解認(rèn)知生成類榜單SoTA

字節(jié)團(tuán)隊提出猞猁Lynx模型：多模態(tài)LLMs理解認(rèn)知生成類榜單SoTA

發(fā)布人：機(jī)器之心時間：2023-07-16 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

發(fā)布文章

當(dāng)前大語言模型 (Large Language Models, LLMs) 如 GPT4 在遵循給定圖像的開放式指令方面表現(xiàn)出了出色的多模態(tài)能力。然而，這些模型的性能嚴(yán)重依賴于對網(wǎng)絡(luò)結(jié)構(gòu)、訓(xùn)練數(shù)據(jù)和訓(xùn)練策略等方案的選擇，但這些選擇并沒有在先前的文獻(xiàn)中被廣泛討論。此外，目前也缺乏合適的基準(zhǔn) (benchmarks) 來評估和比較這些模型，限制了多模態(tài) LLMs 的發(fā)展。

論文：https://arxiv.org/abs/2307.02469
網(wǎng)站：https://lynx-llm.github.io/
代碼：https://github.com/bytedance/lynx-llm

在這篇文章中，作者從定量和定性兩個方面對此類模型的訓(xùn)練進(jìn)行了系統(tǒng)和全面的研究。設(shè)置了 20 多種變體，對于網(wǎng)絡(luò)結(jié)構(gòu)，比較了不同的 LLMs 主干和模型設(shè)計；對于訓(xùn)練數(shù)據(jù)，研究了數(shù)據(jù)和采樣策略的影響；在指令方面，探討了多樣化提示對模型指令跟隨能力的影響。對于 benchmarks ，文章首次提出包括圖像和視頻任務(wù)的開放式視覺問答評估集 Open-VQA。

基于實驗結(jié)論，作者提出了 Lynx，與現(xiàn)有的開源 GPT4-style 模型相比，它在表現(xiàn)出最準(zhǔn)確的多模態(tài)理解能力的同時，保持了最佳的多模態(tài)生成能力。

評估方案

不同于典型的視覺語言任務(wù)，評估 GPT4-style 模型的主要挑戰(zhàn)在于平衡文本生成能力和多模態(tài)理解準(zhǔn)確性兩個方面的性能。為了解決這個問題，作者提出了一種包含視頻和圖像數(shù)據(jù)的新 benchmark Open-VQA，并對當(dāng)前的開源模型進(jìn)行了全面的評價。

具體來說，采用了兩種量化評價方案：

收集開放式視覺問答 (Open-VQA) 測試集，其包含關(guān)于物體、OCR、計數(shù)、推理、動作識別、時間順序等不同類別的問題。不同于有標(biāo)準(zhǔn)答案的 VQA 數(shù)據(jù)集，Open-VQA 的答案是開放式的。為了評估 Open-VQA 上的性能，使用 GPT4 作為判別器，其結(jié)果與人類評估有 95% 的一致性。
此外，作者采用了由 mPLUG-owl [1] 提供的 OwlEval 數(shù)據(jù)集來評估模型的文本生成能力，雖然只包含 50 張圖片 82 個問題，但涵蓋故事生成、廣告生成、代碼生成等多樣問題，并招募人工標(biāo)注員對不同模型的表現(xiàn)進(jìn)行打分。

結(jié)論

為了深入研究多模態(tài) LLMs 的訓(xùn)練策略，作者主要從網(wǎng)絡(luò)結(jié)構(gòu)（前綴微調(diào) / 交叉注意力）、訓(xùn)練數(shù)據(jù)（數(shù)據(jù)選擇及組合比例）、指示（單一指示 / 多樣化指示）、LLMs 模型（LLaMA [5]/Vicuna [6]）、圖像像素（420/224）等多個方面設(shè)置了二十多種變體，通過實驗得出了以下主要結(jié)論：

多模態(tài) LLMs 的指示遵循能力不如 LLMs。例如，InstructBLIP [2] 傾向于不管輸入指令如何都生成簡短的回復(fù)，而其他模型傾向于生成長句子而不考慮指令，作者認(rèn)為這是由于缺乏高質(zhì)量和多樣化的多模態(tài)指令數(shù)據(jù)所導(dǎo)致的。
訓(xùn)練數(shù)據(jù)的質(zhì)量對模型的性能至關(guān)重要。基于在不同的數(shù)據(jù)上進(jìn)行實驗的結(jié)果，發(fā)現(xiàn)使用少量的高質(zhì)量數(shù)據(jù)比使用大規(guī)模的噪聲數(shù)據(jù)表現(xiàn)得更好。作者認(rèn)為這是生成式訓(xùn)練和對比式訓(xùn)練的區(qū)別，因為生成式訓(xùn)練是直接學(xué)習(xí)詞的條件分布而不是文本和圖像的相似度。因此，為了更好的模型性能，在數(shù)據(jù)方面需要滿足兩點：1）包含高質(zhì)量的流暢文本；2）文本和圖像內(nèi)容對齊得較好。
任務(wù)和提示對零樣本 (zero-shot) 能力至關(guān)重要。使用多樣化任務(wù)和指令可以提升模型在未知任務(wù)上的零樣本生成能力，這與純文本模型中的觀察結(jié)果一致。
平衡正確性和語言生成能力是很重要的。如果模型在下游任務(wù) (如 VQA) 上訓(xùn)練不足，更可能生成與視覺輸入不符的編造的內(nèi)容；而如果模型在下游任務(wù)中訓(xùn)練過多，它則傾向于生成短答案，將無法按照用戶的指示生成較長的答案。
前綴微調(diào) (prefix-finetuning, PT) 是目前對 LLMs 進(jìn)行多模態(tài)適配的最佳方案。在實驗中，prefix-finetuning 結(jié)構(gòu)的模型能更快地提升對多樣化指示的遵循能力，比交叉注意力 (cross-attention, CA) 的模型結(jié)構(gòu)更易訓(xùn)練。（prefix-tuning 和 cross-attention 為兩種模型結(jié)構(gòu)，具體見 Lynx 模型介紹部分）

Lynx 模型

作者提出了 Lynx（猞猁）—— 進(jìn)行了兩階段訓(xùn)練的 prefix-finetuning 的 GPT4-style 模型。在第一階段，使用大約 120M 圖像 - 文本對來對齊視覺和語言嵌入 (embeddings) ；在第二階段，使用 20 個圖像或視頻的多模態(tài)任務(wù)以及自然語言處理 (NLP) 數(shù)據(jù)來調(diào)整模型的指令遵循能力。

Lynx 模型的整體結(jié)構(gòu)如上圖 Figure 1 所示。

視覺輸入經(jīng)過視覺編碼器處理后得到視覺令牌 (tokens) $$W_v$$，經(jīng)過映射后與指令 tokens $$W_l$$ 拼接作為 LLMs 的輸入，在本文中將這種結(jié)構(gòu)稱為「prefix-finetuning」以區(qū)別于如 Flamingo [3] 所使用的 cross-attention 結(jié)構(gòu)。

此外，作者發(fā)現(xiàn)，通過在凍結(jié) (frozen) 的 LLMs 某些層后添加適配器 (Adapter) 可以進(jìn)一步降低訓(xùn)練成本。

模型效果

作者測評了現(xiàn)有的開源多模態(tài) LLMs 模型在 Open-VQA、Mme [4] 及 OwlEval 人工測評上的表現(xiàn)（結(jié)果見后文圖表，評估細(xì)節(jié)見論文）。可以看到 Lynx 模型在 Open-VQA 圖像和視頻理解任務(wù)、OwlEval 人工測評及 Mme Perception 類任務(wù)中都取得了最好的表現(xiàn)。其中，InstructBLIP 在多數(shù)任務(wù)中也實現(xiàn)了高性能，但其回復(fù)過于簡短，相較而言，在大多數(shù)情況下 Lynx 模型在給出正確的答案的基礎(chǔ)上提供了簡明的理由來支撐回復(fù)，這使得它對用戶更友好（部分 cases 見后文 Cases 展示部分）。

1. 在 Open-VQA 圖像測試集上的指標(biāo)結(jié)果如下圖 Table 1 所示：

2. 在 Open-VQA 視頻測試集上的指標(biāo)結(jié)果如下圖 Table 2 所示。

3. 選取 Open-VQA 中得分排名靠前的模型進(jìn)行 OwlEval 測評集上的人工效果評估，其結(jié)果如上圖 Figure 4 所示。從人工評價結(jié)果可以看出 Lynx 模型具有最佳的語言生成性能。

4. 在 Mme benchmark 測試中，Perception 類任務(wù)獲得最好的表現(xiàn)，其中 14 類子任務(wù)中有 7 個表現(xiàn)最優(yōu)。（詳細(xì)結(jié)果見論文附錄）

Cases 展示

Open-VQA 圖片 cases

OwlEval cases

Open-VQA 視頻 case

總結(jié)

在本文中，作者通過對二十多種多模態(tài) LLMs 變種的實驗，確定了以 prefix-finetuning 為主要結(jié)構(gòu)的 Lynx 模型并給出開放式答案的 Open-VQA 測評方案。實驗結(jié)果顯示 Lynx 模型表現(xiàn)最準(zhǔn)確的多模態(tài)理解準(zhǔn)確度的同時，保持了最佳的多模態(tài)生成能力。

參考文獻(xiàn)

[1] Qinghao Ye, Haiyang Xu, Guohai Xu, Jiabo Ye, Ming Yan, Yiyang Zhou, Junyang Wang, Anwen Hu, Pengcheng Shi, Yaya Shi, et al. mplug-owl: Modularization empowers large language models with multimodality. arXiv preprint arXiv:2304.14178, 2023.

[2] Wenliang Dai, Junnan Li, Dongxu Li, Anthony Meng Huat Tiong, Junqi Zhao, Weisheng Wang, Boyang Li, Pascale Fung, and Steven Hoi. Instructblip: Towards general-purpose vision-language models with instruction tuning. arXiv preprint arXiv:2305.06500, 2023.

[3] Jean-Baptiste Alayrac, Jeff Donahue, Pauline Luc, Antoine Miech, Iain Barr, Yana Hasson, Karel Lenc, Arthur Mensch, Katherine Millican, Malcolm Reynolds, et al. Flamingo: a visual language model for few-shot learning. Advances in Neural Information Processing Systems, 35:23716–23736, 2022.

[4] Chaoyou Fu, Peixian Chen, Yunhang Shen, Yulei Qin, Mengdan Zhang, Xu Lin, Zhenyu Qiu, Wei Lin, Jinrui Yang, Xiawu Zheng, Ke Li, Xing Sun, and Rongrong Ji. Mme: A comprehensive evaluation benchmark for multimodal large language models. arXiv preprint arXiv:2306.13394, 2023.

[5] Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet, Marie-Anne Lachaux, Timothée Lacroix, Baptiste Rozière, Naman Goyal, Eric Hambro, Faisal Azhar, et al. Llama: Open and efficient foundation language models. arXiv preprint arXiv:2302.13971, 2023.

[6] Wei-Lin Chiang, Zhuohan Li, Zi Lin, Ying Sheng, Zhanghao Wu, Hao Zhang, Lianmin Zheng, Siyuan Zhuang, Yonghao Zhuang, Joseph E. Gonzalez, Ion Stoica, and Eric P. Xing. Vicuna: An open-source chatbot impressing gpt-4 with 90%* chatgpt quality, March 2023. URL

*博客內(nèi)容為網(wǎng)友個人發(fā)布，僅代表博主個人觀點，如有侵權(quán)請聯(lián)系工作人員刪除。

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關(guān)鍵詞： AI

相關(guān)推薦

海聯(lián)達(dá)（Aigale）Ai-HD1 無線全高清套件拆解

zhuwei0710 | 2013-04-28

加大調(diào)整力度，教育部支持高校布局集成電路、AI 等專業(yè)

智能計算教育 AI 集成電路 | 2024-07-25

iCAN-4017 AI功能模塊

資源下載周立功單片機(jī) 功能模塊 iCAN-4017 AI | 2007-03-30

蘋果表示其AI模型是在谷歌的定制芯片上訓(xùn)練的

智能計算 AI | 2024-07-30

萬家樂JSYZ5-AI燃?xì)鉄崴麟娐穲D

設(shè)計方案電路圖熱水器 JSYZ5-AI 萬家樂 | 2013-01-17

AI+機(jī)器視覺成趨勢，圖文詳解N大應(yīng)用場景

智能計算安森美 AI 機(jī)器視覺 | 2024-07-31

人工智能是如何幫助阻止造假者的？

謝丫丫 | 2018-08-14

iPhone 16將不會預(yù)裝AI功能？計劃通過iOS 18.1發(fā)布

iPhone AI iOS | 2024-07-30

蘋果承認(rèn)：AI模型使用谷歌定制芯片訓(xùn)練

智能計算蘋果 AI 谷歌定制芯片 | 2024-07-30

WTC-AI太陽能熱水器電路圖

設(shè)計方案 WTC-AI 太陽能熱水器電路圖 | 2012-07-24

CSR8670CSR8675智能語音Alexa藍(lán)牙方案開發(fā)

資源下載 AI 智能語音 | 2017-12-14

“破局AI開發(fā)，釋放邊緣算力開發(fā)者訪談”，干貨滿滿！

視頻 intel AI OpenVINO | 2021-06-10

繼上次海聯(lián)達(dá)Ai-ap100拆機(jī)之電源改造

zhuwei0710 | 2013-04-03

深圳加快打造 AI 先鋒城市，今年將建成 4000PFLOPS 算力智算中心

智能計算 AI 智能計算深圳 | 2024-07-30

EEPW2018年6月刊(5G)

資源下載 5G AI | 2018-06-11

電子元件培訓(xùn)教材

資源下載 NBA 電子元件識別電阻識別電容識別 AI MI SMT DIP 靜電防護(hù) | 2008-09-20

AI驅(qū)動的嵌入式聲音和振動識別

視頻 ADI AI 嵌入式 OtoSense | 2018-10-23

攻擊成功率從 3% 到接近 100%，利用空格鍵可繞過 Meta AI 模型安全系統(tǒng)

智能計算 Meta AI | 2024-07-31

摩根士丹利：僅 GB200 AI 服務(wù)器業(yè)務(wù)，就為英偉達(dá)創(chuàng)造 2100 億美元年收入

智能計算 GB200 AI 英偉達(dá) GPU | 2024-07-26

Nvidia的CEO談AI的未來：“我們將需要三臺電腦... 一臺來創(chuàng)建AI... 一臺來模擬AI... 一臺來運(yùn)行AI”

智能計算 AI | 2024-07-31

如何快速搭建手寫體識別演示系統(tǒng)

視頻 digikey AI 手寫體識別 | 2022-07-29

2021春晚黑科技，火爆全網(wǎng)的\"打工牛\"是什么來頭？

視頻 AI 機(jī)器人 | 2021-02-26

大嘴業(yè)話-AI目前市場分析

視頻人工智能，AI，ChatGPT，互聯(lián)網(wǎng)技術(shù) | 2023-04-25

國際奧委會：最大限度發(fā)揮 AI 工具影響力，體育人才選拔方式有望得到革新

智能計算 AI 奧運(yùn)會體育 | 2024-07-26

EEPW2018年3月刊(工業(yè)物聯(lián)網(wǎng))

資源下載工業(yè)物聯(lián)網(wǎng) AI | 2018-03-12

WTC-AI型太陽能熱水器電路圖

設(shè)計方案電子電路圖，WTC-AI 太陽能熱水器電路熱水器 | 2012-07-30

釋說芯語16：硬科技：構(gòu)建企業(yè)未來之路（附PPT）

jackwang | 2018-10-22

瑞薩電子AI單元解決方案成功提高GE醫(yī)療（日本）日野工廠的生產(chǎn)力

winni945 | 2018-09-12

焦點

推薦視頻

更多>>

技術(shù)專區(qū)

<address id="66616"></address>

<abbr id="66616"></abbr>