微軟亞研院新作:讓大模型一口氣調(diào)用數(shù)百萬(wàn)個(gè) API
近年來(lái),人工智能發(fā)展迅速,尤其是像 ChatGPT 這樣的基礎(chǔ)大模型,在對(duì)話、上下文理解和代碼生成等方面表現(xiàn)出色,能夠?yàn)槎喾N任務(wù)提供解決方案。
本文引用地址:http://cafeforensic.com/article/202403/456948.htm但在特定領(lǐng)域任務(wù)上,由于專業(yè)數(shù)據(jù)的缺乏和可能的計(jì)算錯(cuò)誤,它們的表現(xiàn)并不理想。同時(shí),雖然已有一些專門針對(duì)特定任務(wù)的 AI 模型和系統(tǒng)表現(xiàn)良好,但它們往往不易與基礎(chǔ)大模型集成。
為了解決這些重要問(wèn)題,TaskMatrix.AI 破繭而出、應(yīng)運(yùn)而生,這是由微軟(Microsoft)設(shè)計(jì)發(fā)布的新型 AI 生態(tài)系統(tǒng)。
其核心技術(shù)近期在《科學(xué)》合作期刊 Intelligent Computing 上發(fā)表的論文 TaskMatrix.AI: Completing Tasks by Connecting Foundation Models with Millions of APIs 中正式亮相,作者為微軟亞洲研究院的段楠博士團(tuán)隊(duì):
(詳見(jiàn)鏈接:https://spj.science.org/doi/10.34133/icomputing.0063)
TaskMatrix.AI 將基礎(chǔ)大模型與數(shù)以百萬(wàn)計(jì)的應(yīng)用程序編程接口(APIs)連接起來(lái)完成任務(wù)。
其核心思想是利用現(xiàn)有的基礎(chǔ)大模型作為類似大腦的中央系統(tǒng),結(jié)合其他 AI 模型和系統(tǒng)的 APIs 作為各種子任務(wù)解決者,以完成數(shù)字和物理領(lǐng)域的多樣化任務(wù)。
▲ 圖由 DALL?E 3 生成
TaskMatrix.AI 如何工作?
TaskMatrix.AI 的整體架構(gòu)由以下四個(gè)關(guān)鍵組件構(gòu)成:
多模態(tài)對(duì)話基礎(chǔ)模型(MCFM):負(fù)責(zé)與用戶溝通,理解他們的目標(biāo)和上下文(多模態(tài)),并基于 API 生成可執(zhí)行代碼以完成特定任務(wù)。MCFM 能夠處理文本、圖像、視頻、音頻和代碼等多模態(tài)輸入,生成執(zhí)行特定任務(wù)的代碼。它還能夠從用戶指令中提取具體任務(wù),并提出合理的解決方案大綱,幫助選擇最合適的 API 進(jìn)行代碼生成。
API 平臺(tái):提供一個(gè)統(tǒng)一的 API 文檔架構(gòu),用于存儲(chǔ)數(shù)以百萬(wàn)計(jì)具有不同功能的 API,并允許 API 開(kāi)發(fā)者和所有者注冊(cè)、更新和刪除他們的 API。API 平臺(tái)通過(guò)統(tǒng)一的文檔架構(gòu)幫助 MCFM 更好地理解和利用各種 API。
API 選擇器:根據(jù) MCFM 對(duì)用戶指令的理解,推薦相關(guān)的 API。API 選擇器具備搜索能力,能夠在擁有大量 API 的平臺(tái)上快速定位到與任務(wù)需求和解決方案大綱相匹配的 API。
API 執(zhí)行器:通過(guò)調(diào)用相關(guān) API 執(zhí)行生成的動(dòng)作代碼,并返回中間和最終的執(zhí)行結(jié)果。API 執(zhí)行器設(shè)計(jì)用于運(yùn)行各種 API,包括從簡(jiǎn)單的 HTTP 請(qǐng)求到復(fù)雜的算法或需要多個(gè)輸入?yún)?shù)的 AI 模型。
以上四個(gè)組件協(xié)同工作,共同構(gòu)建了一個(gè)高效的系統(tǒng)。MCFM 作為用戶交互的主要接口,負(fù)責(zé)生成解決方案。API 平臺(tái)則提供了一個(gè)標(biāo)準(zhǔn)化的 API 文檔格式,并作為一個(gè)集中存儲(chǔ)庫(kù),容納了數(shù)百萬(wàn) API。API 選擇器根據(jù) MCFM 對(duì)用戶需求的理解,從 API 平臺(tái)中選取合適的 API。
最后,API 執(zhí)行器負(fù)責(zé)執(zhí)行由選定 API 生成的代碼,并解決任務(wù)。
此外,TaskMatrix.AI 還提供了兩個(gè)可學(xué)習(xí)的機(jī)制,以更有效地將 MCFM 與 API 對(duì)齊:
基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF):這是一種基礎(chǔ)大模型的通用技術(shù),它使用強(qiáng)化學(xué)習(xí)方法,利用人類反饋來(lái)優(yōu)化機(jī)器學(xué)習(xí)模型。在 TaskMatrix.AI 中,RLHF 利用這些反饋來(lái)增強(qiáng) MCFM 和 API 選擇器,從而在處理復(fù)雜任務(wù)時(shí)實(shí)現(xiàn)更快的收斂和更好的性能。
向 API 開(kāi)發(fā)者提供反饋:TaskMatrix.AI 完成任務(wù)后,會(huì)將用戶反饋以適當(dāng)?shù)姆绞絺鬟f給 API 開(kāi)發(fā)者,指示他們的 API 是否成功用于完成任務(wù)。這種包含 <用戶指令、API 調(diào)用和用戶反饋> 的三元組不僅展示特定 API 的使用情況,還可以作為 API 開(kāi)發(fā)者改進(jìn) API 文檔的參考,使文檔對(duì) MCFM 和 API 選擇器更加友好和易于理解。
因此,TaskMatrix.AI 可以被視為一個(gè)超級(jí) AI,同時(shí)也是一個(gè)生態(tài)系統(tǒng),具有以下關(guān)鍵優(yōu)勢(shì):
能夠通過(guò)使用基礎(chǔ)大模型作為核心系統(tǒng),首先理解不同類型的多模態(tài)輸入(如文本、圖像、視頻、音頻和代碼),然后生成調(diào)用 API 完成任務(wù)的代碼,來(lái)執(zhí)行各種數(shù)字和物理任務(wù)。
擁有一個(gè) API 平臺(tái),作為各種任務(wù)專家的存儲(chǔ)庫(kù)。該平臺(tái)上的所有 API 都有一致的文檔格式,這使得基礎(chǔ)大模型可以輕松使用它們,開(kāi)發(fā)者也便于添加新的 API。
具有強(qiáng)大的終身學(xué)習(xí)能力,因?yàn)樗募寄芸梢酝ㄟ^(guò)向 API 平臺(tái)添加具有特定功能的新 API 來(lái)擴(kuò)展,以處理新任務(wù)。
能夠提供更加可解釋的響應(yīng),因?yàn)槿蝿?wù)解決邏輯(即行動(dòng)代碼)和 API 的結(jié)果都是可理解的。
TaskMatrix.AI 能完成什么任務(wù)?
TaskMatrix.AI 能完成的任務(wù)非常廣泛,小到文字、圖像信息的基本信息處理,大到控制機(jī)器人平臺(tái)、接入物聯(lián)網(wǎng)(IoT)等通用平臺(tái)任務(wù),TaskMatrix 都能勝任。
圖像處理任務(wù)
TaskMatrix.AI 可以執(zhí)行圖像處理任務(wù),并且能夠接受語(yǔ)言和圖像作為輸入。下圖展示了 TaskMatrix.AI 的相關(guān)版本 Visual ChatGPT,它不僅能夠理解人類意圖,還能處理語(yǔ)言和圖像輸入,以完成包括圖像生成、問(wèn)題回答和編輯在內(nèi)的復(fù)雜視覺(jué)任務(wù)。
下圖展示了使用多個(gè) API 協(xié)作生成高分辨率圖像的示例。在該例中,解決方案框架由 3 個(gè) API 組成:圖像問(wèn)答、圖像標(biāo)題以及圖像對(duì)象替換。
左側(cè)框線部分展示了解決方案框架如何協(xié)助將圖像擴(kuò)展至 2048×4096 分辨率。通過(guò)迭代執(zhí)行框架中的預(yù)定義步驟,TaskMatrix.AI 可以生成任何所需尺寸的高分辨率圖像。
辦公自動(dòng)化
TaskMatrix.AI 能夠通過(guò)語(yǔ)音指令理解并自動(dòng)執(zhí)行計(jì)算機(jī)操作系統(tǒng)、專業(yè)軟件以及智能手機(jī)應(yīng)用的操作。利用 TaskMatrix.AI,可以快速上手復(fù)雜軟件。
此外,它還能幫助用戶在不進(jìn)行搜索的情況下直接訪問(wèn)所需功能。以下是一個(gè) PowerPoint 自動(dòng)化的實(shí)例,TaskMatrix.AI 能夠根據(jù)用戶指定的主題自動(dòng)生成幻燈片,智能調(diào)整內(nèi)容布局,插入和優(yōu)化圖像,并應(yīng)用相應(yīng)的設(shè)計(jì)主題,從而顯著提升工作效率。
機(jī)器人和物聯(lián)網(wǎng)設(shè)備控制
TaskMatrix.AI 可以連接機(jī)器人和物聯(lián)網(wǎng)設(shè)備,實(shí)現(xiàn)對(duì)體力勞動(dòng)和智能家居操作的自動(dòng)化管理。通過(guò)集成先進(jìn)的機(jī)器人技術(shù),TaskMatrix.AI 能夠執(zhí)行一系列任務(wù),如物體的拾取與放置以及對(duì)家庭物聯(lián)網(wǎng)設(shè)備的智能控制。
此外,該平臺(tái)還整合了多種流行的互聯(lián)網(wǎng)服務(wù),包括但不限于日歷 API、天氣 API 和新聞 API,提供了更加豐富和便捷的用戶體驗(yàn)。
TaskMatrix.AI 的挑戰(zhàn)
盡管 TaskMatrix.AI 已經(jīng)在各種任務(wù)中證明了其強(qiáng)大的功能和通用性,但仍面臨以下幾個(gè)挑戰(zhàn):
多模態(tài)會(huì)話基礎(chǔ)大模型:TaskMatrix.AI 需要一個(gè)能夠處理多種輸入(文本、圖像、視頻、音頻和代碼)的強(qiáng)大基礎(chǔ)大模型。這個(gè)模型需要能夠從上下文中學(xué)習(xí),使用常識(shí)進(jìn)行推理和計(jì)劃,并生成高質(zhì)量的代碼來(lái)完成任務(wù)。此外由于 TaskMatrix.AI 需要處理更多樣化的輸入模式,這要求確定一個(gè)最小模式集來(lái)訓(xùn)練 MCFM。
API 平臺(tái):構(gòu)建和維護(hù)一個(gè)包含數(shù)百萬(wàn) API 的平臺(tái)需要解決文檔生成、API 質(zhì)量保證和 API 創(chuàng)建建議等挑戰(zhàn)。API 文檔的清晰性和 API 的質(zhì)量對(duì)于 TaskMatrix.AI 的成功至關(guān)重要。此外,平臺(tái)還需要根據(jù)用戶反饋指導(dǎo) API 開(kāi)發(fā)者創(chuàng)建新的 API 來(lái)解決特定任務(wù)。
API 調(diào)用:在處理大量 API 時(shí),TaskMatrix.AI 需要能夠合理選擇和推薦相關(guān)的 API 來(lái)完成任務(wù)。此外還涉及到在線規(guī)劃,即在無(wú)法立即生成解決方案時(shí),與用戶交互并嘗試不同的解決方案。
安全和隱私:在 API 能夠訪問(wèn)物理和數(shù)字世界時(shí),確保模型忠實(shí)于用戶指令并保持?jǐn)?shù)據(jù)私密性是至關(guān)重要的。這要求在執(zhí)行操作前驗(yàn)證模型的行為,并確保數(shù)據(jù)傳輸?shù)陌踩院蛿?shù)據(jù)訪問(wèn)的授權(quán)。
個(gè)性化:TaskMatrix.AI 需要個(gè)性化策略來(lái)幫助開(kāi)發(fā)者構(gòu)建定制的 AI 界面,并為用戶提供私人助理。這包括降低擴(kuò)展成本和使用少量示例來(lái)學(xué)習(xí)用戶的偏好,以便生成符合用戶需求的解決方案。
關(guān)于 Intelligent Computing
Intelligent Computing 由之江實(shí)驗(yàn)室和美國(guó)科學(xué)促進(jìn)會(huì)(AAAS)共同創(chuàng)辦,是《科學(xué)》合作期刊框架中智能計(jì)算領(lǐng)域的第一本開(kāi)放獲?。∣pen Access)國(guó)際期刊。期刊以「面向智能的計(jì)算、智能驅(qū)動(dòng)的計(jì)算」以及「智能、數(shù)據(jù)與計(jì)算驅(qū)動(dòng)的科學(xué)發(fā)現(xiàn)」為主題,主要刊載原創(chuàng)研究論文、綜述論文和觀點(diǎn)論文。
評(píng)論