直接用GPT-4控制空調(diào),微軟免訓(xùn)練方法讓LLM邁向工業(yè)控制
隨著大型語言模型(LLM)技術(shù)的日漸成熟,其應(yīng)用范圍正在不斷擴(kuò)大。從智能寫作到搜索引擎,LLM 的應(yīng)用潛力正在一點(diǎn)點(diǎn)被挖掘。
最近,微軟亞洲研究院提出可以將 LLM 用于工業(yè)控制,而且僅需少量示例樣本就能達(dá)成優(yōu)于傳統(tǒng)強(qiáng)化學(xué)習(xí)方法的效果。該研究嘗試使用 GPT-4 來控制空氣調(diào)節(jié)系統(tǒng)(HVAC),得到了相當(dāng)積極的結(jié)果。
論文地址:http://export.arxiv.org/abs/2308.03028在智能控制領(lǐng)域,強(qiáng)化學(xué)習(xí)(RL)是最流行的決策方法之一,但卻存在樣本低效問題以及由此導(dǎo)致的訓(xùn)練成本高問題。當(dāng)智能體從頭開始學(xué)習(xí)一個任務(wù)時。傳統(tǒng)的強(qiáng)化學(xué)習(xí)范式從根本上講就難以解決這些問題。畢竟就算是人類,通常也需要數(shù)千小時的學(xué)習(xí)才能成為領(lǐng)域?qū)<?,這大概對應(yīng)于數(shù)百萬次交互。
但是,對于工業(yè)場景的許多控制任務(wù),比如庫存管理、量化交易和 HVAC 控制,人們更傾向于使用高性能控制器來低成本地處理不同任務(wù),這對傳統(tǒng)控制方法而言是巨大的挑戰(zhàn)。
舉個例子,我們可能希望只需極少量的微調(diào)和有限數(shù)量的參考演示就能控制不同建筑的 HVAC。HVAC 控制可能在不同任務(wù)上的基本原理都類似,但是場景遷移的動態(tài)情況甚至狀態(tài) / 動作空間可能會不一樣。
不僅如此,用于從頭開始訓(xùn)練強(qiáng)化學(xué)習(xí)智能體的演示通常也不夠多。因此,我們很難使用強(qiáng)化學(xué)習(xí)或其它傳統(tǒng)控制方法訓(xùn)練出普遍適用于這類場景的智能體。
使用基礎(chǔ)模型的先驗(yàn)知識是一種頗具潛力的方法。這些基礎(chǔ)模型使用了互聯(lián)網(wǎng)規(guī)模的多樣化數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練,因此可作為豐富先驗(yàn)知識的來源而被用于各種工業(yè)控制任務(wù)?;A(chǔ)模型已經(jīng)展現(xiàn)出了強(qiáng)大的涌現(xiàn)能力以及對多種下游任務(wù)的快速適應(yīng)能力,具體的案例包括 GPT-4、Bard、DALL-E、CLIP。其中前兩者是大型語言模型(LLM)的代表,后兩者則能處理文本和圖像。
基礎(chǔ)模型近來取得的巨大成功已經(jīng)催生出了一些利用 LLM 執(zhí)行決策的方法。這些方法大致上可分為三類:針對具體下游任務(wù)對 LLM 進(jìn)行微調(diào)、將 LLM 與可訓(xùn)練組件組合使用、直接使用預(yù)訓(xùn)練的 LLM。
之前的研究在使用基礎(chǔ)模型進(jìn)行控制實(shí)驗(yàn)時,通常選用的任務(wù)是機(jī)器人操控、家庭助理或游戲環(huán)境,而微軟亞洲研究院的這個團(tuán)隊則專注于工業(yè)控制任務(wù)。對傳統(tǒng)強(qiáng)化學(xué)習(xí)方法而言,該任務(wù)有三大難點(diǎn):
1) 決策智能體通常面對的是一系列異構(gòu)的任務(wù),比如具有不同的狀態(tài)和動作空間或遷移動態(tài)情況。強(qiáng)化學(xué)習(xí)方法需要為異構(gòu)的任務(wù)訓(xùn)練不同的模型,這樣做的成本很高。2) 決策智能體的開發(fā)過程需要很低的技術(shù)債(technical debt),這說明所提供的樣本數(shù)量不夠(甚至可能沒有),而傳統(tǒng)的強(qiáng)化學(xué)習(xí)算法需要大數(shù)據(jù)才能訓(xùn)練,因此可能無法設(shè)計針對特定任務(wù)的模型。3) 決策智能體需要以在線方式快速適應(yīng)新場景或不斷變化的動態(tài)情況,比如完全依靠新的在線交互經(jīng)驗(yàn)而無需訓(xùn)練。
為了解決這些難題,微軟亞洲研究院的 Lei Song 等研究者提出直接使用預(yù)訓(xùn)練 LLM 來控制 HVAC。該方法只需少量樣本就能解決異構(gòu)的任務(wù),其過程不涉及到任何訓(xùn)練,僅使用樣本作為少樣本學(xué)習(xí)的示例來進(jìn)行上下文學(xué)習(xí)。
據(jù)介紹,這項(xiàng)研究的目標(biāo)是探索直接使用預(yù)訓(xùn)練 LLM 來執(zhí)行工業(yè)控制任務(wù)的潛力。具體來說,他們設(shè)計了一種機(jī)制來從專家演示和歷史交互挑選示例,還設(shè)計了一種可將目標(biāo)、指示、演示和當(dāng)前狀態(tài)轉(zhuǎn)換為 prompt 的 prompt 生成器。然后,再使用生成的 prompt,通過 LLM 來給出控制。
研究者表示,其目的是探究不同的設(shè)計方式會如何影響 LLM 在工業(yè)控制任務(wù)上的表現(xiàn),而該方法的很多方面都難以把控。
- 第一,盡管該方法的概念很簡單,但相比于傳統(tǒng)的決策方法,其性能表現(xiàn)還不明朗。
- 第二,基礎(chǔ)模型向不同任務(wù)的泛化能力(比如對于不同的上下文、動作空間等)仍然有待研究。
- 第三,該方法對語言包裝器不同設(shè)計的敏感性也值得研究(例如,prompt 中哪一部分對性能影響最大)。
研究者希望通過解答這些問題凸顯出這些方法的潛力以及展現(xiàn)可以如何為技術(shù)債較低的工業(yè)控制任務(wù)設(shè)計解決方法。
這篇論文的主要貢獻(xiàn)包括:
- 開發(fā)了一種可將基礎(chǔ)模型用于工業(yè)控制但無需訓(xùn)練的方法,其能以較低的技術(shù)債用于多種異構(gòu)的任務(wù)。
- 研究者通過 GPT-4 控制 HVAC 進(jìn)行了實(shí)驗(yàn),得到了積極的實(shí)驗(yàn)結(jié)果,展現(xiàn)了這些方法的潛力。
- 研究者進(jìn)行了廣泛的消融研究(涉及泛化能力、示例選取和 prompt 設(shè)計),闡明了該方向的未來發(fā)展。
方法
該研究使用 GPT-4 來優(yōu)化對 HVAC 設(shè)備的控制,工作流程如下圖 1 所示:
圖 1:使用 GPT-4 控制 HVAC 的工作流程示意圖
該工作流程中的 LLM 和環(huán)境組件如下:
LLM:一個預(yù)訓(xùn)練大型語言模型,用作決策器。它會根據(jù)給出的 prompt 生成對應(yīng)的響應(yīng)。其 prompt 中應(yīng)包含對當(dāng)前狀態(tài)的描述、簡單的 HVAC 控制指令、相關(guān)狀態(tài)的演示等。
環(huán)境:一個交互式環(huán)境或模擬器,可以執(zhí)行 LLM 建議的動作并提供反饋。實(shí)驗(yàn)中所使用的具體評估環(huán)境為 BEAR (Zhang et al., 2022a)。為了在 BEAR 中創(chuàng)建環(huán)境,必須提供兩個參數(shù):建筑類型(如大型辦公室、小型辦公室、醫(yī)院等)和天氣條件(如炎熱干燥、炎熱潮濕、溫暖干燥等)。此外,值得注意的是,每種天氣狀況都對應(yīng)于特定的城市。例如,炎熱干燥的天氣狀況與水牛城有關(guān)。
在 BEAR 中,每個狀態(tài)都由一個數(shù)值向量表示,其中除了最后四個維度外,每個維度都對應(yīng)于建筑物中一個房間的當(dāng)前溫度。最后四個維度分別代表室外溫度、全局水平輻射(GHI)、地面溫度和居住者功率。在所有環(huán)境中,首要目標(biāo)是保持室溫在 22 ℃ 附近,同時盡可能減少能耗。
BEAR 中的操作被編碼為范圍從 -1 到 1 的實(shí)數(shù)。負(fù)值表示制冷模式,正值表示加熱模式。這些動作的絕對值對應(yīng)于閥門打開程度,這能說明能耗情況。如果絕對值更大,那么能耗也就更大。在兼顧舒適度和能耗的條件下,研究者在實(shí)驗(yàn)中使用了以下獎勵函數(shù):
其中 n 表示房間數(shù),T=22℃ 是目標(biāo)溫度,t_i 表示第 i 個房間的溫度。超參數(shù) α 用于實(shí)現(xiàn)能耗和舒適度的平衡。
此外,該工作流程中還包含在線緩沖器、轉(zhuǎn)譯器、嵌入模型、專家演示數(shù)據(jù)集、KNN 模型、聚類模型、prompt 生成器等組件。其中 prompt 生成器的執(zhí)行過程如圖 2 所示,其中紫色的文本僅用于說明,而非 prompt 的一部分。
圖 2:新方法是如何生成 prompt 的
實(shí)驗(yàn)
該研究通過實(shí)驗(yàn)展示了 GPT-4 控制 HVAC 設(shè)備的效果,其中涉及不同的建筑物和天氣條件。只要能提供適當(dāng)?shù)闹甘竞脱菔荆ú灰欢ㄅc目標(biāo)建筑和天氣條件相關(guān)),GPT-4 的表現(xiàn)就能超過專門為特定建筑和天氣條件精心訓(xùn)練的強(qiáng)化學(xué)習(xí)策略。此外,研究者還進(jìn)行了全面的消融研究,以確定 prompt 中每個部分的貢獻(xiàn)。
表 1:GPT-4 使用不同專家演示時的表現(xiàn)
表 2:GPT-4 使用不同類型和數(shù)量的演示時的表現(xiàn)
圖 3:在相同天氣條件下,不同建筑對應(yīng)不同的專家策略的情況
圖 4:在不同天氣條件下,同一建筑使用不同專家策略的情況
表 3:GPT-4 使用不同類型的注釋時的表現(xiàn)
表 4:GPT-4 使用不同類型的描述和指示時的表現(xiàn)
表 5:在 prompt 中實(shí)數(shù)是否進(jìn)行舍入的不同情況下,GPT-4 的性能
表 6:PPO 和 GPT 在天氣擾動下的表現(xiàn)
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點(diǎn),如有侵權(quán)請聯(lián)系工作人員刪除。