色婷婷AⅤ一区二区三区|亚洲精品第一国产综合亚AV|久久精品官方网视频|日本28视频香蕉

"); //-->

博客專欄

EEPW首頁 > 博客 > 直接用GPT-4控制空調(diào)，微軟免訓(xùn)練方法讓LLM邁向工業(yè)控制

直接用GPT-4控制空調(diào)，微軟免訓(xùn)練方法讓LLM邁向工業(yè)控制

發(fā)布人：數(shù)據(jù)派THU 時間：2023-08-22 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

發(fā)布文章

隨著大型語言模型（LLM）技術(shù)的日漸成熟，其應(yīng)用范圍正在不斷擴(kuò)大。從智能寫作到搜索引擎，LLM 的應(yīng)用潛力正在一點(diǎn)點(diǎn)被挖掘。

最近，微軟亞洲研究院提出可以將 LLM 用于工業(yè)控制，而且僅需少量示例樣本就能達(dá)成優(yōu)于傳統(tǒng)強(qiáng)化學(xué)習(xí)方法的效果。該研究嘗試使用 GPT-4 來控制空氣調(diào)節(jié)系統(tǒng)（HVAC），得到了相當(dāng)積極的結(jié)果。

論文地址：http://export.arxiv.org/abs/2308.03028
在智能控制領(lǐng)域，強(qiáng)化學(xué)習(xí)（RL）是最流行的決策方法之一，但卻存在樣本低效問題以及由此導(dǎo)致的訓(xùn)練成本高問題。當(dāng)智能體從頭開始學(xué)習(xí)一個任務(wù)時。傳統(tǒng)的強(qiáng)化學(xué)習(xí)范式從根本上講就難以解決這些問題。畢竟就算是人類，通常也需要數(shù)千小時的學(xué)習(xí)才能成為領(lǐng)域?qū)＜?，這大概對應(yīng)于數(shù)百萬次交互。
但是，對于工業(yè)場景的許多控制任務(wù)，比如庫存管理、量化交易和 HVAC 控制，人們更傾向于使用高性能控制器來低成本地處理不同任務(wù)，這對傳統(tǒng)控制方法而言是巨大的挑戰(zhàn)。
舉個例子，我們可能希望只需極少量的微調(diào)和有限數(shù)量的參考演示就能控制不同建筑的 HVAC。HVAC 控制可能在不同任務(wù)上的基本原理都類似，但是場景遷移的動態(tài)情況甚至狀態(tài) / 動作空間可能會不一樣。
不僅如此，用于從頭開始訓(xùn)練強(qiáng)化學(xué)習(xí)智能體的演示通常也不夠多。因此，我們很難使用強(qiáng)化學(xué)習(xí)或其它傳統(tǒng)控制方法訓(xùn)練出普遍適用于這類場景的智能體。
使用基礎(chǔ)模型的先驗(yàn)知識是一種頗具潛力的方法。這些基礎(chǔ)模型使用了互聯(lián)網(wǎng)規(guī)模的多樣化數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練，因此可作為豐富先驗(yàn)知識的來源而被用于各種工業(yè)控制任務(wù)?；A(chǔ)模型已經(jīng)展現(xiàn)出了強(qiáng)大的涌現(xiàn)能力以及對多種下游任務(wù)的快速適應(yīng)能力，具體的案例包括 GPT-4、Bard、DALL-E、CLIP。其中前兩者是大型語言模型（LLM）的代表，后兩者則能處理文本和圖像。
基礎(chǔ)模型近來取得的巨大成功已經(jīng)催生出了一些利用 LLM 執(zhí)行決策的方法。這些方法大致上可分為三類：針對具體下游任務(wù)對 LLM 進(jìn)行微調(diào)、將 LLM 與可訓(xùn)練組件組合使用、直接使用預(yù)訓(xùn)練的 LLM。
之前的研究在使用基礎(chǔ)模型進(jìn)行控制實(shí)驗(yàn)時，通常選用的任務(wù)是機(jī)器人操控、家庭助理或游戲環(huán)境，而微軟亞洲研究院的這個團(tuán)隊則專注于工業(yè)控制任務(wù)。對傳統(tǒng)強(qiáng)化學(xué)習(xí)方法而言，該任務(wù)有三大難點(diǎn)：
1) 決策智能體通常面對的是一系列異構(gòu)的任務(wù)，比如具有不同的狀態(tài)和動作空間或遷移動態(tài)情況。強(qiáng)化學(xué)習(xí)方法需要為異構(gòu)的任務(wù)訓(xùn)練不同的模型，這樣做的成本很高。2) 決策智能體的開發(fā)過程需要很低的技術(shù)債（technical debt），這說明所提供的樣本數(shù)量不夠（甚至可能沒有），而傳統(tǒng)的強(qiáng)化學(xué)習(xí)算法需要大數(shù)據(jù)才能訓(xùn)練，因此可能無法設(shè)計針對特定任務(wù)的模型。3) 決策智能體需要以在線方式快速適應(yīng)新場景或不斷變化的動態(tài)情況，比如完全依靠新的在線交互經(jīng)驗(yàn)而無需訓(xùn)練。
為了解決這些難題，微軟亞洲研究院的 Lei Song 等研究者提出直接使用預(yù)訓(xùn)練 LLM 來控制 HVAC。該方法只需少量樣本就能解決異構(gòu)的任務(wù)，其過程不涉及到任何訓(xùn)練，僅使用樣本作為少樣本學(xué)習(xí)的示例來進(jìn)行上下文學(xué)習(xí)。
據(jù)介紹，這項(xiàng)研究的目標(biāo)是探索直接使用預(yù)訓(xùn)練 LLM 來執(zhí)行工業(yè)控制任務(wù)的潛力。具體來說，他們設(shè)計了一種機(jī)制來從專家演示和歷史交互挑選示例，還設(shè)計了一種可將目標(biāo)、指示、演示和當(dāng)前狀態(tài)轉(zhuǎn)換為 prompt 的 prompt 生成器。然后，再使用生成的 prompt，通過 LLM 來給出控制。
研究者表示，其目的是探究不同的設(shè)計方式會如何影響 LLM 在工業(yè)控制任務(wù)上的表現(xiàn)，而該方法的很多方面都難以把控。

第一，盡管該方法的概念很簡單，但相比于傳統(tǒng)的決策方法，其性能表現(xiàn)還不明朗。
第二，基礎(chǔ)模型向不同任務(wù)的泛化能力（比如對于不同的上下文、動作空間等）仍然有待研究。
第三，該方法對語言包裝器不同設(shè)計的敏感性也值得研究（例如，prompt 中哪一部分對性能影響最大）。

研究者希望通過解答這些問題凸顯出這些方法的潛力以及展現(xiàn)可以如何為技術(shù)債較低的工業(yè)控制任務(wù)設(shè)計解決方法。
這篇論文的主要貢獻(xiàn)包括：

開發(fā)了一種可將基礎(chǔ)模型用于工業(yè)控制但無需訓(xùn)練的方法，其能以較低的技術(shù)債用于多種異構(gòu)的任務(wù)。
研究者通過 GPT-4 控制 HVAC 進(jìn)行了實(shí)驗(yàn)，得到了積極的實(shí)驗(yàn)結(jié)果，展現(xiàn)了這些方法的潛力。
研究者進(jìn)行了廣泛的消融研究（涉及泛化能力、示例選取和 prompt 設(shè)計），闡明了該方向的未來發(fā)展。

方法
該研究使用 GPT-4 來優(yōu)化對 HVAC 設(shè)備的控制，工作流程如下圖 1 所示：

圖 1：使用 GPT-4 控制 HVAC 的工作流程示意圖
該工作流程中的 LLM 和環(huán)境組件如下：
LLM：一個預(yù)訓(xùn)練大型語言模型，用作決策器。它會根據(jù)給出的 prompt 生成對應(yīng)的響應(yīng)。其 prompt 中應(yīng)包含對當(dāng)前狀態(tài)的描述、簡單的 HVAC 控制指令、相關(guān)狀態(tài)的演示等。
環(huán)境：一個交互式環(huán)境或模擬器，可以執(zhí)行 LLM 建議的動作并提供反饋。實(shí)驗(yàn)中所使用的具體評估環(huán)境為 BEAR (Zhang et al., 2022a)。為了在 BEAR 中創(chuàng)建環(huán)境，必須提供兩個參數(shù)：建筑類型（如大型辦公室、小型辦公室、醫(yī)院等）和天氣條件（如炎熱干燥、炎熱潮濕、溫暖干燥等）。此外，值得注意的是，每種天氣狀況都對應(yīng)于特定的城市。例如，炎熱干燥的天氣狀況與水牛城有關(guān)。
在 BEAR 中，每個狀態(tài)都由一個數(shù)值向量表示，其中除了最后四個維度外，每個維度都對應(yīng)于建筑物中一個房間的當(dāng)前溫度。最后四個維度分別代表室外溫度、全局水平輻射（GHI）、地面溫度和居住者功率。在所有環(huán)境中，首要目標(biāo)是保持室溫在 22 ℃ 附近，同時盡可能減少能耗。
BEAR 中的操作被編碼為范圍從 -1 到 1 的實(shí)數(shù)。負(fù)值表示制冷模式，正值表示加熱模式。這些動作的絕對值對應(yīng)于閥門打開程度，這能說明能耗情況。如果絕對值更大，那么能耗也就更大。在兼顧舒適度和能耗的條件下，研究者在實(shí)驗(yàn)中使用了以下獎勵函數(shù)：

其中 n 表示房間數(shù)，T=22℃ 是目標(biāo)溫度，t_i 表示第 i 個房間的溫度。超參數(shù) α 用于實(shí)現(xiàn)能耗和舒適度的平衡。
此外，該工作流程中還包含在線緩沖器、轉(zhuǎn)譯器、嵌入模型、專家演示數(shù)據(jù)集、KNN 模型、聚類模型、prompt 生成器等組件。其中 prompt 生成器的執(zhí)行過程如圖 2 所示，其中紫色的文本僅用于說明，而非 prompt 的一部分。

圖 2：新方法是如何生成 prompt 的
實(shí)驗(yàn)
該研究通過實(shí)驗(yàn)展示了 GPT-4 控制 HVAC 設(shè)備的效果，其中涉及不同的建筑物和天氣條件。只要能提供適當(dāng)?shù)闹甘竞脱菔荆ú灰欢ㄅc目標(biāo)建筑和天氣條件相關(guān)），GPT-4 的表現(xiàn)就能超過專門為特定建筑和天氣條件精心訓(xùn)練的強(qiáng)化學(xué)習(xí)策略。此外，研究者還進(jìn)行了全面的消融研究，以確定 prompt 中每個部分的貢獻(xiàn)。

表 1：GPT-4 使用不同專家演示時的表現(xiàn)

表 2：GPT-4 使用不同類型和數(shù)量的演示時的表現(xiàn)

圖 3：在相同天氣條件下，不同建筑對應(yīng)不同的專家策略的情況

圖 4：在不同天氣條件下，同一建筑使用不同專家策略的情況

表 3：GPT-4 使用不同類型的注釋時的表現(xiàn)

表 4：GPT-4 使用不同類型的描述和指示時的表現(xiàn)

表 5：在 prompt 中實(shí)數(shù)是否進(jìn)行舍入的不同情況下，GPT-4 的性能

表 6：PPO 和 GPT 在天氣擾動下的表現(xiàn)

*博客內(nèi)容為網(wǎng)友個人發(fā)布，僅代表博主個人觀點(diǎn)，如有侵權(quán)請聯(lián)系工作人員刪除。

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關(guān)鍵詞： AI

相關(guān)推薦

iPhone 16將不會預(yù)裝AI功能？計劃通過iOS 18.1發(fā)布

iPhone AI iOS | 2024-07-30

深圳加快打造 AI 先鋒城市，今年將建成 4000PFLOPS 算力智算中心

智能計算 AI 智能計算深圳 | 2024-07-30

萬家樂JSYZ5-AI燃?xì)鉄崴麟娐穲D

設(shè)計方案電路圖熱水器 JSYZ5-AI 萬家樂 | 2013-01-17

摩根士丹利：僅 GB200 AI 服務(wù)器業(yè)務(wù)，就為英偉達(dá)創(chuàng)造 2100 億美元年收入

智能計算 GB200 AI 英偉達(dá) GPU | 2024-07-26

蘋果承認(rèn)：AI模型使用谷歌定制芯片訓(xùn)練

智能計算蘋果 AI 谷歌定制芯片 | 2024-07-30

EEPW2018年3月刊(工業(yè)物聯(lián)網(wǎng))

資源下載工業(yè)物聯(lián)網(wǎng) AI | 2018-03-12

EEPW2018年6月刊(5G)

資源下載 5G AI | 2018-06-11

瑞薩電子AI單元解決方案成功提高GE醫(yī)療（日本）日野工廠的生產(chǎn)力

winni945 | 2018-09-12

攻擊成功率從 3% 到接近 100%，利用空格鍵可繞過 Meta AI 模型安全系統(tǒng)

智能計算 Meta AI | 2024-07-31

Nvidia的CEO談AI的未來：“我們將需要三臺電腦... 一臺來創(chuàng)建AI... 一臺來模擬AI... 一臺來運(yùn)行AI”

智能計算 AI | 2024-07-31

繼上次海聯(lián)達(dá)Ai-ap100拆機(jī)之電源改造

zhuwei0710 | 2013-04-03

AI驅(qū)動的嵌入式聲音和振動識別

視頻 ADI AI 嵌入式 OtoSense | 2018-10-23

CSR8670CSR8675智能語音Alexa藍(lán)牙方案開發(fā)

資源下載 AI 智能語音 | 2017-12-14

2021春晚黑科技，火爆全網(wǎng)的\"打工牛\"是什么來頭？

視頻 AI 機(jī)器人 | 2021-02-26

人工智能是如何幫助阻止造假者的？

謝丫丫 | 2018-08-14

如何快速搭建手寫體識別演示系統(tǒng)

視頻 digikey AI 手寫體識別 | 2022-07-29

iCAN-4017 AI功能模塊

資源下載周立功單片機(jī) 功能模塊 iCAN-4017 AI | 2007-03-30

WTC-AI型太陽能熱水器電路圖

設(shè)計方案電子電路圖，WTC-AI 太陽能熱水器電路熱水器 | 2012-07-30

WTC-AI太陽能熱水器電路圖

設(shè)計方案 WTC-AI 太陽能熱水器電路圖 | 2012-07-24

電子元件培訓(xùn)教材

資源下載 NBA 電子元件識別電阻識別電容識別 AI MI SMT DIP 靜電防護(hù) | 2008-09-20

國際奧委會：最大限度發(fā)揮 AI 工具影響力，體育人才選拔方式有望得到革新

智能計算 AI 奧運(yùn)會體育 | 2024-07-26

“破局AI開發(fā)，釋放邊緣算力開發(fā)者訪談”，干貨滿滿！

視頻 intel AI OpenVINO | 2021-06-10

海聯(lián)達(dá)（Aigale）Ai-HD1 無線全高清套件拆解

zhuwei0710 | 2013-04-28

蘋果表示其AI模型是在谷歌的定制芯片上訓(xùn)練的

智能計算 AI | 2024-07-30

加大調(diào)整力度，教育部支持高校布局集成電路、AI 等專業(yè)

智能計算教育 AI 集成電路 | 2024-07-25

釋說芯語16：硬科技：構(gòu)建企業(yè)未來之路（附PPT）

jackwang | 2018-10-22

大嘴業(yè)話-AI目前市場分析

視頻人工智能，AI，ChatGPT，互聯(lián)網(wǎng)技術(shù) | 2023-04-25

AI+機(jī)器視覺成趨勢，圖文詳解N大應(yīng)用場景

智能計算安森美 AI 機(jī)器視覺 | 2024-07-31

焦點(diǎn)

推薦視頻

更多>>

技術(shù)專區(qū)