聆思CSK6大模型多模態(tài)語(yǔ)音交互開(kāi)源SDK介紹
聆思CSK6大模型多模態(tài)SDK除了支持語(yǔ)音交互之外,還支持圖像方面的交互,包括對(duì)圖像的識(shí)別以及圖片生成。用戶可以通過(guò)語(yǔ)音交互、攝像頭拍照作為交互入口,實(shí)現(xiàn)與大模型的多模態(tài)交互。
SDK主要包含以下功能:
●語(yǔ)音交互:支持按鍵錄音或喚醒后通過(guò)語(yǔ)音與大模型進(jìn)行對(duì)話
●拍照識(shí)圖:支持通過(guò)攝像頭拍攝圖像并上傳給大模型進(jìn)行識(shí)別,支持依據(jù)識(shí)圖內(nèi)容進(jìn)行提問(wèn)
●圖片生成:支持通過(guò)語(yǔ)音交互描述畫(huà)面內(nèi)容,令大模型生成圖片并顯示至套件屏幕上
多模態(tài)SDK支持三種交互方式,其特點(diǎn)如下:
模式 | 喚醒方式 | 交互方式 |
按鍵交互 | 按下屏幕麥克風(fēng)圖標(biāo)或開(kāi)發(fā)板K3按鍵 | 按住按鍵說(shuō)話,松開(kāi)提交 |
語(yǔ)音喚醒(單輪) | 喚醒詞 “小美小美” | 聽(tīng)到提示音 “在呢” 后進(jìn)行提問(wèn),每次提問(wèn)均需要喚醒 |
語(yǔ)音喚醒(多輪) | 喚醒詞 “小美小美” | 聽(tīng)到提示音 “在呢” 后進(jìn)行提問(wèn),可持續(xù)對(duì)話,當(dāng)超過(guò)20秒無(wú)語(yǔ)音輸入時(shí)自動(dòng)結(jié)束本次交互 |
在待機(jī)頁(yè)面,下滑可調(diào)出下滑菜單,點(diǎn)擊下滑菜單中的 設(shè)置圖標(biāo),可進(jìn)行配置頁(yè)面:
選中對(duì)應(yīng)的模式后,點(diǎn)擊左上角即可回到待機(jī)頁(yè)面并生效。
設(shè)置成按鍵交互(按鍵喚醒)模式下,按住屏幕上的麥克風(fēng)按鈕或開(kāi)發(fā)板上的K3按鍵,即進(jìn)入錄音狀態(tài),松開(kāi)按鍵則結(jié)束錄音并提交。
語(yǔ)音喚醒模式
當(dāng)設(shè)置為語(yǔ)音喚醒(單輪)或語(yǔ)音喚醒(多輪),可通過(guò)喚醒詞 —— “小美小美” 對(duì)設(shè)備進(jìn)行喚醒,當(dāng)聽(tīng)到 “在呢” 的提示音后,即可正常進(jìn)行語(yǔ)音輸入。
退出對(duì)話在使用過(guò)程中,點(diǎn)擊左上角結(jié)束本輪對(duì)話回到待機(jī)頁(yè)面,此操作會(huì)同步清除本次對(duì)話的上下文信息。
在待機(jī)頁(yè),點(diǎn)擊拍照按鈕即可進(jìn)入取景頁(yè)面,對(duì)準(zhǔn)要拍照的物體,點(diǎn)擊右側(cè)中間的拍照鍵完成抓拍,確認(rèn)畫(huà)面抓拍正常后(無(wú)晃動(dòng)模糊的情況),點(diǎn)擊右側(cè)的 √ 進(jìn)行提交識(shí)別:
在設(shè)備進(jìn)入語(yǔ)音交互狀態(tài)后,可以通過(guò)帶有繪畫(huà)意圖的提示詞讓大模型進(jìn)行作畫(huà),比如:
●“畫(huà)一只熊貓”
●“畫(huà)一個(gè)人正在使用電腦”
語(yǔ)音視覺(jué)大模型開(kāi)發(fā)板 SDK:https://cloud.listenai.com/CSKG962172/duomotai_ap/-/tree/master/
DEMO固件下載:https://docs2.listenai.com/x/UzjbjIAxw
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。