實現(xiàn)不間斷對話后,微軟小冰距離理想中的樣子又近了一步
更加自然的全雙工語音交互感官
本文引用地址:http://cafeforensic.com/article/201804/377948.htm其實我對于此次小冰所具備的智能家居設(shè)備控制技能、更加人性化的情感和同理心能力以及獨特的「小冰姐姐」模式這三項功能并不感到意外,而真正值得關(guān)注的地方是其一次喚醒可進行連續(xù)對話。
要知道,目前包括智能音箱在內(nèi),絕大多數(shù)語音控制設(shè)備都采用了「一問一答」的交互方式。理由也很簡單,這樣的方案允許設(shè)備在技術(shù)并不足夠成熟的前提下,依舊能夠可以相對不錯的識別準確度。
但這樣的人機交互方式所存在的不足之處在于,其并不符合人們自然的交互習慣。從某種角度上來說,即便是它在準確度和回饋速度上都做到了接近完美,但可能也還是更多地停留在「工具」的層面,并非人們理想中人工智能該有的模樣。
而對比來看,搭載了微軟小冰的 Yeelight 可以實現(xiàn)對話像河流一樣不間斷進行,在語音交互方式上顯然要更自然一些,微軟稱之為全雙工語音交互感官。
不顧想要實現(xiàn)近乎于人與人之間的交流方式,顯然并不是一件容易的事情,在前幾天的媒體溝通會上,小冰團隊也對這背后部分技術(shù)特征進行了披露。
首先在基礎(chǔ)框架上,微軟沒有選擇面向單個任務(wù)的的 Turn-oriented,而是采用了面向?qū)υ捜痰?Session-oriented。
同時在實際的人機交互過程中,小冰所采用的全雙工語音交互技術(shù),在包括邊聽邊想、節(jié)奏控制器、對聲音場景的理解以及自然語言理解與生成模型等多個維度上進行了探索。
首先它建立了一套預(yù)測模型,來實現(xiàn)邊聽邊想。簡單來講,小冰會提前預(yù)測你想要表達的完整意思,從而實現(xiàn)更快的響應(yīng)速度和改口能力。同時在回答你所提出的問題時,可以實現(xiàn)動態(tài)回應(yīng),通過有選擇的將回答分成多段,來減少你的等待時間。
另外,為了讓小冰在與人類的對話過程中可以更好的掌握時機和重要內(nèi)容,它也設(shè)置了節(jié)奏控制器。當然,人與機器交互時需要它能夠很好的實現(xiàn)對聲音場景的理解。比如識別你的性別、對指令的正確識別等等。
還有一個重要的技術(shù)特征是,小冰擁有自然語言理解與生成模型,從而實現(xiàn)更好的容錯性以及基于整個對話對上下文的理解。
綜合來講,在語音交互方式上,微軟選擇了一條短時間內(nèi)可能并不容易獲得明顯效果,但上限更高的技術(shù)路徑。不難想象的是,未來隨著 Turn-oriented 框架走到極致而無法更進一步的情況下,也會有越來越多語音平臺加入到這個行列中。
但顯而易見的是,早先一步開始布局 Session-oriented 框架的微軟已經(jīng)領(lǐng)先了半個身位。從長遠來看,其將獲得更高的收益。
回過頭來看小冰這個平臺,正如我們前邊提到的,雖然就目前而言它的整體體驗并不那么完美,但其成長上限非常高。一旦未來各方面走向成熟,這個平臺或許將最早成為我們理想中的人工智能。
評論