智能電器如何被人類(lèi)聲控?
近兩年,以智能家居為主題的消費(fèi)電子展越來(lái)越多,擁有聲控功能的電視機(jī)、空調(diào)、電飯煲、電腦、手機(jī)等電器開(kāi)始引領(lǐng)潮流,逐步取代了觸摸式按鍵的領(lǐng)先操作方式。這種機(jī)器愈發(fā)聰明,我們通過(guò)聲音即可進(jìn)行在一定距離范圍內(nèi)的操作,便捷而人性化,讓人感受到“科技以人為本”的時(shí)代曙光。在不久的將來(lái),電器會(huì)更像人類(lèi),它們也會(huì)有視覺(jué)與聽(tīng)覺(jué),靠語(yǔ)音識(shí)別、監(jiān)控感知即可實(shí)現(xiàn)簡(jiǎn)單的人機(jī)交互。那么,以語(yǔ)音識(shí)別為基礎(chǔ)的聲控是個(gè)什么原理?難道智能電器都長(zhǎng)有耳朵嗎?
其實(shí),語(yǔ)音識(shí)別只是電器感知模式識(shí)別的一個(gè)分支,它從屬于信號(hào)處理科學(xué)領(lǐng)域,同時(shí)與語(yǔ)音學(xué)、語(yǔ)言學(xué)、數(shù)理統(tǒng)計(jì)及神經(jīng)生物學(xué)等學(xué)科有非常密切的關(guān)系。語(yǔ)音識(shí)別的目的就是讓機(jī)器能夠“聽(tīng)懂”人類(lèi)口述的語(yǔ)言,這其中包括了兩方面的含義:其一是逐字逐句聽(tīng)懂非轉(zhuǎn)化成書(shū)面語(yǔ)言文字;其二是對(duì)口述語(yǔ)言中所包含的要求或詢問(wèn)加以理解,做出正確響應(yīng),而不拘泥于所有詞的正確轉(zhuǎn)換。
自動(dòng)語(yǔ)音識(shí)別技術(shù)有三個(gè)基本原理:首先,語(yǔ)音信號(hào)中的語(yǔ)言信息是按照短時(shí)幅度譜的時(shí)間變化模式來(lái)編碼;其次,語(yǔ)音是可以閱讀的,即它的聲學(xué)信號(hào)可以在不考慮說(shuō)話人試圖傳達(dá)的信息內(nèi)容的情況下,用數(shù)十個(gè)具有區(qū)別性的、離散的符號(hào)來(lái)表示;再次,語(yǔ)音交互是一個(gè)認(rèn)知過(guò)程,因而不能與語(yǔ)言的語(yǔ)法、語(yǔ)義和語(yǔ)用結(jié)構(gòu)割裂開(kāi)來(lái)。
而對(duì)于語(yǔ)音識(shí)別的預(yù)處理,則包括語(yǔ)音信號(hào)采樣、反混疊帶通濾波、去除個(gè)體發(fā)音差異和設(shè)備、環(huán)境引起的噪聲影響等,并涉及到語(yǔ)音識(shí)別基元的選取和端點(diǎn)檢測(cè)問(wèn)題。在之后的特征提取過(guò)程,就是用于提取語(yǔ)音中反映本質(zhì)特征的聲學(xué)參數(shù),如平均能量、平均跨零率、共振峰等。然后是訓(xùn)練階段,即在識(shí)別之前通過(guò)讓講話者多次重復(fù)語(yǔ)音,從原始語(yǔ)音樣本中去除冗余信息,保留關(guān)鍵數(shù)據(jù),再按照一定規(guī)則對(duì)數(shù)據(jù)加以聚類(lèi),形成模式庫(kù)。最后是模式匹配,這是整個(gè)語(yǔ)音識(shí)別系統(tǒng)的核心,它根據(jù)一定規(guī)則(如某種距離測(cè)度)以及專(zhuān)家知識(shí)(如構(gòu)詞規(guī)則、語(yǔ)法規(guī)則、語(yǔ)義規(guī)則等),計(jì)算輸入特征與庫(kù)存模式之間的相似度(如匹配距離、似然概率),判斷出輸入語(yǔ)音的語(yǔ)意信息。
除此之外,語(yǔ)音識(shí)別技術(shù)還基于對(duì)語(yǔ)音的物理屬性、生理屬性和社會(huì)屬性3個(gè)基本屬性的分析。
1. 語(yǔ)音的物理屬性
所謂物理屬性,主要包括音高、音長(zhǎng)、音強(qiáng)和音色4個(gè)要素。音高是指聲音的高低,主要決定于發(fā)音體振動(dòng)速度的快慢;音長(zhǎng)是指聲音的長(zhǎng)短,主要決定于發(fā)音體振動(dòng)時(shí)間的久暫;音強(qiáng)是指聲音的強(qiáng)弱,主要決定于發(fā)音體振動(dòng)幅度的大小;音色是指聲音的特色,主要決定于發(fā)音物體振動(dòng)所形成的音波波紋曲折形式不同。
2. 語(yǔ)音的生理屬性
所謂生理屬性,主要指發(fā)音器官對(duì)語(yǔ)音的影響,包括肺和氣管、候頭和聲帶以及口腔、鼻腔和咽腔等發(fā)音氣官。
3. 語(yǔ)音的社會(huì)屬性
所謂社會(huì)屬性,主要表現(xiàn)在3個(gè)方面,一是語(yǔ)音與意義之間并無(wú)必然聯(lián)系,它們的對(duì)應(yīng)關(guān)系是社會(huì)成員約定俗成的;二是各種語(yǔ)言或方言都有自己的語(yǔ)音系統(tǒng);三是語(yǔ)音具有區(qū)別意義的作用。
語(yǔ)音識(shí)別的基本過(guò)程根據(jù)實(shí)際中的應(yīng)用不同,語(yǔ)音識(shí)別系統(tǒng)可以分為:特定人與非特定人的識(shí)別、獨(dú)立詞與連續(xù)詞的識(shí)別、小詞匯量與大詞匯量以及無(wú)限詞匯量的識(shí)別。但無(wú)論那種語(yǔ)音識(shí)別系統(tǒng),其基本原理和處理方法都大體類(lèi)似。
最后,智能電器通過(guò)語(yǔ)音識(shí)別的一系列過(guò)程做出相應(yīng)的預(yù)設(shè)反應(yīng),這樣就被人類(lèi)聲控了,所以這看似簡(jiǎn)單快捷的操控方式其實(shí)很復(fù)雜。如此,操控電器會(huì)變得非常簡(jiǎn)單,不用像現(xiàn)在這樣,先看完枯燥乏味的說(shuō)明書(shū),或邊看操作步驟邊操控電器了。
評(píng)論