色婷婷AⅤ一区二区三区|亚洲精品第一国产综合亚AV|久久精品官方网视频|日本28视频香蕉

          新聞中心

          EEPW首頁 > 消費電子 > 設(shè)計應(yīng)用 > 帶語音識別功能的消費電子產(chǎn)品的系統(tǒng)設(shè)計

          帶語音識別功能的消費電子產(chǎn)品的系統(tǒng)設(shè)計

          作者: 時間:2008-04-22 來源:網(wǎng)絡(luò) 收藏
          過去,的應(yīng)用一直局限于基于PC的、電話服務(wù)器、高端手機和PDA。但近年來,技術(shù)的進步已使得低成本的處理器在電子領(lǐng)域得到應(yīng)用。

          現(xiàn)在的處理器集成了更多,它們的精確度也更高,并有更好的開發(fā)工具支持,這使得在中添加語音I/O變得相對容易。在用語音控制家庭環(huán)境照明便是一個具有市場潛力的應(yīng)用。

          語音識別的類型

          語音識別(有時也被稱為聲音識別或VR)技術(shù)可分成三大類:與說話人無關(guān)(SI)的識別技術(shù)、與說話人相關(guān)(SD)的識別技術(shù)和語音確認(SV)技術(shù)。每種技術(shù)都有各自的優(yōu)點,適用于不同的應(yīng)用。采用SI技術(shù)的產(chǎn)品要求無需對使用者進行培訓(xùn)便可使用的語音指令。

          例如,與說話人無關(guān)(SI)的識別技術(shù)通常最適合用于照明控制器。就像我們用名字來引起他人的注意一樣,用一個被稱為“觸發(fā)(trigger)”的SI指令來激活照明控制器也是一個不錯的方法。照明控制器被激活后,它可以接受多個指令。

          集成了語音識別的產(chǎn)品通常需要一種方法,以讓使用者知道它們已經(jīng)聽到指令并準備接受下一個指示。也就是說,它們必須讓使用者知道該產(chǎn)品已在控制流程之中。由于控制流程十分簡單,照明控制器將用一個短音作為應(yīng)答,這可縮短使用者與控制器的交互時間,而且如果發(fā)生誤啟動也不會導(dǎo)致太大問題。

          由于語音是人類的天生交流方式,所以語音識別可以增加產(chǎn)品的易用性,此外它還延伸了使用者的物理控制范圍。例如,一個語音控制的照明開關(guān)即可提供此類價值。或許使用者正坐著看電視,而照明開關(guān)不在伸手可及的范圍內(nèi),或者環(huán)境太暗,看不到照明開關(guān),此時借助一個簡單的語音指令就能方便地解決這些難題。

          點擊放大
          圖1:一個典型的具語音識別功能的電燈控制器將采用本流程圖中顯示的步驟進行操作。

          考慮

          因為語音識別建立在概率函數(shù)的基礎(chǔ)上,所以者必須在接受指令(包含在識別指令集合中)和拒絕指令(不包含在識別指令集合中)的重要性之間做出折衷。例如,如果該產(chǎn)品必須反應(yīng)非常靈敏,且偶爾發(fā)生誤接受(誤啟動)也不會釀成大問題,則應(yīng)用開發(fā)者可能傾向于接受指令更重要些。而其它一些應(yīng)用則不允許誤啟動,如聲控烤箱或照明控制器。

          背景噪聲是語音識別的克星。檢測和識別均要求信噪比(SNR)在合理的范圍之內(nèi)(約為3:1或更高)。如果應(yīng)用條件允許,最好使用定向麥克風(fēng)或近講麥克風(fēng)來降低噪聲。

          成本也是一個考慮因素。當(dāng)最終使用者購買產(chǎn)品時,產(chǎn)品價格已經(jīng)是原始制造成本的4到5倍。幸運的是,目前市場上提供的高集成度語音處理器包含了所必需的麥克風(fēng)前置放大器、模數(shù)轉(zhuǎn)換器(ADC)、數(shù)字濾波器、內(nèi)核處理器、數(shù)模轉(zhuǎn)換器(DAC)和數(shù)學(xué)運算引擎。

          這些處理器同樣捆綁了從文本輸入到與說話人無關(guān)(T2SI)的識別及合成技術(shù)。這些芯片也可充當(dāng)各種消費產(chǎn)品功能的主控制器,而且其價位對消費來說頗具競爭力。這使得產(chǎn)品在增加語音功能的同時,只增加很少成本,或不增加成本。

          照明控制器的原理

          這些優(yōu)異的性能使VR照明控制器非常具有吸引力,同時還有助于解決該應(yīng)用中的語音識別挑戰(zhàn)。在家庭環(huán)境中,遠距離識別一個指令意味著要排除人說話、電視、音樂、碗碟碰撞和撞門等背景噪聲的影響。此外,這類應(yīng)用也必須能適應(yīng)不同性別的成人和孩子。

          語音識別輸出的信號完整性只跟經(jīng)過處理的信號一樣,因此適當(dāng)?shù)柠溈孙L(fēng)電路設(shè)計是最基本的。麥克風(fēng)電路的設(shè)計應(yīng)使得麥克風(fēng)、偏置電阻和前置放大級的組合電路可以充分利用ADC的輸出位數(shù),即盡可能利用ADC的輸出位數(shù)來達到最佳分辨率,并且不飽和。另外,設(shè)計還應(yīng)考慮到人們輕聲或大聲說話時的可能功率范圍,以及照明控制器可能被使用的距離范圍(通常最大約為10英尺)。

          最好把照明控制器設(shè)置成避免誤啟動,(在嘈雜的環(huán)境中,使用者有時可能不得不重復(fù)發(fā)出指令),利用Quick T2SI工具的設(shè)置可實現(xiàn)這點。保持指令集的規(guī)模盡可能小,對盡量減少錯誤指令帶來的誤操作十分重要,特別是在嘈雜的環(huán)境(如在家中)。為使指令之間的差異最大,T2SI指令在聲音和長度方面應(yīng)盡可能地不同。

          最后,照明控制器的邏輯流程必須簡單、自然,方便使用。為避免使用者混淆,應(yīng)盡可能減少從引起照明控制器的注意到進入活躍指令集狀態(tài)的控制步驟。活躍指令集應(yīng)一直包含觸發(fā)字的復(fù)本,因而使使用者可以在任何時候重建自己在該流程中的位置。觸發(fā)字應(yīng)該很易于地與照明控制功能關(guān)聯(lián)起來,而活躍指令必須是照明控制最常用的。圖1對設(shè)計將要用到的流程進行了說明。

          點擊放大
          圖2:Sensory公司的VR stamp是一個低成本的模塊,可通過加入語音識別所必需的基本功能和組件來簡化設(shè)計。

          硬件設(shè)計

          為簡化照明控制器的開發(fā),本例中使用了Sensory公司的VR Stamp。VR Stamp是一個包含Sensory RSC-4128微處理器、音頻電路分立電容和麥克風(fēng)前置放大器、3.58MHz晶振、復(fù)位電路及用于存儲程序代碼的128KB閃存的低成本模塊。

          VR Stamp還帶有128KB的串行EEPROM存儲器,但在照明控制器應(yīng)用中沒有用到它(見圖2)。VR Stamp工具套件包括VR Stamp、集成開發(fā)環(huán)境(IDE)、Quick T2SI、FluentChip庫(具有各種語音識別和合成功能,包括T2SI)、VR Stamp編程板和支持文件。

          在這個由語音激活的照明控制器電路中,VR Stamp模塊接受使用者發(fā)出的語音指令,然后提供控制信號來打/關(guān)燈,并通過設(shè)置占空比來調(diào)節(jié)想要的電燈亮度(圖3)。

          該電路由120V、60Hz的交流線電源供電。變壓器(T1)和二極管橋(D1)完成從交流到直流的轉(zhuǎn)換和整流。RSC-4128工作在2.4到3.6V的范圍內(nèi)。穩(wěn)壓器(U1)向VR Stamp模塊提供穩(wěn)定的3.3V電源。3300Ω的電阻(R1)將交流線性電流降低到幾個毫安,以使RSC-4128能夠檢測電壓何時出現(xiàn)過零點。

          內(nèi)部二極管的作用是防止芯片因輸入電壓過高而損壞。兩端交流開關(guān)元件/三端雙向可控硅開關(guān)元件對(U2/Q2)在輸出端(P2)控制交流線電流。為濾除VDD上的低頻紋波,必須使用100µF的電容(C3),因為不穩(wěn)定的VDD將會耦合到音頻電路中,并將降低語音識別的精確度。

          用于語音識別輸入的麥克風(fēng)(MK1)和用于聲音輸出的揚聲器(LS1),實現(xiàn)該應(yīng)用的功能模塊。這是一個被來用為電燈供電的經(jīng)典電路。通過延遲啟動,該電路還可以減弱燈的亮度。本設(shè)計實現(xiàn)了4個照明開關(guān)亮度級別,其中“最亮”和“關(guān)燈”分別采用100%和0%的占空比, “中等亮”和“暗”分別采用大約50%和10%的占空比。

          在設(shè)計帶有語音識別功能的PCB時,設(shè)計者應(yīng)該記住兩個設(shè)計原則:

          1.保持模擬電源和模擬地的穩(wěn)定 應(yīng)利用穩(wěn)壓器使電源信號和地信號盡可能保持穩(wěn)定。應(yīng)合理設(shè)計PCB布局和走線,以使所有的模擬電源和模擬地信號與數(shù)字地分開。模擬電源和模擬地應(yīng)分別連接到主電源和主接地上 (對于本應(yīng)用為穩(wěn)壓器)。這種連接方式通常被稱為“星形接地”。把穩(wěn)壓器放在盡可能接近VR Stamp的MIC _ RET引腳的地方,并對所有電源和地信號使用粗的電線和PCB走線。

          2. 麥克風(fēng)連線盡量短,并帶屏蔽保護 使PCB上所有模擬走線盡可能短是一種好的設(shè)計方法。特別是,從麥克風(fēng)的正輸入端到VR Stamp的主音頻信號路徑應(yīng)該盡可能短。高阻抗音頻信號的振幅僅為幾毫伏的峰峰值。為避免來自數(shù)字噪聲和電磁干擾(EMI)的天線效應(yīng),必須使用屏蔽線纜連接麥克風(fēng)與該電路。

          VR Stamp被設(shè)計用來利用廉價的全向駐極體麥克風(fēng)提供出色的識別性能。本應(yīng)用中選用了松下公司的WM-64PKT,但也可以使用許多其它制造商和其它型號的產(chǎn)品。雖然駐極體麥克風(fēng)要求一個外部電源驅(qū)動內(nèi)部FET緩沖器,但被偏置后,它們也可作為電流源使用。此外,偏置電流控制整個麥克風(fēng)的靈敏度。在這個調(diào)光開關(guān)中,采用了靈敏度為-44dB的麥克風(fēng)。如果采用不同靈敏度的麥克風(fēng),則應(yīng)按下面的公式修改麥克風(fēng)的偏置電阻(R4):

          其中Sensitivity是你想要的麥克風(fēng)靈敏度(在麥克風(fēng)規(guī)格中以-dB為單位),R是麥克風(fēng)阻抗,RS是對獲得給定靈敏度所需的麥克風(fēng)偏置電阻(R4)。

          麥克風(fēng)的布局也是VR設(shè)計成功的關(guān)鍵因素,應(yīng)記住三個重要的設(shè)計原則。

          1. 埋入式安裝 麥克風(fēng)元件應(yīng)放在盡可能接近安裝面的地方,而且應(yīng)充分固定在塑料殼體上。在麥克風(fēng)元件和塑料殼體之間不能有任何空隙。

          2. 無障礙物且孔足夠大 為避免影響識別效果,須保證在麥克風(fēng)元件前面的區(qū)域內(nèi)沒有任何障礙物。麥克風(fēng)前面的外殼的開孔直徑至少為5mm。如果必需在麥克風(fēng)前加上塑料表面,應(yīng)使之盡可能薄,如果可以的話,最好不超過0.7mm。

          3. 隔離 為避免因操作或震動產(chǎn)品而產(chǎn)生的聽覺噪聲被麥克風(fēng)“獲取”,麥克風(fēng)與殼體之間應(yīng)該進行隔音。

          點擊放大
          圖3:由語音激活的照明控制電路中的VR stamp模塊接收使用者口頭指令,提供開/關(guān)燈控制信號,并設(shè)置燈的亮度。

          軟件設(shè)計

          Sensory公司的VR Stamp可以運行利用FluentChip技術(shù)固件工具和庫所開發(fā)的程序。FluentChip程序是利用VR Stamp工具套件所包含的IDE工具所創(chuàng)建和管理的。一個程序包含一個或多個代碼模塊(可以使用匯編語言或C語言編寫)及其它程序資源,包括面向T2SI識別指令集和SX語音提示的目標數(shù)據(jù)文件。

          T2SI觸發(fā)及指令集是采用Quick T2SI(一個基于Windows的SI識別指令集創(chuàng)建工具)創(chuàng)建的。為使用這個基于圖形使用者界面(GUI)的工具,設(shè)計者只需把待識別的字或短語鍵入到文本框中,按下“Build”按鈕,一個定制的SI集合就創(chuàng)建好了。注意的是,應(yīng)把觸發(fā)字輸入到觸發(fā)字文本框中,把指令輸入到指令文本框中。

          可以利用PC對這些字和短語進行測試,也可以把它們下載到VR Stamp中進行測試。如果一些字難以識別或易于產(chǎn)生混淆,設(shè)計者應(yīng)調(diào)節(jié)識別字和短語的發(fā)音,并馬上重新測試。Quick T2SI工具也可創(chuàng)建可以鏈接到任何T2SI應(yīng)用的目標文件。

          應(yīng)把Quick T2SI工具中的“Out of Vocabulary Sensitivity”項設(shè)置成“Reject More”或“Reject Most”以減少誤啟動。應(yīng)該對T2SI字進行了仔細選擇,以便VR能很容易地區(qū)分它們,而且這些字對使用者來說是很自然的。例如,“on”和“off”就不應(yīng)列入T2SI字,因為兩者的發(fā)音太相似,很易于引起混淆。

          如“power”等較長的字是更好的選擇。此外,可以把這個單獨的字用作開/關(guān)燈的開關(guān)。而其它的指令詞,“dimmer low”、“dimmer medium”、“dimmer high”和“l(fā)ight switch”都足夠長,差別很大,不太可能引起混淆。



          評論


          相關(guān)推薦

          技術(shù)專區(qū)

          關(guān)閉