色婷婷AⅤ一区二区三区|亚洲精品第一国产综合亚AV|久久精品官方网视频|日本28视频香蕉

          新聞中心

          EEPW首頁 > 手機與無線通信 > 設計應用 > 智能通信終端的關鍵技術研究

          智能通信終端的關鍵技術研究

          ——
          作者: 時間:2007-08-24 來源:中國聯通網站 收藏
          顧名思義,終端是指具有特征的終端,其根本特點應是具有視、聽、說、理解和自學習、推理的能力,表現在具有擬人化的人機接口和友好的操作界面,應用和合成、文字識別、自然語言理解等語音及語言處理關鍵技術。

            1 語音接口技術

            智能接口,也稱人機接口,是在智能終端上建立的一種擬人化的人機交互環(huán)境。智能接口技術除涉及人工智能和計算機科學外,與信號處理、電子技術、語言學、認知科學,乃至現代心理學、神經生理學等都有密切的關系。目前,在該領域中的主要研究課題有多媒體與虛擬現實、和合成、文字識別、計算機視覺和圖像識別、自然語言處理、自動摘要及機器翻譯等。由于語音是人類最自然的通信手段,人們的信息交互有60%是通過語音通信來完成的,因此目前通信終端的主體也基于語音通信。

            1.1 

            語音識別是對智能通信終端最具影響的技術之一。由于早期的語音識別是采用“模板法”來實現的,而這種基于模板匹配的語音識別,只能滿足小詞匯量、特定人、非連續(xù)語音識別的需求,無法提供人們對大詞匯量、非特定人、連續(xù)語音識別的需要。智能通信的需求反過來又對語音識別技術提

          出了更高的要求。

           ?、匐娫捳Z音識別 在高速數據信道和便攜數據終端普及前,我們最先利用的仍是傳統語音電話信道和一般意義上的電話終端,這就意味著需要識別經過整個電話信道而產生了某種畸變的語音信號。打電話時用戶可能會處于各種嘈雜的環(huán)境,因此噪聲背景下的語音識別也是要解決的問題。電話語音識別具有最迫切的市場需求,目前已成為國內外研究和開發(fā)的重點。

           ?、谡Z音識別的魯棒性 各種噪聲,特別是移動電話所產生的編碼和信道噪聲,是識別原始語音信號的一大干擾,且此類干擾隨機發(fā)生。因此,需要一種能對各種環(huán)境、信道噪聲進行過濾或在識別過程中加以糾正的技術。針對我國用戶群隨機的情況,需要建立普適度更高的模型或對不同口音自動適應,使系統具有較強的魯棒性。

            ③口語語音識別 當電話語音識別技術用于實現電話查詢、自動接線及專門業(yè)務(旅游信息服務等)操作時,會出現許多不符合語法的情況,產生冗余信息,這給語音識別帶來大的挑戰(zhàn)。

           ?、芏嗾Z種語音識別 時代必然會涉及多種語言,例如語音識別用于大都市電話查詢服務時,用戶可能使用漢語普通話、廣東話,或者英語進行查詢,這就要求識別系統有多語種識別的能力。

           ?、莘植际秸Z音識別 分布式語音識別是在客戶終端上做語音信號參數提取工作,而僅將參數傳送到服務器端作進一步識別。不僅解決了信道噪聲和現有編寫終端計算存儲能力的問題,還具有占用帶寬窄、綜合成本低等優(yōu)點,但其前提是提取的參數必須標準化。隨著個人、移動通信的需要,通信終端日趨小型化,各種掌上設備正進入人們的生活,如手機、商務通、個人助理等。用語音方式是解決輸入/出及各種操作問題的最理想手段。

            1.2 語音合成

            語音合成技術是使電腦或通信終端具有類似于人一樣的說話能力,是當今時代信息產業(yè)的重要研究領域。和語音識別相比,語音合成技術更成熟一些,是最有希望首先在智能通信終端中得到普遍應用并形成帶動作用的一項關鍵技術。目前,語音合成有高自然度、芯片級、多語種、分步式和口語式的語音合成等發(fā)展方向。按照智能化程度的不同層次,語音合成可分為三個層次:從文字到語音;概念到語音;意向到語音的合成。為合成出高質量的語音,除依賴于各種規(guī)則,還必須對文字內容進行很好的理解。文字/語音的轉換系統。

            (1)文本分析

            文本分析旨在確定文本中哪些是詞、短語或句子;每個字應如何發(fā)音,一般由文本預處理、分詞、韻律分析等環(huán)節(jié)組成。

            此外,隨著機器學習和數據發(fā)掘技術的發(fā)展,出現了基于數據驅動技術的文本分析方法。例如采用決策樹或神經方法,從大量的數據中通過訓練生成韻律模型。

            (2)語音合成器

            目前,最流行的語音合成器是采用基音同步的重疊相加(PSOLA)方法來實現波形拼接(這里指的基音或基頻是語音韻律特征中的音高或聲調的物理表現參數,基頻曲線變化直接導致聲調變化)。PSOLA算法的基本思想是以語音信號基音周期為分析對象,在基音同步基礎上對信號聲調和時長進行修改。

            然而通過信號處理的方法調整韻律特性,終究會對音色有一定的損傷。即使是PSOLA算法,當韻律修正的范圍變大時,音色也會有明顯下降?;凇奥牳辛炕辈ㄐ纹唇臃椒ǎ涑霭l(fā)點就是語音合成時盡量減少動用合成器來調整韻律參數。由于“聽感量化”單元從原始發(fā)音中直接截取,避免了用語音合成器調整參數時對音質的損害,保證了合成系統具有接近自然發(fā)音的音質,其自然度達到用戶可接受的程度。

          1.3 自然語言理解

            語音識別與合成都離不開自然語言理解。語音識別中音/字轉換和語音合成中字/音轉換的正確率都取決于對語言理解的深度。從智能通信終端的應用看,系統有時不僅要正確識別用戶的發(fā)音,而且要理解它,然后執(zhí)行相應命令。此外,系統還需產生合適的回答,比如反問、反饋信息給用戶。這就會涉及自然語言生成,這是語音合成的更高一級階段,和自然語言理解更是密不可分。

            隨著Internet迅速擴張,自然語言理解的任務不僅是建立一種能夠像人那樣理解自然語言的計算模型,還需建立模擬人腦語言感知過程的理論模式。為使智能通信終端做到對口語和文字的理解,并及時響應,必須以語法與語義相結合,解決有關知識(特別是模糊知識)的表達與利用問題。自然語言理解在智能通信終端中的應用還包括:自然語言查詢處理提供各種類型的相似性及或然性匹配,并返回按等級排列的檢索結果;矯正利用語音識別自動生成的腳本中的錯誤;影像標題生成和摘要創(chuàng)建(如略覽版的生成)等。

            目前語音識別和語音合成采用統計的方法,即通過對大量的語料統計來實現自然語言理解的方法,如二/三元語言模型等非常實用,突破了傳統分析方法對不受限語句的理解。

            2 智能終端與語音門戶

            在當今飛速發(fā)展的信息社會,人們越來越希望可以通過移動電話等通信終端設備來實現快速便捷的交流,即通過移 動電話等通信終端設備接入,并操縱遠程信息源得到信息或進行電子化交易。目前,采用撥號接入網絡的過程耗時長,而語音接入僅需短短幾秒,這無疑將大大提高接入速度。另外,這種語音技術不但令使用者無論在何時、何地,都可以利用手中的通信終端設備輕松接入網絡,得到所需信息或購買商品及服務,還將大大提高商業(yè)自動化程度、降低企業(yè)的運營成本、改善服務質量、使商務活動更加便捷。
           
            語音門戶,是指基于互聯網平臺,應用語音識別、合成和轉換技術,為固定和移動電話用戶提供用語音訪問互聯網并獲取網上信息的門戶,是全球互聯網發(fā)展的最新趨勢之一。語音門戶融合了語音、CTI、Web、電信、計算機及網絡等技術,構筑出新一代語音上網平臺,將使更多的用戶能夠通過各類通信終端快速接入互聯網,為企業(yè)帶來新的業(yè)務增長點。從技術角度看,隨著自動語音識別(ASR)、文本轉語音(TTS)、口語對話等人機交互技術、信息處理技術的發(fā)展,以及像語音瀏覽器、嵌入式語音瀏覽器等Voice Web技術的成熟,再加上移動用戶終端種類與功能的快速增加,使語音門戶在通信終端中的應用提供了可靠保證。

            (1)分布式語音處理

           ?、俜植际秸Z音識別在智能通信終端中,語音識別的首要目標是使用戶不用敲擊或遠離鍵盤即可輕松訪問大部分計算機服務和通信系統。分布語音識別 (DSR)技術采用客戶機/服務器方法,整個處理過程分布于終端(如手機)和網絡兩端。終端執(zhí)行語音特征參數提取任務,是語音識別系統的前端。提取的特征參數通過數據信道傳輸至遠程的后端識別器。這樣,傳輸信道不影響識別系統性能,信道不變性的目的得以實現。而目前基于因特網上的分布式語音識別是由呼叫中心發(fā)展而來,并已在基于包交換的VoIP網絡進行了測試。

            ②分布式語音合成在基于網絡應用,特別是客戶機/服務器典型模式下,終端與服務端之間的實現之間必然存在矛盾,加上信道、處理資源與用戶體驗等多方面的綜合影響,語音合成的分布式實現了把傳統TTS的處理環(huán)節(jié)分解成為標準化的實現模塊:文本分析和語音合成模塊。文本分析模塊涉及詞典、分詞、各種語言學處理,將占用較大資源,可放在服務器端實現,即經過處理后形成音韻序列再傳送到終端上去;語音合成模塊則可以放在終端上實現。由于音韻序列基本上由符號數據組成,與直接傳送文本數據占用的信道帶寬差不多,不影響傳輸性能,但卻反而使終端擺脫了文本分析的壓力,降低了成本。當然,標記語言和數據傳送的格式必須標準化,才能得以推廣。

            (2)語音瀏覽器

            語音瀏覽器通過語音的方式瀏覽VXML(基于XML國際標準的語音可擴展標識語言,像HTML定義圖形化網頁界面一樣定義了語音界面)內容,并通過 Transcoder服務器直接瀏覽網上HTML格式的內容。它主要包括Voice XML、電話語音接入、TTS/ASR資源及Transcoder服務器。

              語音瀏覽器是希望使普通電話作為瀏覽器終端,應用自然語言交互的方式取得相關的定制信息服務或Internet上發(fā)布的Web信息內容,通過電話終端與服務器端的語音接人、ASR/TTS、VXML服務器以及各種Transcoder,構成相當于IE的瀏覽器,實現語音上網工程的核心組成部分。應用語音瀏覽器可使我們輕松地用電話、電視等電子或電氣設備走進互聯網;在將來,它還可支持其他模式和媒體,如用筆、圖像和傳感器作為輸入,用活動圖像和激勵控制作為輸出;便攜式語音瀏覽器可在任何地方使用,網上信息便隨手可得,特別是那些有電話或移動電話的用戶更是如此;為盲人用戶提供方便的實用接口,使他們獲得和正常人一樣的工作空間;跨越各種平臺,像電腦、電視、電話(包括移動電話)等,使人們隨時隨地獲取所需的網上信息,并用語音表達出來。隨著其中各項技術的發(fā)展、成熟和完善,語音瀏覽器市場將會迅速發(fā)展起來。

            (3)嵌入式語音瀏覽器

            嵌入式語音瀏覽器支持HTTP或者WAP等傳輸協議及HTML、JavaScript、擴展XML、Voice XML等標記語言,可完成網頁瀏覽功能;適合在非PC的嵌入式信息設備中存在、運行,并完整實現通信傳輸協議、標記語言所規(guī)定的功能;根據嵌入式設備的多樣性需求進行裁減和修改,并滿足信息設備使用者方便地獲取文字、圖像、聲音、視頻等信息;可廣泛應用到各種非PC設備或通信終端,如電視上的機頂盒、交互式數字電視、手持上網設備(移動電話、掌上電腦、個人數字助理等)、互聯網電話、網絡終端、電子圖書閱讀器、公共信息查詢系統等。

            3 網絡的自適應

            在通信時,智能通信終端應能自動檢測所連接的網絡及傳輸方式(模擬通信網絡、數字通信網絡、ISDN、連接等),選擇最優(yōu)化的網絡及傳輸方式,自適應地連接到所選擇的網絡中去,以所選擇的網絡要求的處理方式處理數據,開展工作。

            未來的智能通信終端不 僅小巧便攜,使用簡便,而且功能多,能滿足人們各種不同種類信息傳輸的需求。無論何時何地,用戶都可隨機發(fā)送或接收信息,并能根據所處環(huán)境,自適應地選擇最優(yōu)傳輸網絡。未來的智能通信終端不再是只能進行某一種通信的終端,而是可以進行許多種類的通信。



          評論


          相關推薦

          技術專區(qū)

          關閉