色婷婷AⅤ一区二区三区|亚洲精品第一国产综合亚AV|久久精品官方网视频|日本28视频香蕉

新聞中心

EEPW首頁(yè) > 業(yè)界動(dòng)態(tài) > Nikko Strom揭秘語(yǔ)音識(shí)別技術(shù)：Alexa是怎樣煉成的？

Nikko Strom揭秘語(yǔ)音識(shí)別技術(shù)：Alexa是怎樣煉成的？

作者：時(shí)間：2017-03-30 來(lái)源：雷鋒網(wǎng)

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢(xún)

收藏

　　Nikko Strom，現(xiàn)任亞馬遜首席科學(xué)家，是 Echo 和 Alexa 項(xiàng)目的創(chuàng)始成員，在語(yǔ)音識(shí)別技術(shù)相關(guān)領(lǐng)域有著資深的研究及從業(yè)經(jīng)驗(yàn)：

本文引用地址：http://cafeforensic.com/article/201703/345967.htm

　　● 1997 年于瑞典皇家理工學(xué)院語(yǔ)音通信實(shí)驗(yàn)室獲得博士學(xué)位，后擔(dān)任MIT計(jì)算機(jī)科學(xué)實(shí)驗(yàn)室研究員;

　　● 2000 年加入語(yǔ)音技術(shù)初創(chuàng)公司 Tellme Networks;

　　● 2007 年隨著 Tellme Networks 被微軟收購(gòu)，加入微軟，推進(jìn)商業(yè)語(yǔ)音識(shí)別技術(shù)的前沿研究;

　　● 2011 年加入亞馬遜，擔(dān)任首席科學(xué)家，領(lǐng)導(dǎo)語(yǔ)音識(shí)別及相關(guān)領(lǐng)域的深度學(xué)習(xí)項(xiàng)目。

　　以下是 Nikko Strom 在本次大會(huì)上的演講。

　　先簡(jiǎn)單介紹下我們的產(chǎn)品。如果你買(mǎi)了 Amazon Echo，意味著你可以通過(guò) Alexa 語(yǔ)音識(shí)別系統(tǒng)控制它，并與它對(duì)話(huà)，而且不需要拿遙控器。左邊(下圖)是 Holiday Season，是我們新加入的白色Echo和Dot，相信在座應(yīng)該有很多人比較偏愛(ài)白色的電子產(chǎn)品。

　　Echo 還可以與沒(méi)有內(nèi)置 Alexa 系統(tǒng)的家電進(jìn)行連接，如燈具、咖啡機(jī)、恒溫器等，只需要喚醒Alexa，就可以讓這些家電設(shè)備執(zhí)行一些命令。此外，開(kāi)發(fā)者還可以通過(guò)工具包 Alexa Skills Kit，打造個(gè)性化的功能。

　　

Nikko Strom揭秘語(yǔ)音識(shí)別技術(shù)：Alexa是怎樣煉成的？

　　現(xiàn)如今，Echo已經(jīng)進(jìn)入了數(shù)百萬(wàn)用戶(hù)的家中，每天它都在被大量地使用著，也讓我們得到了無(wú)法想象的數(shù)據(jù)量。

　　深度學(xué)習(xí)基礎(chǔ)框架

　　事實(shí)上，人耳并非每時(shí)每刻都在搜集語(yǔ)音信息，真正在“聽(tīng)”的時(shí)間大約只占 10%，所以一個(gè)人成長(zhǎng)到 16歲時(shí)，他/她所聽(tīng)到的語(yǔ)音訓(xùn)練時(shí)間大概有 14016 個(gè)小時(shí)。

　　

Nikko Strom揭秘語(yǔ)音識(shí)別技術(shù)：Alexa是怎樣煉成的？

　　回到 Alexa，我們把數(shù)千個(gè)小時(shí)的真實(shí)語(yǔ)音訓(xùn)練數(shù)據(jù)存儲(chǔ)到 S3 中，使用 EC2 云上的分布式 GPU 集群來(lái)訓(xùn)練深度學(xué)習(xí)模型。

　　

Nikko Strom揭秘語(yǔ)音識(shí)別技術(shù)：Alexa是怎樣煉成的？

　　訓(xùn)練模型的過(guò)程中發(fā)現(xiàn)，用 MapReduce 的方法效果并不理想，因?yàn)楣?jié)點(diǎn)之間需要頻繁地保持同步更新，不能再通過(guò)增加更多的節(jié)點(diǎn)來(lái)加速運(yùn)算。也可以這樣理解，就是GPU集群更新模型的計(jì)算速度非常之快，每秒都會(huì)更新幾次，每次的更新大約是模型本身的大小。也就是說(shuō)，每一個(gè)線(xiàn)程(Worker)都要跟其它線(xiàn)程同步更新幾百兆的量，而這在一秒鐘的時(shí)間里要發(fā)生很多次。所以，MapReduce的方法效果并不是很好。

　　

Nikko Strom揭秘語(yǔ)音識(shí)別技術(shù)：Alexa是怎樣煉成的？

　　我們?cè)?Alexa 里的解決方法就是，使用幾個(gè)逼近算法(Approximations)來(lái)減少更新規(guī)模，將其壓縮 3個(gè)量級(jí)。這里是我們一篇 2015 年論文里的圖表，可以看到，隨著GPU線(xiàn)程的增加，訓(xùn)練速度加快。到 40 個(gè) GUP 線(xiàn)程時(shí)，幾乎成直線(xiàn)上升，然后增速有點(diǎn)放緩。80 GPU 線(xiàn)程對(duì)應(yīng)著大約 55 萬(wàn)幀/秒的速度，每一秒的語(yǔ)音大約包含 100 幀，也就是說(shuō)這時(shí)的一秒鐘可以處理大約90分鐘的語(yǔ)音。前面我提到一個(gè)人要花 16 年的時(shí)間來(lái)學(xué)習(xí) 1.4 萬(wàn)小時(shí)的語(yǔ)音，而用我們的系統(tǒng)，大約 3 個(gè)小時(shí)就可以學(xué)習(xí)完成。

　　

Nikko Strom揭秘語(yǔ)音識(shí)別技術(shù)：Alexa是怎樣煉成的？

　　這就是 Alexa 大致的深度學(xué)習(xí)基礎(chǔ)架構(gòu)。

　　聲學(xué)模型

　　大家都知道，語(yǔ)音識(shí)別系統(tǒng)框架主要包括四大塊：信號(hào)處理、聲學(xué)模型、解碼器和后處理。

　　

Nikko Strom揭秘語(yǔ)音識(shí)別技術(shù)：Alexa是怎樣煉成的？

　　首先我們會(huì)將從麥克風(fēng)收集來(lái)的聲音，進(jìn)行一些信號(hào)處理，將語(yǔ)音信號(hào)轉(zhuǎn)化到頻域，從每 10 毫秒的語(yǔ)音中提出一個(gè)特征向量，提供給后面的聲學(xué)模型。聲學(xué)模型負(fù)責(zé)把音頻分類(lèi)成不同的音素。接下來(lái)就是解碼器，可以得出概率最高一串詞串，最后一步是后處理，就是把單詞組合成容易讀取的文本。

　　在這幾個(gè)步驟中，或多或少都會(huì)用到機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的方法。我今天主要講一下聲學(xué)模型的部分。

上一頁(yè) 1 2 下一頁(yè)

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關(guān)鍵詞： Alexa 語(yǔ)音識(shí)別

評(píng)論

相關(guān)推薦

亞馬遜今年最重磅發(fā)布會(huì)：生成式AI加持Alexa助手、新款音響、平板、路由等硬件亮相

亞馬遜 AI Alexa 翻譯 | 2023-09-21

便攜設(shè)備中集成“一直聽(tīng)”的語(yǔ)音觸發(fā)方案

nakey | 2016-03-09

UM2354_Alexa語(yǔ)音服務(wù)軟件擴(kuò)展包指南

EEPW | 2019-03-19

Nuance語(yǔ)音識(shí)別技術(shù)

設(shè)計(jì)方案語(yǔ)音識(shí)別 Nuance 消費(fèi)電子 | 2015-02-03

語(yǔ)音識(shí)別及其定點(diǎn)DSP實(shí)現(xiàn)

設(shè)計(jì)方案語(yǔ)音識(shí)別 DSP C語(yǔ)言 | 2015-03-28

歐盟擬對(duì)Siri和Alexa等語(yǔ)音助手發(fā)起反壟斷調(diào)查

消費(fèi)電子 Siri Alexa 語(yǔ)音助手 | 2020-07-17

4 調(diào)用 Google 語(yǔ)音識(shí)別

視頻 Android Wear 圖靈機(jī)器人 Google 語(yǔ)音識(shí)別 | 2015-07-07

語(yǔ)音模組重啟及聲音輸出異常淺析

消費(fèi)電子 202106 智能家居語(yǔ)音識(shí)別可靠性 | 2021-07-12

美光高性能內(nèi)存與存儲(chǔ)，推動(dòng) AI 豐富殘障人士生活體驗(yàn)

網(wǎng)絡(luò)與存儲(chǔ) 語(yǔ)音識(shí)別生成式AI 機(jī)器學(xué)習(xí) 內(nèi)存 | 2023-12-07

電視機(jī)智能聲控選合系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)

資源下載語(yǔ)音識(shí)別彩電遙控智能聲控選臺(tái) | 2007-02-16

基于STM32智能家居系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)

設(shè)計(jì)方案 STM32 語(yǔ)音識(shí)別服務(wù)器智能家居 | 2015-03-21

孤立詞語(yǔ)音識(shí)別系統(tǒng)的DSP實(shí)現(xiàn)

設(shè)計(jì)方案孤立詞 DSP 語(yǔ)音識(shí)別 | 2015-03-28

基于DTW模型的語(yǔ)音識(shí)別

資源下載 DTW模型語(yǔ)音識(shí)別 MATLAB | 2007-04-19

本科畢業(yè)設(shè)計(jì)：一種基于發(fā)育思想的語(yǔ)音識(shí)別系統(tǒng)實(shí)現(xiàn)

資源下載語(yǔ)音識(shí)別人工智能自主式機(jī)器發(fā)育思想自組織映射網(wǎng)絡(luò) 簡(jiǎn)單反饋神經(jīng)網(wǎng)絡(luò) | 2007-04-19

賽昉科技重磅發(fā)布全球首款基于RISC-V人工智能視覺(jué)處理平臺(tái) ——驚鴻7100

驚鴻7100 RISC-V指令集深度學(xué)習(xí) 圖像處理語(yǔ)音識(shí)別機(jī)器視覺(jué) | 2020-10-10

微軟197億美元完成對(duì)Nuance的收購(gòu) 目標(biāo)不止在于語(yǔ)音識(shí)別市場(chǎng)

微軟 Nuance 收購(gòu) 語(yǔ)音識(shí)別 | 2022-03-10

大聯(lián)大品佳集團(tuán)推出基于MediaTek產(chǎn)品的亞馬遜智能物聯(lián)網(wǎng)語(yǔ)音識(shí)別方案

物聯(lián)網(wǎng)與傳感器大聯(lián)大品佳 MediaTek 亞馬遜語(yǔ)音識(shí)別 | 2022-09-08

JavaScript語(yǔ)音識(shí)別庫(kù)-Julius

視頻 JavaScript 語(yǔ)音識(shí)別 Julius | 2015-07-07

人工智能探境科技之得“芯”應(yīng)手

智能計(jì)算人工智能（AI）神經(jīng)網(wǎng)絡(luò)處理器（NPU）深度學(xué)習(xí) 語(yǔ)音識(shí)別 202008 中國(guó)芯 | 2020-07-24

Alexa調(diào)整網(wǎng)站排名統(tǒng)計(jì)方式關(guān)注網(wǎng)民上網(wǎng)習(xí)慣

felixwoo | 2008-04-17

亞馬遜Echo接入教程

Gizwits | 2016-12-15

基于聯(lián)合得分的連續(xù)語(yǔ)音識(shí)別確認(rèn)方法

資源下載似然比檢驗(yàn) 備擇模型語(yǔ)音確認(rèn) 語(yǔ)音識(shí)別 | 2007-04-19

利用MEMS麥克風(fēng)陣列定位并識(shí)別音頻或語(yǔ)音信源的技術(shù)方案

設(shè)計(jì)方案 ARM處理器 MEMS STM32F4 語(yǔ)音識(shí)別 | 2015-03-23

基于Infineon SoC藍(lán)牙CYW20835之智能遙控器方案

物聯(lián)網(wǎng)與傳感器英飛凌藍(lán)牙 BT 遙控器紅外信號(hào) 傳感器語(yǔ)音識(shí)別 2.4g 語(yǔ)音遙控 cyw20835 | 2023-08-02

語(yǔ)音識(shí)別在遙控系統(tǒng)中的應(yīng)用設(shè)計(jì)

資源下載語(yǔ)音識(shí)別 DTW FED FRED 學(xué)習(xí)型遙控器 | 2007-04-19

談?wù)劗?dāng)前：離線(xiàn)語(yǔ)音識(shí)別與在線(xiàn)語(yǔ)音識(shí)別的優(yōu)缺點(diǎn)

白嶺 | 2020-02-18

新一代語(yǔ)音識(shí)別：可徹底改變車(chē)內(nèi)體驗(yàn)的技術(shù)

汽車(chē)電子語(yǔ)音識(shí)別生物識(shí)別人工智能 | 2024-07-18

焦點(diǎn)

推薦視頻

技術(shù)專(zhuān)區(qū)