美光高性能內(nèi)存與存儲(chǔ),推動(dòng) AI 豐富殘障人士生活體驗(yàn)
美光云計(jì)算高級(jí)業(yè)務(wù)發(fā)展經(jīng)理 Eric Booth 90 歲的祖母患有嚴(yán)重的聽力障礙,即使佩戴助聽器也很難聽清別人在說什么。Eric 注意到,她需要湊近講話者,識(shí)別他們的唇語,努力理解他們的話語。而當(dāng)多人進(jìn)行交談時(shí),她常常會(huì)感到迷茫。
本文引用地址:http://cafeforensic.com/article/202312/453661.htmEric 萌生了一個(gè)想法:
為何不用祖母的智能手機(jī)幫她來“傾聽”呢?
他打開手機(jī)的記事簿功能,按下麥克風(fēng)按鈕,向她展示了手機(jī)如何將他的話轉(zhuǎn)錄成屏幕上的文字。
他表示:“我的祖母非常興奮,笑得合不攏嘴,她現(xiàn)在可以參與到從前無法進(jìn)行的對(duì)話中?!边@也讓我們看到了該技術(shù)如何切實(shí)改善了言語、語言和聽力障礙者的生活質(zhì)量。”
將語音轉(zhuǎn)化成文本的技術(shù)看似簡(jiǎn)單,卻很容易被忽視。事實(shí)上,它的演變過程十分復(fù)雜,歷經(jīng)幾十年的發(fā)展才達(dá)到現(xiàn)有水平。
快速發(fā)展的技術(shù)
距第一臺(tái)語音識(shí)別 (SR) 設(shè)備 Audrey 的問世已經(jīng)過了很久。1962 年,貝爾實(shí)驗(yàn)室推出了 Audrey,當(dāng)時(shí)這臺(tái)約 2 米高的計(jì)算機(jī)只能識(shí)別個(gè)位數(shù)字,且無法輸出文字。它會(huì)根據(jù)說出的數(shù)字閃爍相應(yīng)次數(shù)的燈光,例如聽到“9”時(shí)閃爍九次。
甚至幾年前,SR 技術(shù)還不方便用戶使用:它難以準(zhǔn)確識(shí)別聲音,無法過濾即使最輕微的環(huán)境聲,轉(zhuǎn)錄速度也很慢。彼時(shí),SR 技術(shù)想真正融入日常生活,還有很長(zhǎng)的路要走。
如今,人工智能、虛擬助理技術(shù)、5G 蜂窩技術(shù)與內(nèi)存、存儲(chǔ)和計(jì)算機(jī)處理技術(shù)的進(jìn)步使 SR 成為可能,幫助我們實(shí)現(xiàn)許多從前做不到的事情:比如用陌生的語言進(jìn)行交流,即時(shí)轉(zhuǎn)錄長(zhǎng)錄音,只通過語音就能訂購我們想要的任何東西并享受送貨上門。
生成式 AI 正進(jìn)一步提升該技術(shù)。語音識(shí)別將音頻轉(zhuǎn)化為文字,而生成式 AI 則對(duì)文字進(jìn)行處理,讓用戶真正理解其含義。SR 技術(shù)不再僅聚焦于識(shí)別說了什么?而是專注于理解這些話是什么意思?是在提問嗎?如果是,答案是什么?
這種類型的機(jī)器學(xué)習(xí)能根據(jù)用戶提示或?qū)υ拕?chuàng)建文本、視頻、圖像、計(jì)算機(jī)代碼和其他內(nèi)容。以語音識(shí)別為基礎(chǔ)的生成式 AI 將學(xué)習(xí)提升到了全新水平,賦能 SR 技術(shù)以進(jìn)一步幫助言語和聽力障礙人士。
盡管靈活的語音識(shí)別可能會(huì)接收到不符合常規(guī)語音模式的語言,但生成式 AI 和自然語言處理 (NLP) 能理解并將其轉(zhuǎn)化為相關(guān)建議。這一過程使全面且高度個(gè)性化的語言治療方案成為可能。
Eric 的女兒曾接受語言治療,他深知其所需的時(shí)間和精力。這一經(jīng)歷促使他攻讀位于愛達(dá)荷州的博伊西州立大學(xué)的博士課程,以研究利用技術(shù)幫助語言障礙患兒的方法。
Eric 表示:“在語言治療中,過去我們認(rèn)為治療師會(huì)給患者提供閱讀內(nèi)容并利用工具對(duì)他們的發(fā)音和吐字進(jìn)行評(píng)分。但借助生成式 AI,我們能用工具來管理整個(gè)過程。生成式 AI 擅長(zhǎng)識(shí)別各種語言模式,因此能更好地判斷出患者是否經(jīng)常發(fā)錯(cuò) O 音?!?/p>
大語言模型
不久前,語音識(shí)別還需依賴大型內(nèi)存服務(wù)器,并將收集到的全部數(shù)據(jù)上傳云端。而如今,語音識(shí)別功能已內(nèi)置在手機(jī)中,具有更快的計(jì)算速度和更大的內(nèi)存,過去需要數(shù)據(jù)中心處理的流程現(xiàn)在能夠直接在手機(jī)上進(jìn)行。
AI 模型訓(xùn)練不僅能生成更復(fù)雜的模型,還可以將這些模型簡(jiǎn)化,從而在手機(jī)或個(gè)人電腦等終端設(shè)備上運(yùn)行。很快,生成式 AI 程序就會(huì)出現(xiàn)在您的手機(jī)或其他終端設(shè)備上。隨著大語言模型的快速發(fā)展,他們難以在云環(huán)境之外進(jìn)行訓(xùn)練。然而,一旦模型通過訓(xùn)練并進(jìn)行簡(jiǎn)化后,就能轉(zhuǎn)移到終端設(shè)備上。
過去幾年,大語言模型取得了巨大進(jìn)步。Eric 表示:“大語言模型擁有數(shù)萬億個(gè)參數(shù),是實(shí)現(xiàn)生成式 AI 聊天機(jī)器人和高級(jí)搜索功能的關(guān)鍵。幾年前,萬億級(jí)的參數(shù)量難以想象,我們根本無法處理,而如今,這一數(shù)字已是基準(zhǔn)線。當(dāng)然,模型越大,就越智能,這正是拉動(dòng)計(jì)算和內(nèi)存需求的因素?!?/p>
NLP 和生成式 AI 需要大量大語言模型訓(xùn)練,其所使用的參數(shù)越多,所需的內(nèi)存容量就越大(見下圖)。
為了處理這些不斷擴(kuò)大的模型,遷移學(xué)習(xí)越來越流行。該思路是在一個(gè)特定的環(huán)境中使用大量數(shù)據(jù)訓(xùn)練模型,然后對(duì)該模型的參數(shù)進(jìn)行微調(diào)以適應(yīng)另一個(gè)具有較小數(shù)據(jù)集的環(huán)境。假設(shè)大的數(shù)據(jù)集是成人語音,小的數(shù)據(jù)集是兒童語音,遷移學(xué)習(xí)可以提供一個(gè)精準(zhǔn)匹配兩個(gè)數(shù)據(jù)集的模型。而如果您想訓(xùn)練的模型是以成人語音為主,同時(shí)包括少量的兒童語音,那么準(zhǔn)確性就會(huì)降低。在一種環(huán)境中進(jìn)行大數(shù)據(jù)集訓(xùn)練,然后將數(shù)據(jù)微調(diào)并轉(zhuǎn)移到另一個(gè)具有較少數(shù)據(jù)的環(huán)境中,這一組合非常有效。Eric 在他的論文《評(píng)估和改進(jìn)兒童定向自動(dòng)語音識(shí)別》中闡釋了關(guān)于這方面的進(jìn)展。
預(yù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)遵循了同樣的思路,在一個(gè)任務(wù)或數(shù)據(jù)集上訓(xùn)練模型,然后將這些參數(shù)轉(zhuǎn)移到另一個(gè)任務(wù)或數(shù)據(jù)集上進(jìn)行不同的模型訓(xùn)練。以 ChatGPT 為例,(ChatGPT? 中的“P”代表預(yù)訓(xùn)練),它通過大量互聯(lián)網(wǎng)對(duì)話數(shù)據(jù)進(jìn)行了預(yù)訓(xùn)練,因此能夠回答常規(guī)問題,并能根據(jù)提供給它的額外語境來更好地適應(yīng)當(dāng)前對(duì)話。這為該模型發(fā)展提供了有利條件,避免了從零開始,因?yàn)槟恍枭倭繑?shù)據(jù)就能創(chuàng)建強(qiáng)大的模型。
如今,許多 AI 研究人員都專注于生成式 AI。這不僅源于 ChatGPT 所帶動(dòng)的熱潮,還因?yàn)樯墒?AI 在醫(yī)療保健和其他行業(yè)具有潛在的深遠(yuǎn)影響。
為所需之人提供幫助
根據(jù)美國言語語言聽力協(xié)會(huì) (American Speech-Language-Hearing Association) 的數(shù)據(jù),美國有超過 100 萬兒童在學(xué)校接受專業(yè)的言語和語言障礙幫助。Eric 表示,總體而言,8% 的兒童存在語言發(fā)育遲緩或障礙問題。
“您當(dāng)前無法在市場(chǎng)上接觸到兒童言語治療技術(shù)。因?yàn)樵摷夹g(shù)尚未實(shí)現(xiàn),但它尤為重要,尤其對(duì)低收入家庭的患兒而言?!盓ric 表示,對(duì)兒童進(jìn)行治療評(píng)估至少需要兩小時(shí),但美國政府可能只會(huì)承擔(dān) 30 分鐘的費(fèi)用。
“電腦可以承擔(dān)很多工作,為治療師騰出時(shí)間來做更長(zhǎng)遠(yuǎn)的規(guī)劃和更有針對(duì)性的治療?!?/p>
學(xué)習(xí)障礙資源基金會(huì) (Learning Disabilities Resources Foundation) 認(rèn)為,患有學(xué)習(xí)障礙(如閱讀障礙)的兒童也可受益于語音轉(zhuǎn)錄文字技術(shù)。正如巧妙地利用語音轉(zhuǎn)錄文字技術(shù)幫助 Eric 的祖母參與到交談中,這項(xiàng)關(guān)鍵 AI 技術(shù)還有大量尚待開發(fā)和探索的應(yīng)用空間。
賦能生成式 AI 和SR 技術(shù)發(fā)展
如今,美光正在開發(fā)密度更高、速度更快的內(nèi)存和存儲(chǔ),助力手機(jī)取代云端直接進(jìn)行語言處理,以節(jié)省數(shù)據(jù)傳輸時(shí)間。
為了提升終端設(shè)備的性能,美光低功耗 LPDDR5X 內(nèi)存具有雙倍數(shù)據(jù)傳輸速率,可實(shí)現(xiàn)功耗與性能的平衡和流暢的用戶體驗(yàn)。LPDDR5X 移動(dòng)內(nèi)存采用了業(yè)界先進(jìn)技術(shù),峰值速度可達(dá) 8.533 GB/秒,較上一代產(chǎn)品提高 33%。LPDDR5X 的高速與高帶寬對(duì)于實(shí)現(xiàn)高性能終端生成式 AI 至關(guān)重要。
借助生成式 AI,SR 技術(shù)的處理速度和準(zhǔn)確度逐漸接近人腦,但距離真正實(shí)現(xiàn)目標(biāo)還存在較大困難,尤其是在處理兒童語言和發(fā)音問題,以及幫助聽力或語言障礙者。Eric 正在進(jìn)行的研究能夠切實(shí)改善生成式 AI 技術(shù),豐富全人類生活體驗(yàn)。
生成式 AI 通過深度學(xué)習(xí)正在將語音轉(zhuǎn)化為更加自然的文字。過去,AI 模型擅長(zhǎng)挖掘大量數(shù)據(jù)、識(shí)別模式、診斷并確定原因;如今,生成式 AI 能夠“讀取”文字,并通過數(shù)據(jù)推斷人類交流的語境。本質(zhì)上,生成式 AI 是在“訓(xùn)練”自己。為了做到這一點(diǎn),AI 需要能同時(shí)訪問并獲取大量數(shù)據(jù),并從海量?jī)?nèi)存中提取數(shù)據(jù)以做出適當(dāng)?shù)捻憫?yīng)。美光正在積極推動(dòng)這些技術(shù)進(jìn)步。
美光高密度 DDR5 DRAM 模塊和 TB 級(jí) SSD 存儲(chǔ)可提供超高速度與超高帶寬,滿足在數(shù)據(jù)中心訓(xùn)練生成式 AI 模型的需求。最新發(fā)布的第二代 HBM3 (HBM3E) 進(jìn)一步提升了性能,容量擴(kuò)大超過 50% ,帶寬超過 1.2 TB/秒,可將百萬億級(jí)參數(shù)的 AI 模型訓(xùn)練時(shí)間縮短 30% 以上。隨著這些技術(shù)的速度和準(zhǔn)確度不斷提高,未來,更多的語言障礙人士將能進(jìn)行正常的溝通,發(fā)出自己的聲音。
Eric 預(yù)測(cè):“在不久的將來,我們將看到生成式 AI 和 SR 技術(shù)在性能上取得飛躍式發(fā)展。我很高興能看到這項(xiàng)技術(shù)不斷豐富全人類生活體驗(yàn)。”
評(píng)論