AI芯片的過(guò)去和未來(lái),看這篇文章就夠了
同樣在2016年,谷歌發(fā)布了加速深度學(xué)習(xí)的TPU(TensorProcessingUnit)芯片,并且之后升級(jí)為TPU2.0和TPU3.0。與英偉達(dá)的芯片不同,谷歌的TPU芯片設(shè)置在云端,就像文章在Alpha Go的例子中說(shuō)的一樣,并且“只租不賣“,服務(wù)按小時(shí)收費(fèi)。不過(guò)谷歌TPU的性能也十分強(qiáng)大,算力達(dá)到180萬(wàn)億次每秒,并且功耗只有200w。
本文引用地址:http://cafeforensic.com/article/201811/393690.htm谷歌TPU芯片 圖片來(lái)自網(wǎng)絡(luò),版權(quán)屬于作者
關(guān)于各自AI芯片的性能,谷歌CEOSundarPichai和英偉達(dá)CEO黃仁勛之前還在網(wǎng)上產(chǎn)生過(guò)爭(zhēng)論。別看兩位大佬為自家產(chǎn)品撐腰,爭(zhēng)得不可開(kāi)交,實(shí)際上不少網(wǎng)友指出,這兩款產(chǎn)品沒(méi)必要“硬做比較”,因?yàn)橐粋€(gè)是在云端,一個(gè)是在終端。
除了大公司,初創(chuàng)企業(yè)也在激烈競(jìng)爭(zhēng)ASIC芯片市場(chǎng)。那么初創(chuàng)企業(yè)在行業(yè)中該如何生存呢?對(duì)此,AI芯片初創(chuàng)企業(yè) Novumind的中國(guó)區(qū)CEO周斌告訴小探:創(chuàng)新是初創(chuàng)企業(yè)的核心競(jìng)爭(zhēng)力。
2017年,NovuMind推出了第一款自主設(shè)計(jì)的AI芯片:NovuTensor。這款芯片使用原生張量處理器(NativeTensorProcessor)作為內(nèi)核構(gòu)架,這種內(nèi)核架構(gòu)由NovuMind自主研發(fā),并在短短一年內(nèi)獲得美國(guó)專利。除此之外,NovuTensor芯片采用不同的異構(gòu)計(jì)算模式來(lái)應(yīng)對(duì)不同AI應(yīng)用領(lǐng)域的三維張量計(jì)算。2018年下半年,Novumind剛推出了新一代NovuTensor芯片,這款芯片在做到15萬(wàn)億次計(jì)算每秒的同時(shí),全芯片功耗控制在15W左右,效率極高。
Novumind的NovuTensor芯片
盡管NovuTensor芯片的紙面算力不如英偉達(dá)的芯片,但是其計(jì)算延遲和功耗卻低得多,因此適合邊緣端AI計(jì)算,也就是服務(wù)于物聯(lián)網(wǎng)。雖然大家都在追求高算力,但實(shí)際上不是所有芯片都需要高算力的。比如用在手機(jī)、智能眼鏡上的芯片,雖然也對(duì)算力有一定要求,但更需要的是低能耗,否則你的手機(jī)、智能眼鏡等產(chǎn)品,用幾下就沒(méi)電了,也是很麻煩的一件事情。并且據(jù)EETimes的報(bào)道,在運(yùn)行ResNet-18、ResNet-34、ResNet70、VGG16等業(yè)界標(biāo)準(zhǔn)神經(jīng)網(wǎng)絡(luò)推理時(shí),NovuTensor芯片的吞吐量和延遲都要優(yōu)于英偉達(dá)的另一款高端芯片Xavier。
結(jié)合Novumind現(xiàn)階段的成功,我們不難看出:在云端市場(chǎng)目前被英偉達(dá)、谷歌等巨頭公司霸占,終端應(yīng)用芯片群雄逐鹿的情形下,專注技術(shù)創(chuàng)新,在關(guān)鍵指標(biāo)上大幅領(lǐng)先所有競(jìng)爭(zhēng)對(duì)手,或許是AI芯片初創(chuàng)企業(yè)的生存之道。
類腦芯片
如文章開(kāi)頭所說(shuō),目前所有電腦,包括以上談到的所有芯片,都基于馮·諾依曼架構(gòu)。
然而這種架構(gòu)并非十全十美。將CPU與內(nèi)存分開(kāi)的設(shè)計(jì),反而會(huì)導(dǎo)致所謂的馮·諾伊曼瓶頸(von Neumann bottleneck):CPU與內(nèi)存之間的資料傳輸率,與內(nèi)存的容量和CPU的工作效率相比都非常小,因此當(dāng)CPU需要在巨大的資料上執(zhí)行一些簡(jiǎn)單指令時(shí),資料傳輸率就成了整體效率非常嚴(yán)重的限制。
既然要研制人工智能芯片,那么有的專家就回歸問(wèn)題本身,開(kāi)始模仿人腦的結(jié)構(gòu)。
人腦內(nèi)有上千億個(gè)神經(jīng)元,而且每個(gè)神經(jīng)元都通過(guò)成千上萬(wàn)個(gè)突觸與其他神經(jīng)元相連,形成超級(jí)龐大的神經(jīng)元回路,以分布式和并發(fā)式的方式傳導(dǎo)信號(hào),相當(dāng)于超大規(guī)模的并行計(jì)算,因此算力極強(qiáng)。人腦的另一個(gè)特點(diǎn)是,不是大腦的每個(gè)部分都一直在工作,從而整體能耗很低。
神經(jīng)元結(jié)構(gòu) 圖片來(lái)源:維基百科
這種類腦芯片跟傳統(tǒng)的馮·諾依曼架構(gòu)不同,它的內(nèi)存、CPU和通信部件是完全集成在一起,把數(shù)字處理器當(dāng)作神經(jīng)元,把內(nèi)存作為突觸。除此之外,在類腦芯片上,信息的處理完全在本地進(jìn)行,而且由于本地處理的數(shù)據(jù)量并不大,傳統(tǒng)計(jì)算機(jī)內(nèi)存與CPU之間的瓶頸不復(fù)存在了。同時(shí),神經(jīng)元只要接收到其他神經(jīng)元發(fā)過(guò)來(lái)的脈沖,這些神經(jīng)元就會(huì)同時(shí)做動(dòng)作,因此神經(jīng)元之間可以方便快捷地相互溝通。
在類腦芯片的研發(fā)上,IBM是行業(yè)內(nèi)的先行者。2014年IBM發(fā)布了TrueNorth類腦芯片,這款芯片在直徑只有幾厘米的方寸的空間里,集成了4096個(gè)內(nèi)核、100萬(wàn)個(gè)“神經(jīng)元”和2.56億個(gè)“突觸”,能耗只有不到70毫瓦,可謂是高集成、低功耗的完美演繹。
裝有16個(gè)TrueNorth芯片的DARPASyNAPSE主板 圖片來(lái)自網(wǎng)絡(luò),版權(quán)屬于作者
那么這款芯片的實(shí)戰(zhàn)表現(xiàn)如何呢?IBM研究小組曾經(jīng)利用做過(guò)DARPA的NeoVision2Tower數(shù)據(jù)集做過(guò)演示。它能以30幀每秒速度,實(shí)時(shí)識(shí)別出街景視頻中的人、自行車、公交車、卡車等,準(zhǔn)確率達(dá)到了80%。相比之下,一臺(tái)筆記本編程完成同樣的任務(wù)用時(shí)要慢100倍,能耗卻是IBM芯片的1萬(wàn)倍。
然而目前類腦芯片研制的挑戰(zhàn)之一,是在硬件層面上模仿人腦中的神經(jīng)突觸,換而言之就是設(shè)計(jì)完美的人造突觸。
在現(xiàn)有的類腦芯片中,通常用施加電壓的方式來(lái)模擬神經(jīng)元中的信息傳輸。但存在的問(wèn)題是,由于大多數(shù)由非晶材料制成的人造突觸中,離子通過(guò)的路徑有無(wú)限種可能,難以預(yù)測(cè)離子究竟走哪一條路,造成不同神經(jīng)元電流輸出的差異。
針對(duì)這個(gè)問(wèn)題,今年麻省理工的研究團(tuán)隊(duì)制造了一種類腦芯片,其中的人造突觸由硅鍺制成,每個(gè)突觸約25納米。對(duì)每個(gè)突觸施加電壓時(shí),所有突觸都表現(xiàn)出幾乎相同的離子流,突觸之間的差異約為4%。與無(wú)定形材料制成的突觸相比,其性能更為一致。
即便如此,類腦芯片距離人腦也還有相當(dāng)大的距離,畢竟人腦里的神經(jīng)元個(gè)數(shù)有上千億個(gè),而現(xiàn)在最先進(jìn)的類腦芯片中的神經(jīng)元也只有幾百萬(wàn)個(gè),連人腦的萬(wàn)分之一都不到。因此這類芯片的研究,離成為市場(chǎng)上可以大規(guī)模廣泛使用的成熟技術(shù),還有很長(zhǎng)的路要走,但是長(zhǎng)期來(lái)看類腦芯片有可能會(huì)帶來(lái)計(jì)算體系的革命。
說(shuō)了這么多,相信讀者們對(duì)AI芯片行業(yè)已經(jīng)有了基本的認(rèn)識(shí)。在未來(lái),AI芯片是否會(huì)從云端向終端發(fā)展?行業(yè)中大小公司的激烈的競(jìng)爭(zhēng)會(huì)催生出怎樣的創(chuàng)新和轉(zhuǎn)型?類腦芯片的研發(fā)又能取得哪些突破?關(guān)于這些問(wèn)題,每個(gè)人都會(huì)有不同的見(jiàn)解,歡迎各位讀者在下面留言。
評(píng)論