色婷婷AⅤ一区二区三区|亚洲精品第一国产综合亚AV|久久精品官方网视频|日本28视频香蕉

          新聞中心

          EEPW首頁(yè) > 嵌入式系統(tǒng) > 業(yè)界動(dòng)態(tài) > 谷歌TPU研究論文:專(zhuān)注神經(jīng)網(wǎng)絡(luò)專(zhuān)用處理器

          谷歌TPU研究論文:專(zhuān)注神經(jīng)網(wǎng)絡(luò)專(zhuān)用處理器

          作者: 時(shí)間:2017-04-10 來(lái)源:機(jī)器之心 收藏

            

          本文引用地址:http://cafeforensic.com/article/201704/346340.htm
          【論文】谷歌硬件工程師:數(shù)據(jù)中心的 TPU 性能分析

            圖 2: 芯片布局圖。陰影同圖 1。藍(lán)色的數(shù)據(jù)緩存占芯片的 37%。黃色的計(jì)算是 30%。綠色的I/O 是 10%。紅色的控制只有 2%。CPU 或 GPU 中的控制部分則要大很多(并且非常難以設(shè)計(jì))。

            

          【論文】谷歌硬件工程師:數(shù)據(jù)中心的 TPU 性能分析

            圖3:印制電路板??梢圆迦敕?wù)器 SATA 盤(pán)的卡槽,但是該卡使用了 PCIe Gen3 x16 接口。

            

          【論文】谷歌硬件工程師:數(shù)據(jù)中心的 TPU 性能分析

            圖4:矩陣乘法單元的 systolic 數(shù)據(jù)流。軟件具有每次讀取 256B 輸入的錯(cuò)覺(jué),同時(shí)它們會(huì)立即更新 256 個(gè)累加器 RAM 中其中每一個(gè)的某個(gè)位置。

            

          【論文】谷歌硬件工程師:數(shù)據(jù)中心的 TPU 性能分析

            表2:  與英特爾 Haswell E5-2699 v3、英偉達(dá)Tesla K80 的性能對(duì)比。E5 有 18 個(gè)核,K80 有 13 個(gè) SMX 處理器。圖 10 已經(jīng)測(cè)量了功率。低功率 TPU 比高功率 GPU 能夠更好地匹配機(jī)架(rack)級(jí)密度。每個(gè) TPU 的 8 GiB DRAM 是權(quán)重內(nèi)存(Weight Memory)。這里沒(méi)有使用 GPU Boost 模式。SECDEC 和非 Boost 模式把 K80 帶寬從 240 降至 160。非 Boost 模式和單裸片 vs 雙裸片性能把 K80 峰值 TOPS 從 8.7 降至 2.8(*TPU 壓模小于等于半個(gè) Haswell 壓模大小)。

            

          【論文】谷歌硬件工程師:數(shù)據(jù)中心的 TPU 性能分析

            圖5:TPU (die) roofline。 其脊點(diǎn)位于所獲權(quán)重內(nèi)存每字節(jié)運(yùn)行 1350 次的地方,距離右邊還比較遠(yuǎn)。

            

          【論文】谷歌硬件工程師:數(shù)據(jù)中心的 TPU 性能分析

            表格3:TPU 在神經(jīng)網(wǎng)絡(luò)工作載荷中性能受到限制的因素,根據(jù)硬件性能計(jì)數(shù)器顯示的結(jié)果。1,4,5,6行,總共100%,以矩陣單元活動(dòng)的測(cè)量結(jié)果為基礎(chǔ)。2,3行進(jìn)一步分解為64K權(quán)重的部分,我們的計(jì)數(shù)器無(wú)法準(zhǔn)確解釋矩陣單元何時(shí)會(huì)停頓在第6行中;7、8行展示了計(jì)數(shù)器結(jié)果,可能有兩個(gè)原因,包括RAW管道危害,PCIe輸入停止。9行(TOPS)是以產(chǎn)品代碼的測(cè)量結(jié)果為基礎(chǔ)的,其他列是以性能計(jì)數(shù)器的測(cè)量結(jié)果為基礎(chǔ)的,因此,他們并不是那么完美保持一致。這里并未包括頂部主服務(wù)器。MLP以及LSTM內(nèi)存帶寬有限,但是CNN不是。CNN1的測(cè)試結(jié)果會(huì)在文中加以分析。

            

          【論文】谷歌硬件工程師:數(shù)據(jù)中心的 TPU 性能分析

            圖 9:GPU 服務(wù)器(藍(lán)條)對(duì)比 CPU、TPU 服務(wù)器(紅條)對(duì)比 CPU、TPU 服務(wù)器對(duì)比 GPU(橘黃)的相對(duì)性能表現(xiàn)/Watt(TDP)。TPU' 是改進(jìn)版的 TPU(Sec.7)。綠條顯示了對(duì)比 CPU 服務(wù)器的比例,淡紫色顯示了與 GPU 服務(wù)器的關(guān)系。整體包括了主服務(wù)器的能耗,但不包括增量(incremental)。GM 和 WM 分別是幾何學(xué)圖形與加權(quán)平均值。

            

          【論文】谷歌硬件工程師:數(shù)據(jù)中心的 TPU 性能分析

            圖10:CNN0 平臺(tái)的單位功耗對(duì)比,其中紅色和橙色線(xiàn)是 GPU 加 CPU 系統(tǒng)的功率。藍(lán)色是英特爾 E5-2699 v3 Haswell CPU 的功率,綠色是英偉達(dá) Tesla K80 的功率,紫色為 TPU。每個(gè)服務(wù)器通常有多個(gè)芯片組,以上所有數(shù)字都已被整除成單芯片功率。

            

          【論文】谷歌硬件工程師:數(shù)據(jù)中心的 TPU 性能分析

            圖11:加權(quán)平均 TPU 性能作為度量單元,從 0.25 倍擴(kuò)展到了 4 倍:內(nèi)存帶寬,時(shí)鐘頻率+累加器,時(shí)鐘頻率,矩陣單元維度+累加器,以及矩陣單元維度。加權(quán)均值使得我們很難看出單個(gè) DNN 的貢獻(xiàn),但是,MLP 以及 LSTM 提升了 3 倍到 4 倍的內(nèi)存帶寬,但是,更高的時(shí)鐘頻率并沒(méi)帶來(lái)任何效果。對(duì)于 CNN 來(lái)說(shuō),結(jié)果反之亦然;4 倍的時(shí)鐘率,2 倍的效果。但是,更快的內(nèi)存并沒(méi)帶來(lái)什么好處。一個(gè)更大的矩陣乘法單元并不能對(duì)任何 DNN 有幫助。


          上一頁(yè) 1 2 下一頁(yè)

          關(guān)鍵詞: 谷歌 TPU

          評(píng)論


          相關(guān)推薦

          技術(shù)專(zhuān)區(qū)

          關(guān)閉