英特爾:GPU 已過時,Nvidia 的人工智能之路會越來越難
剛剛上任的英特爾人工智能事業(yè)部(AIPG)首席技術長 Amir Khosrowshahi 表示,目前所使用 GPU 等級太低了,半導體產(chǎn)業(yè)需要構建全新的神經(jīng)網(wǎng)絡架構。
本文引用地址:http://cafeforensic.com/article/201704/346422.htm在出任這個新職位之前,Khosrowshahi 是 Nervana System(下簡稱 Nervana) 的聯(lián)合創(chuàng)始人兼首席技術長,Nervana 于 2016 年 8 月被英特爾收購,但并未對外披露具體的收購金額。 Nervana 利用最先進的技術來使用 GPU,而且還自行研發(fā)替代了標準的 Nvidia 匯編程序,從而讓 Nervana 能夠生成「次優(yōu)」的架構體系。 在英特爾大力部署人工智能戰(zhàn)略的大背景下,該公司所能提供的技術迅速成為了發(fā)展的核心力量。
Khosrowshahi 本周四向 ZDNet 透露:「早在 Nervana 成立之初我們就著手研發(fā)自己的匯編程序,當時只是為了我們自己的研發(fā)需求,不過后來我們發(fā)現(xiàn)它要比 Nvidia 官方的庫存快兩到三倍,所以我們就將其開源了。 」
Nervana 并不僅僅在軟件方面發(fā)力,而且還創(chuàng)建了自己的目標向神經(jīng)網(wǎng)絡訓練。
他說道:「神經(jīng)網(wǎng)絡是預先設定好操作的系列整合。 它并不像人類和系統(tǒng)之間的互動,而是被描述為數(shù)據(jù)流的系列指令集。 」
Khosrowshahi 表示,在執(zhí)行圖形渲染過程中輔助圖形處理單元的部分功能是沒有必要的,比如大容量暫存、頂點著色處理、 渲染和紋理等。 他表示:「GPU 中的大部分電路在部署機器學習之后是沒有必要的... 這些東西會隨著時間的推移而不斷積累,最終產(chǎn)生了非常多無用的東西。 」
他進一步解釋:「對你來說并不需要的電路,在 GPU 芯片中不僅占據(jù)了很大一片空間,而且從能源利用率上考慮也產(chǎn)生了相當高的成本。 神經(jīng)網(wǎng)絡則相當簡單,利用小巧的矩陣乘法和非線性就能直接創(chuàng)建半導體來實現(xiàn) GPU 的功能,而且你所創(chuàng)建的半導體非常忠誠于神經(jīng)網(wǎng)絡架構,顯然這是 GPU 所無法給予的。 」在設計思路上,CPU 有復雜的控制邏輯和諸多優(yōu)化電路,相比之下計算能力只是 CPU 很小的一部分;而 GPU 采用了數(shù)量眾多的計算單元和超長的流水線,但只有非常簡單的控制邏輯并省去了快取,因而在需要大量計算的機器學習方面表現(xiàn)更好,而TPU則是專為機器學習的矩陣乘法設計和優(yōu)化,因而在機器學習方面比 GPU 更勝一籌。
Khosrowshahi 給出的答案:就是目前尚在開發(fā)中的 Lake Crest,這是英特爾今年會針對部分客戶提供離散加速器。 但伴隨著時間的推移,它將會成為 Xeon 處理器的最佳伙伴。
Khosrowshahi 解釋:「這是一個張量(tensor)處理器,能夠處理帶矩陣運算的指令。 因此指令集是矩陣 1 和矩陣 2 的相乘,不僅透過查詢表運行而且這些大型的指令都是高級別的。 」
「GPU 主要依靠一個個寄存器(Register),當訪問(或者跳轉(zhuǎn)到)某個寄存器,所執(zhí)行的是元素和元素之間的相乘,這個級別是相當?shù)牡土恕?」
Khosrowshahi 表示,最近幾年 Nvidia 已經(jīng)努力讓他們的 GPU 對神經(jīng)網(wǎng)絡更加友善,但是他們的 AI 芯片依然承擔了大量圖形功能。 他表示:「如果只是依靠自己來推動芯片方面的改進,我認為未來 Nvidia 的進化將會變得越來越困難。 」
與之對應的,英特爾則通過收購的方式來推進人工智能。
Khosrowshahi 說:「芯片產(chǎn)業(yè)的挑戰(zhàn)是即將迎來顛覆性的全新架構:而現(xiàn)在英特爾所做的事情就是將其收入麾下。 他們想要獲得 FPGAs(現(xiàn)場可程序邏輯門數(shù)組),所以他們收購了 Altera。 這真的是一個非??犰欧浅I窠?jīng)網(wǎng)絡的架構。 」
此外 Khosrowshahi 還糾正了很多人對神經(jīng)網(wǎng)絡的錯誤想法,他表示并不是將神經(jīng)網(wǎng)絡蝕刻到半導體上,大部分的功能依然通過軟件方面來形成。
他說道:「神經(jīng)網(wǎng)絡大部分都體現(xiàn)在軟件方面。 所以即使是 Lake Crest,指令并不是『神經(jīng)網(wǎng)絡,執(zhí)行這項任務』,而是透過矩陣和矩陣的相乘。 芯片外層部分就是一些我們所熟知的神經(jīng)網(wǎng)絡,在經(jīng)過培訓之后能夠根據(jù)用戶需求來執(zhí)行各種任務或者搜尋某種參數(shù),當你擁有神經(jīng)網(wǎng)絡之后你就能做任何可以完成的事情。 」
英特爾的其中一個人工智能架構將會對抗 Google 的定制 TPU。 在 4 月 5 日搜尋龍頭 Google 表示, TPU 的平均運轉(zhuǎn)速度要比標準的 GPU/CPU 組合(比如 Intel 的 Haswell 處理器和 Nvidia 的 K80 GPU)快 15~30 倍。 在數(shù)據(jù)中心計算功耗時,TPU 還提供 30-80 倍的 TeraOps/瓦特(如果未來使用更快的儲存裝置,這一數(shù)字可能還會提高)。
同樣在今年 4 月 5 日,IBM 和 Nvidia 還宣布 Big Blue 在今年 5 月開始向特斯拉 P100S 提供 IBM Cloud 服務。
評論