色婷婷AⅤ一区二区三区|亚洲精品第一国产综合亚AV|久久精品官方网视频|日本28视频香蕉

          新聞中心

          EEPW首頁 > 智能計算 > 業(yè)界動態(tài) > 國內(nèi)AI芯片百家爭鳴,何以抗衡全球技術(shù)寡頭

          國內(nèi)AI芯片百家爭鳴,何以抗衡全球技術(shù)寡頭

          作者: 時間:2018-04-04 來源:中科院自動化所集成中心 收藏
          編者按:在人工智能芯片領(lǐng)域,國外芯片巨頭占據(jù)了絕大部分市場份額,不論是在人才聚集還是公司合并等方面,都具有絕對的領(lǐng)先優(yōu)勢。而國內(nèi)人工智能初創(chuàng)公司則又呈現(xiàn)百家爭鳴、各自為政的紛亂局面。

            對標(biāo)谷歌 TPU——比特大陸算豐

          本文引用地址:http://cafeforensic.com/article/201804/377915.htm

            作為比特幣獨角獸的比特大陸,在 2015 年開始涉足人工智能領(lǐng)域,其在 2017 年發(fā)布的面向 應(yīng)用的張量處理器算豐 Sophon BM1680,是繼谷歌 TPU 之后,全球又一款專門用于張量計算加速的專用芯片(ASIC),適用于 CNN / RNN / DNN 的訓(xùn)練和推理。

          blob.png

            BM1680 單芯片能夠提供 2TFlops 單精度加速計算能力,芯片由 64 NPU 構(gòu)成,特殊設(shè)計的 NPU 調(diào)度引擎(Scheduling Engine)可以提供強大的數(shù)據(jù)吞吐能力,將數(shù)據(jù)輸入到神經(jīng)元核心(Neuron Processor Cores)。BM1680 采用改進型脈動陣列結(jié)構(gòu)。2018 年比特大陸將發(fā)布第 2 代算豐 芯片 BM1682,計算力將有大幅提升。

            百家爭鳴——百度、地平線及其他

            在 2017 年的 HotChips 大會上,百度發(fā)布了XPU,這是一款 256 核、基于 FPGA 的云計算加速芯片,用于百度的人工智能、數(shù)據(jù)分析、云計算以及無人駕駛業(yè)務(wù)。在會上,百度研究員歐陽劍表示,百度設(shè)計的芯片架構(gòu)突出多樣性,著重于計算密集型、基于規(guī)則的任務(wù),同時確保效率、性能和靈活性的最大化。

            歐陽劍表示:“FPGA 是高效的,可以專注于特定計算任務(wù),但缺乏可編程能力。傳統(tǒng) CPU 擅長通用計算任務(wù),尤其是基于規(guī)則的計算任務(wù),同時非常靈活。GPU 瞄準(zhǔn)了并行計算,因此有很強大的性能。XPU 則關(guān)注計算密集型、基于規(guī)則的多樣化計算任務(wù),希望提高效率和性能,并帶來類似 CPU 的靈活性。

            在 2018 年百度披露更多關(guān)于 XPU 的相關(guān)信息。


          blob.png


            2017 年 12 月底,人工智能初創(chuàng)企業(yè)地平線發(fā)布了中國首款全球領(lǐng)先的嵌入式人工智能芯片——面向智能駕駛的征程(Journey)1.0 處理器和面向智能攝像頭的旭日(Sunrise)1.0 處理器,還有針對智能駕駛、智能城市和智能商業(yè)三大應(yīng)用場景的人工智能解決方案?!靶袢?1.0”和 “征程 1.0” 是完全由地平線自主研發(fā)的人工智能芯片,具有全球領(lǐng)先的性能。

            為了解決應(yīng)用場景中的問題,地平線將算法與芯片做了強耦合,用算法來定義芯片,提升芯片的效率,在高性能的情況下可以保證它的低功耗、低成本。具體芯片參數(shù)尚無公開數(shù)據(jù)。

          國內(nèi)AI芯片百家爭鳴,何以抗衡全球技術(shù)寡頭

            除了百度和地平線,國內(nèi)研究機構(gòu)如中國科學(xué)院、北京大學(xué)和清華大學(xué)也有人工智能處理器相關(guān)的成果發(fā)布。

            北京大學(xué)聯(lián)合商湯科技等提出一種基于 FPGA 的快速 Winograd 算法,可以大幅降低算法復(fù)雜度,改善 FPGA 上的 CNN 性能。論文中的實驗使用當(dāng)前最優(yōu)的多種 CNN 架構(gòu)(如 AlexNet 和 VGG16),從而實現(xiàn)了 FPGA 加速之下的最優(yōu)性能和能耗。在 Xilinx ZCU102 平臺上達(dá)到了卷積層平均處理速度 1006.4 GOP/s,整體 AlexNet 處理速度 854.6 GOP/s,卷積層平均處理速度 3044.7 GOP/s,整體 VGG16 的處理速度 2940.7 GOP/s。

          blob.png

            中國科學(xué)院計算機體系結(jié)構(gòu)國家重點實驗室在頂級會議 HPCA2017 上提出了一種基于數(shù)據(jù)流的處理器架構(gòu),以便適應(yīng)特征圖、神經(jīng)元和突觸等不同層級的并行計算,為了實現(xiàn)這一目標(biāo),該團隊對單個處理單元 PE 進行重新設(shè)計,使得操作數(shù)可以直接通過橫向或縱向的總線從片上存儲器獲取,而非傳統(tǒng) PE 只能從上至下或從左至右由相鄰單元獲取。該芯片采用了 TMSC 65nm 工藝,峰值性能為 490.7 GOPs/W。

          國內(nèi)AI芯片百家爭鳴,何以抗衡全球技術(shù)寡頭


          評論


          相關(guān)推薦

          技術(shù)專區(qū)

          關(guān)閉