siemens x
深度觀察

AI芯片競賽的開始

2025China.cn   2017年02月23日

  2016年深度學(xué)習(xí)技術(shù)不斷推動著計算工業(yè)的前進,專家稱在2017年人工智能領(lǐng)域?qū)⑿枰焖?,更強勁的“推理”引擎來強化深度神?jīng)網(wǎng)絡(luò)。

  現(xiàn)有的深度學(xué)習(xí)系統(tǒng)動用的是大型計算的優(yōu)勢,借助網(wǎng)絡(luò)以及大數(shù)據(jù)來進行訓(xùn)練和學(xué)習(xí),然后再對接大型計算系統(tǒng)來完成它的目標(biāo)任務(wù)。

  不過,這種學(xué)習(xí)方式在執(zhí)行效率方面很顯然不適合嵌入式系統(tǒng)(也就是包含,汽車,無人機,包括物聯(lián)網(wǎng)設(shè)備,工業(yè)控制器等等)這些設(shè)備往往受到能源,帶寬以及存儲器大小方面的限制。

  把深度神經(jīng)網(wǎng)絡(luò)放到終端設(shè)備中為技術(shù)創(chuàng)新提供了非常大的可能性

  就在幾個月前Movidius CEO,RemiElquazzane曾表示,"人工智能在邊緣計算上的投放,將會是一個趨勢"

  Marc Duranton

  當(dāng)問及如何讓AI在邊緣計算方面發(fā)揮能力的時候,集成電路設(shè)計以及嵌入式軟件部門的CEA架構(gòu)研究員Marc Duranton 闡述了其獨道見解,安全,隱私性和商用化這三點是快速進入了工業(yè)領(lǐng)域處理末端數(shù)據(jù)的關(guān)鍵。Duranton 發(fā)現(xiàn)“短時間內(nèi)將數(shù)據(jù)變?yōu)樾畔ⅰ毙枨笳谠鲩L。

  再比如無人汽車,如果安全性是這種技術(shù)設(shè)計最終目的,那么這種無人的功能設(shè)計不應(yīng)該完全依靠——全時間的實時網(wǎng)絡(luò)連接??梢韵胂笕绻粋€上年紀(jì)的人在家中摔倒,這起事件就應(yīng)該在本地偵測并得到確認(rèn)。私密性是一方面重要原因,而不依賴家中的10個攝像頭來傳輸圖像激活報警其實也是為了降低能耗以及數(shù)據(jù)規(guī)模,Duranton補充說

  競賽開始了

  芯片供應(yīng)商從多方面了解到市場對更好的推理引擎的增長需求。

  類似于Movidus,Mobileye 以及 英偉達 這樣的半導(dǎo)體廠商已經(jīng)在超低功耗領(lǐng)域方面展開了競爭,更高的硬件加速表現(xiàn)可以讓嵌入式設(shè)備能夠擁有更好的學(xué)習(xí)能力。

  Duranton 認(rèn)為,這些公司在SOC方面所做的工作說明了推理引擎已經(jīng)成為了許多半導(dǎo)體公司在后移動時代的新的研究方向

  谷歌的Tensor 處理單元即TPUs在今年年初的發(fā)布標(biāo)志著工程領(lǐng)域?qū)C器學(xué)習(xí)類芯片的創(chuàng)新已經(jīng)達到了如饑似渴的程度。

  在發(fā)布會上,這家搜索巨頭公司形容TPUs提供了一個“比商用FPGA和GPU芯片高出一個數(shù)量級的單位瓦特性能。”谷歌展示了這款被裝載在打敗人類圍棋冠軍的阿爾法狗系統(tǒng)的加速器,然而卻從來不曾談?wù)揟PUs的結(jié)構(gòu)細(xì)節(jié),也不會將TPUs出售給商用市場。

  很多SOC設(shè)計者認(rèn)為谷歌的這一舉動讓機器學(xué)習(xí)系統(tǒng)設(shè)計方面更趨于定制化的結(jié)構(gòu),但是在他們設(shè)計定制化的芯片時,又對谷歌芯片的結(jié)構(gòu)感到好奇。更要命的是,設(shè)計者們想要知道現(xiàn)在對于不同的硬件平臺是否已經(jīng)能夠有評測工具來對于深度神經(jīng)網(wǎng)絡(luò)DNN的好壞進行評測和測量。

  工具正在到來

  CEA已經(jīng)準(zhǔn)備好了應(yīng)對不同硬件架構(gòu)的推理技術(shù)的開發(fā),并且開發(fā)了一個軟件框架,叫做 N2D2(有點類似星球大戰(zhàn)的機器人的名字R2D2)它能夠使設(shè)計者探索并生成DNN結(jié)構(gòu)。開發(fā)這個工具可以幫助DNN來選擇更加合適的硬件。

  DNN深度學(xué)習(xí)結(jié)構(gòu)

  N2D2將能夠在2017年第一季度實現(xiàn)開源,Duranton承諾道。

  N2D2這個新工具的關(guān)鍵在于不僅能夠非常精準(zhǔn)識別出并比較不同硬件,還可以在處理時間,硬件成本,以及能源消耗這幾個重要方面實現(xiàn)比較。Duranton認(rèn)為這幾點都非常重要 ,因為不同的應(yīng)用對于深度學(xué)習(xí)來在不同的硬件環(huán)境中實施中時可能會需要不同的參數(shù)。

  N2D2的工作方式(來源:CEA)

 

  N2D2提供了一系列商用常規(guī)硬件的測試,包括CPU,GPU以及FPGA多核以及多芯片協(xié)作的測試

  邊緣計算方面的障礙

  作為一個研究機構(gòu),CEA已經(jīng)對怎樣的讓深度神經(jīng)網(wǎng)絡(luò)更好地融入邊緣計算進行了反復(fù)研究。關(guān)于DNN在邊緣計算方面的障礙,Duranton認(rèn)為,浮點服務(wù)器解決方案是不能夠使用的,除了電力,體積,延遲方面的限制,其他的限制還包括了MAC,帶寬和板載芯片的內(nèi)存空間的等因素。

  那么“以整數(shù)替代浮點”是首要考慮的事情,那么其它還要考慮什么呢?

  Duranton相信特殊的架構(gòu)能夠采用新的編碼,比如脈沖尖峰編碼(spike coding)

  當(dāng)CEA的研究者們對于神經(jīng)網(wǎng)絡(luò)的特性進行研究時,他們發(fā)現(xiàn)這些特性對計算錯誤具有先天的容錯性。這就讓它們成為了模糊計算方面非常好的備選。

  所以如果是這樣,可能二進制編碼不再那么必要。這對于時間編碼(temporal coding)來說是一個好消息——就比如脈沖尖峰編碼(Spike coding)——能夠使邊緣端的計算能效方面產(chǎn)出比更高,Duranton 解釋

  脈沖尖峰編碼是具有相當(dāng)?shù)奈Γ驗榧夥灞痪幾g時或者在一個基于事件的系統(tǒng)中都展示了數(shù)據(jù)如何在真實的神經(jīng)系統(tǒng)中進行編譯。更進一步說明,基于事件的編碼是可以與精密傳感器和前處理技術(shù)進行相互匹配的。

  這樣的編碼更能讓研究人員來構(gòu)建一個體積更小能耗更低的硬件加速器并且用于一個裝備有混合模擬以及數(shù)字應(yīng)用的神經(jīng)系統(tǒng)當(dāng)中。

  也有一些其他因素可以幫助在邊緣計算方面加速構(gòu)建DNN結(jié)構(gòu)

  CEA就仔細(xì)考量了調(diào)整神經(jīng)網(wǎng)絡(luò)架構(gòu)轉(zhuǎn)換成邊緣計算的潛力,包括用 Squeeze Net 來代替 Alex Net(兩種神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的名稱)Duranton特別強調(diào)。 據(jù)說SqueezeNet 能夠完成相當(dāng)于Alex Net 級別精度的50倍小的參數(shù)。Duranton也認(rèn)為這種簡化是邊緣計算所需要的,在拓?fù)浣Y(jié)構(gòu)上是使Macs數(shù)量得到降低。

  在Duranton看來,研究目標(biāo)是將“典型的”DNN結(jié)構(gòu)“自動轉(zhuǎn)換到嵌入式”網(wǎng)絡(luò)當(dāng)中。

  Alexnet結(jié)構(gòu)

  P-Neuro,一個過渡時期的芯片

  CEA的真正野心在于發(fā)展神經(jīng)元形態(tài)的電路。這家研究機構(gòu)相信這樣的芯片是從傳感器的近端來提取有用信息進行深度學(xué)習(xí)的一個有效補充。

  在達到研究目標(biāo)之前,CEA試探了很多過渡性步驟。比如N2D2開發(fā)工具就是芯片設(shè)計者們開發(fā)“高水平能效功耗比TOPS(TOPS每秒億萬次計算)DNN”定制化解決方案的關(guān)鍵

  未來,那些指望在邊緣計算上利用DNN的人可以選用手頭上的硬件去測試,為此,CEA提供了一個功耗極低的可編程加速器,叫做P-Neuro(P神經(jīng))

  現(xiàn)有的P-Neuro 神經(jīng)網(wǎng)絡(luò)處理單元基于FPGA構(gòu)建,而且,根據(jù)Duranton所說CEA正在將這種FPGA轉(zhuǎn)換至ASIC

  當(dāng)P-Neuro樣本demo遇到 嵌入式CPU

  在CEA的實驗室中,Duranton展示了一個面部偵測的卷積式神經(jīng)網(wǎng)絡(luò)(CNN,convolutional neural network,模擬人類大腦結(jié)構(gòu))應(yīng)用,運行于基于FPGA的 P-Neuro上。 這個P-Neuro 的demo被用于與嵌入式CPU(樹莓派Raspberry Pi的四核ARM處理器以及安卓系統(tǒng)上的三星獵戶座SOC)進行比較,并同時運行相同的嵌入式CNN應(yīng)用;目標(biāo)任務(wù)是從一個數(shù)據(jù)庫中調(diào)出的超過18000張圖像當(dāng)中進行人臉特征提取。

  如圖所示P-Neuro識別速度是6942張圖每秒,能效達每2776張圖像僅用一瓦特

  看P-Neuro是怎樣斃掉嵌入式CPU和GPU的(來源CEA)

  對比嵌入式GPU(如英偉達的Tegra K1), 基于 FPGA的P-Neuro 可以運行在100MHZ并被證明效率上快了一到兩倍,能效方面更是提供四到五倍

  P-Neuro 建立在SIMD架構(gòu)的基礎(chǔ)上,并以內(nèi)存層級結(jié)構(gòu)的優(yōu)化以及互聯(lián)為特點

  P-Neuro(來源CEA)

  歐盟項目

  “就CEA研究者來說,P-Neuro “是一個短期芯片”Duranton 強調(diào)。P-Neuro 是用二進制編碼嵌入在一個完整的CMOS器件上。該項目組也同時在進行在一個完整CMOS設(shè)備上運行脈沖尖峰編碼的工作。

  為了能充分利用先進設(shè)備來突破密度和功耗的問題,該團隊也已經(jīng)設(shè)定了更高的目標(biāo)

  同時歐盟作為EU地平線2020計劃的一分子,正在尋找“擬制造一款芯片來實施神經(jīng)元架構(gòu)支持最頂級的機器學(xué)習(xí)并且支持基于脈沖尖峰(spike,nerve impluse=spike)的學(xué)習(xí)機理

  這個項目的名稱叫做NeuRAM3, 據(jù)稱其芯片將具備超低功耗,可測量以及高可控性的神經(jīng)架構(gòu)“項目的目的在于能夠在特定應(yīng)用中比常規(guī)數(shù)字化方案節(jié)約50倍的能耗。

  神經(jīng)元形態(tài)處理器

  神經(jīng)形態(tài)處理器基礎(chǔ)說明(來源: Prof. Giacomo Indiveri)

 

  CEA是一個深度融合的項目,CEA的自主研究目標(biāo)是與NeuRAM3項目來說幾乎是相同的。這就包含了FD-SOL單片集成3D技術(shù)的開發(fā),以及RRAM存儲器突觸元素的使用。

  與IBM的叫做TrueNorth 腦力激發(fā)系統(tǒng)相比較,NeuRAM3項目的新混合信號多核新神經(jīng)形態(tài)設(shè)備應(yīng)該能夠大幅降低能源的消耗。

  與IBM的TrueNorth對比

  其它NeuRAM3項目的參與者包括了:IMEC,以及IBM蘇黎世,ST微電子,CNR,IMSE,蘇黎世大學(xué)和德國雅各布斯大學(xué)

 

2025china原創(chuàng),轉(zhuǎn)載請注明!  

ZERO1整理編譯

(轉(zhuǎn)載)

標(biāo)簽:人工智能 AI 芯片 我要反饋 
2024世界人工智能大會專題
即刻點擊并下載ABB資料,好禮贏不停~
優(yōu)傲機器人下載中心
西克
2024全景工博會
專題報道
2024 工博會 | 直播探館 · 全景解讀
2024 工博會 | 直播探館 · 全景解讀

第二十四屆中國工博會于9月24日至28日在國家會展中心(上海)舉行,展會以“工業(yè)聚能 新質(zhì)領(lǐng)航”為全新主題。 [更多]

2024世界人工智能大會
2024世界人工智能大會

WAIC 2024將于7月在上海舉行,論壇時間7月4日-6日,展覽時間7月4日-7日。WAIC 2024將圍繞“以共商促... [更多]

2024漢諾威工業(yè)博覽會專題
2024漢諾威工業(yè)博覽會專題

2024 漢諾威工業(yè)博覽會將于4月22 - 26日在德國漢諾威展覽中心舉行。作為全球首屈一指的工業(yè)貿(mào)易展覽會,本屆展覽會... [更多]