AI芯片競(jìng)賽的開始

ainet.cn 2017年02月23日

　　2016年深度學(xué)習(xí)技術(shù)不斷推動(dòng)著計(jì)算工業(yè)的前進(jìn)，專家稱在2017年人工智能領(lǐng)域?qū)⑿枰焖?，更?qiáng)勁的“推理”引擎來強(qiáng)化深度神經(jīng)網(wǎng)絡(luò)。

　　現(xiàn)有的深度學(xué)習(xí)系統(tǒng)動(dòng)用的是大型計(jì)算的優(yōu)勢(shì)，借助網(wǎng)絡(luò)以及大數(shù)據(jù)來進(jìn)行訓(xùn)練和學(xué)習(xí)，然后再對(duì)接大型計(jì)算系統(tǒng)來完成它的目標(biāo)任務(wù)。

　　不過，這種學(xué)習(xí)方式在執(zhí)行效率方面很顯然不適合嵌入式系統(tǒng)(也就是包含，汽車，無人機(jī)，包括物聯(lián)網(wǎng)設(shè)備，工業(yè)控制器等等)這些設(shè)備往往受到能源，帶寬以及存儲(chǔ)器大小方面的限制。

　　把深度神經(jīng)網(wǎng)絡(luò)放到終端設(shè)備中為技術(shù)創(chuàng)新提供了非常大的可能性

　　就在幾個(gè)月前Movidius CEO，RemiElquazzane曾表示，"人工智能在邊緣計(jì)算上的投放，將會(huì)是一個(gè)趨勢(shì)"

　　Marc Duranton

　　當(dāng)問及如何讓AI在邊緣計(jì)算方面發(fā)揮能力的時(shí)候，集成電路設(shè)計(jì)以及嵌入式軟件部門的CEA架構(gòu)研究員Marc Duranton 闡述了其獨(dú)道見解，安全，隱私性和商用化這三點(diǎn)是快速進(jìn)入了工業(yè)領(lǐng)域處理末端數(shù)據(jù)的關(guān)鍵。Duranton 發(fā)現(xiàn)“短時(shí)間內(nèi)將數(shù)據(jù)變?yōu)樾畔ⅰ毙枨笳谠鲩L。

　　再比如無人汽車，如果安全性是這種技術(shù)設(shè)計(jì)最終目的，那么這種無人的功能設(shè)計(jì)不應(yīng)該完全依靠——全時(shí)間的實(shí)時(shí)網(wǎng)絡(luò)連接?？梢韵胂笕绻粋€(gè)上年紀(jì)的人在家中摔倒，這起事件就應(yīng)該在本地偵測(cè)并得到確認(rèn)。私密性是一方面重要原因，而不依賴家中的10個(gè)攝像頭來傳輸圖像激活報(bào)警其實(shí)也是為了降低能耗以及數(shù)據(jù)規(guī)模，Duranton補(bǔ)充說

　　競(jìng)賽開始了

　　芯片供應(yīng)商從多方面了解到市場(chǎng)對(duì)更好的推理引擎的增長需求。

　　類似于Movidus，Mobileye 以及英偉達(dá) 這樣的半導(dǎo)體廠商已經(jīng)在超低功耗領(lǐng)域方面展開了競(jìng)爭(zhēng)，更高的硬件加速表現(xiàn)可以讓嵌入式設(shè)備能夠擁有更好的學(xué)習(xí)能力。

　　Duranton 認(rèn)為，這些公司在SOC方面所做的工作說明了推理引擎已經(jīng)成為了許多半導(dǎo)體公司在后移動(dòng)時(shí)代的新的研究方向

　　谷歌的Tensor 處理單元即TPUs在今年年初的發(fā)布標(biāo)志著工程領(lǐng)域?qū)C(jī)器學(xué)習(xí)類芯片的創(chuàng)新已經(jīng)達(dá)到了如饑似渴的程度。

　　在發(fā)布會(huì)上，這家搜索巨頭公司形容TPUs提供了一個(gè)“比商用FPGA和GPU芯片高出一個(gè)數(shù)量級(jí)的單位瓦特性能?！惫雀枵故玖诉@款被裝載在打敗人類圍棋冠軍的阿爾法狗系統(tǒng)的加速器，然而卻從來不曾談?wù)揟PUs的結(jié)構(gòu)細(xì)節(jié)，也不會(huì)將TPUs出售給商用市場(chǎng)。

　　很多SOC設(shè)計(jì)者認(rèn)為谷歌的這一舉動(dòng)讓機(jī)器學(xué)習(xí)系統(tǒng)設(shè)計(jì)方面更趨于定制化的結(jié)構(gòu)，但是在他們?cè)O(shè)計(jì)定制化的芯片時(shí)，又對(duì)谷歌芯片的結(jié)構(gòu)感到好奇。更要命的是，設(shè)計(jì)者們想要知道現(xiàn)在對(duì)于不同的硬件平臺(tái)是否已經(jīng)能夠有評(píng)測(cè)工具來對(duì)于深度神經(jīng)網(wǎng)絡(luò)DNN的好壞進(jìn)行評(píng)測(cè)和測(cè)量。

　　工具正在到來

　　CEA已經(jīng)準(zhǔn)備好了應(yīng)對(duì)不同硬件架構(gòu)的推理技術(shù)的開發(fā)，并且開發(fā)了一個(gè)軟件框架，叫做 N2D2(有點(diǎn)類似星球大戰(zhàn)的機(jī)器人的名字R2D2)它能夠使設(shè)計(jì)者探索并生成DNN結(jié)構(gòu)。開發(fā)這個(gè)工具可以幫助DNN來選擇更加合適的硬件。

　　DNN深度學(xué)習(xí)結(jié)構(gòu)

　　N2D2將能夠在2017年第一季度實(shí)現(xiàn)開源，Duranton承諾道。

　　N2D2這個(gè)新工具的關(guān)鍵在于不僅能夠非常精準(zhǔn)識(shí)別出并比較不同硬件，還可以在處理時(shí)間，硬件成本，以及能源消耗這幾個(gè)重要方面實(shí)現(xiàn)比較。Duranton認(rèn)為這幾點(diǎn)都非常重要，因?yàn)椴煌膽?yīng)用對(duì)于深度學(xué)習(xí)來在不同的硬件環(huán)境中實(shí)施中時(shí)可能會(huì)需要不同的參數(shù)。

　　N2D2的工作方式(來源：CEA)

　　N2D2提供了一系列商用常規(guī)硬件的測(cè)試，包括CPU，GPU以及FPGA多核以及多芯片協(xié)作的測(cè)試

　　邊緣計(jì)算方面的障礙

　　作為一個(gè)研究機(jī)構(gòu)，CEA已經(jīng)對(duì)怎樣的讓深度神經(jīng)網(wǎng)絡(luò)更好地融入邊緣計(jì)算進(jìn)行了反復(fù)研究。關(guān)于DNN在邊緣計(jì)算方面的障礙,Duranton認(rèn)為，浮點(diǎn)服務(wù)器解決方案是不能夠使用的，除了電力，體積，延遲方面的限制，其他的限制還包括了MAC，帶寬和板載芯片的內(nèi)存空間的等因素。

　　那么“以整數(shù)替代浮點(diǎn)”是首要考慮的事情，那么其它還要考慮什么呢?

　　Duranton相信特殊的架構(gòu)能夠采用新的編碼，比如脈沖尖峰編碼(spike coding)

　　當(dāng)CEA的研究者們對(duì)于神經(jīng)網(wǎng)絡(luò)的特性進(jìn)行研究時(shí)，他們發(fā)現(xiàn)這些特性對(duì)計(jì)算錯(cuò)誤具有先天的容錯(cuò)性。這就讓它們成為了模糊計(jì)算方面非常好的備選。

　　所以如果是這樣，可能二進(jìn)制編碼不再那么必要。這對(duì)于時(shí)間編碼(temporal coding)來說是一個(gè)好消息——就比如脈沖尖峰編碼(Spike coding)——能夠使邊緣端的計(jì)算能效方面產(chǎn)出比更高，Duranton 解釋

　　脈沖尖峰編碼是具有相當(dāng)?shù)奈Γ驗(yàn)榧夥灞痪幾g時(shí)或者在一個(gè)基于事件的系統(tǒng)中都展示了數(shù)據(jù)如何在真實(shí)的神經(jīng)系統(tǒng)中進(jìn)行編譯。更進(jìn)一步說明，基于事件的編碼是可以與精密傳感器和前處理技術(shù)進(jìn)行相互匹配的。

　　這樣的編碼更能讓研究人員來構(gòu)建一個(gè)體積更小能耗更低的硬件加速器并且用于一個(gè)裝備有混合模擬以及數(shù)字應(yīng)用的神經(jīng)系統(tǒng)當(dāng)中。

　　也有一些其他因素可以幫助在邊緣計(jì)算方面加速構(gòu)建DNN結(jié)構(gòu)

　　CEA就仔細(xì)考量了調(diào)整神經(jīng)網(wǎng)絡(luò)架構(gòu)轉(zhuǎn)換成邊緣計(jì)算的潛力，包括用 Squeeze Net 來代替 Alex Net(兩種神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的名稱)Duranton特別強(qiáng)調(diào)。據(jù)說SqueezeNet 能夠完成相當(dāng)于Alex Net 級(jí)別精度的50倍小的參數(shù)。Duranton也認(rèn)為這種簡化是邊緣計(jì)算所需要的，在拓?fù)浣Y(jié)構(gòu)上是使Macs數(shù)量得到降低。

　　在Duranton看來，研究目標(biāo)是將“典型的”DNN結(jié)構(gòu)“自動(dòng)轉(zhuǎn)換到嵌入式”網(wǎng)絡(luò)當(dāng)中。

　　Alexnet結(jié)構(gòu)

　　P-Neuro，一個(gè)過渡時(shí)期的芯片

　　CEA的真正野心在于發(fā)展神經(jīng)元形態(tài)的電路。這家研究機(jī)構(gòu)相信這樣的芯片是從傳感器的近端來提取有用信息進(jìn)行深度學(xué)習(xí)的一個(gè)有效補(bǔ)充。

　　在達(dá)到研究目標(biāo)之前，CEA試探了很多過渡性步驟。比如N2D2開發(fā)工具就是芯片設(shè)計(jì)者們開發(fā)“高水平能效功耗比TOPS(TOPS每秒億萬次計(jì)算)DNN”定制化解決方案的關(guān)鍵

　　未來，那些指望在邊緣計(jì)算上利用DNN的人可以選用手頭上的硬件去測(cè)試，為此，CEA提供了一個(gè)功耗極低的可編程加速器，叫做P-Neuro(P神經(jīng))

　　現(xiàn)有的P-Neuro 神經(jīng)網(wǎng)絡(luò)處理單元基于FPGA構(gòu)建，而且，根據(jù)Duranton所說CEA正在將這種FPGA轉(zhuǎn)換至ASIC

　　當(dāng)P-Neuro樣本demo遇到嵌入式CPU

　　在CEA的實(shí)驗(yàn)室中，Duranton展示了一個(gè)面部偵測(cè)的卷積式神經(jīng)網(wǎng)絡(luò)(CNN，convolutional neural network,模擬人類大腦結(jié)構(gòu))應(yīng)用，運(yùn)行于基于FPGA的 P-Neuro上。這個(gè)P-Neuro 的demo被用于與嵌入式CPU(樹莓派Raspberry Pi的四核ARM處理器以及安卓系統(tǒng)上的三星獵戶座SOC)進(jìn)行比較，并同時(shí)運(yùn)行相同的嵌入式CNN應(yīng)用;目標(biāo)任務(wù)是從一個(gè)數(shù)據(jù)庫中調(diào)出的超過18000張圖像當(dāng)中進(jìn)行人臉特征提取。

　　如圖所示P-Neuro識(shí)別速度是6942張圖每秒，能效達(dá)每2776張圖像僅用一瓦特

　　看P-Neuro是怎樣斃掉嵌入式CPU和GPU的(來源CEA)

　　對(duì)比嵌入式GPU(如英偉達(dá)的Tegra K1)，基于 FPGA的P-Neuro 可以運(yùn)行在100MHZ并被證明效率上快了一到兩倍，能效方面更是提供四到五倍

　　P-Neuro 建立在SIMD架構(gòu)的基礎(chǔ)上，并以內(nèi)存層級(jí)結(jié)構(gòu)的優(yōu)化以及互聯(lián)為特點(diǎn)

　　P-Neuro(來源CEA)

　　歐盟項(xiàng)目

　　“就CEA研究者來說，P-Neuro “是一個(gè)短期芯片”Duranton 強(qiáng)調(diào)。P-Neuro 是用二進(jìn)制編碼嵌入在一個(gè)完整的CMOS器件上。該項(xiàng)目組也同時(shí)在進(jìn)行在一個(gè)完整CMOS設(shè)備上運(yùn)行脈沖尖峰編碼的工作。

　　為了能充分利用先進(jìn)設(shè)備來突破密度和功耗的問題，該團(tuán)隊(duì)也已經(jīng)設(shè)定了更高的目標(biāo)

　　同時(shí)歐盟作為EU地平線2020計(jì)劃的一分子，正在尋找“擬制造一款芯片來實(shí)施神經(jīng)元架構(gòu)支持最頂級(jí)的機(jī)器學(xué)習(xí)并且支持基于脈沖尖峰(spike，nerve impluse=spike)的學(xué)習(xí)機(jī)理

　　這個(gè)項(xiàng)目的名稱叫做NeuRAM3, 據(jù)稱其芯片將具備超低功耗，可測(cè)量以及高可控性的神經(jīng)架構(gòu)“項(xiàng)目的目的在于能夠在特定應(yīng)用中比常規(guī)數(shù)字化方案節(jié)約50倍的能耗。

　　神經(jīng)元形態(tài)處理器

　　神經(jīng)形態(tài)處理器基礎(chǔ)說明(來源: Prof. Giacomo Indiveri)

　　CEA是一個(gè)深度融合的項(xiàng)目，CEA的自主研究目標(biāo)是與NeuRAM3項(xiàng)目來說幾乎是相同的。這就包含了FD-SOL單片集成3D技術(shù)的開發(fā)，以及RRAM存儲(chǔ)器突觸元素的使用。

　　與IBM的叫做TrueNorth 腦力激發(fā)系統(tǒng)相比較，NeuRAM3項(xiàng)目的新混合信號(hào)多核新神經(jīng)形態(tài)設(shè)備應(yīng)該能夠大幅降低能源的消耗。

　　與IBM的TrueNorth對(duì)比

　　其它NeuRAM3項(xiàng)目的參與者包括了：IMEC，以及IBM蘇黎世，ST微電子，CNR，IMSE,蘇黎世大學(xué)和德國雅各布斯大學(xué)

2025china原創(chuàng)，轉(zhuǎn)載請(qǐng)注明！　　

ZERO1整理編譯

（轉(zhuǎn)載）

標(biāo)簽：人工智能 AI 芯片

我要反饋

引言：幾乎所有領(lǐng)域都同時(shí)跨進(jìn)了“機(jī)器換人”的大門，倉庫管理員、司機(jī)、清潔工……但也有不少有意義的工作種類，在未來20年里，向這些工作提供更多人力是非常有益的，設(shè)置相應(yīng)的政策... [詳情]

2017年02月23日機(jī)器人

這些前沿技術(shù)如何在中國智能汽車業(yè)實(shí)現(xiàn)場(chǎng)景化落地?

最近，兩家豪華車巨頭奔馳和寶馬不約而同地發(fā)布了“CASE”，寶馬稱為“ACES”戰(zhàn)略。這四個(gè)字母分別代表：Connectivity(車聯(lián)網(wǎng))、Autonomous(自動(dòng)駕駛)、Sharing(共享出行)、EV(新能源... [詳情]

2017年02月23日慕尼黑智能汽車電子展

生迪Element LED燈泡采用Silicon Labs zigbee?技術(shù)實(shí)現(xiàn)IoT連接

引言：SiliconLabs為中國生迪公司屢獲殊榮的Element可連接燈泡提供最佳的zigbee?技術(shù)，Element燈泡的時(shí)尚現(xiàn)代設(shè)計(jì)與現(xiàn)有燈座無縫銜接，SiliconLabs的無線SoC和zigbee協(xié)議棧使得Elemen... [詳情]

2017年02月23日 SiliconLabs LED IoT