人工智能

萬(wàn)億賽道!持續(xù)爆發(fā)!智能算力中心七大關(guān)鍵技術(shù)深度分析 2025

2025China.cn   2025年01月09日

一、智算技術(shù)發(fā)展的 七大關(guān)鍵技術(shù)

關(guān)鍵技術(shù) 1:存算一體

作為一種新型算力,是突破AI 算力瓶頸和大數(shù)據(jù)的關(guān)鍵技術(shù)。與以往的馮諾依曼架構(gòu)相比,打破了由于計(jì)算單元與存儲(chǔ)單元過(guò)于獨(dú)立而導(dǎo)致的“存儲(chǔ)墻”(CPU處理數(shù)據(jù)的速度與存儲(chǔ)器讀寫(xiě)數(shù)據(jù)速度之間嚴(yán)重失衡的問(wèn)題,嚴(yán)重影響目標(biāo)應(yīng)用程序的功率和性能),達(dá)到用更低功耗實(shí)現(xiàn)更高算力的效果。

作為可10倍提升單位功耗算力的顛覆性技術(shù)之一,存算一體有望降低一個(gè)數(shù)量級(jí)的單位算力能耗,在 VR/AR、無(wú)人駕駛、天文數(shù)據(jù)計(jì)算、遙感影像數(shù)據(jù)分析等大規(guī)模并行計(jì)算場(chǎng)景中,具備高帶寬、低功耗的顯著優(yōu)勢(shì)。

目前主流的實(shí)現(xiàn)方案包括:

一是利用先進(jìn)封裝技術(shù)把計(jì)算邏輯芯片和存儲(chǔ)器(如 DRAM)封裝到一起;

二是在傳統(tǒng) DRAM、SRAM、NOR Flash、NANDFlash 中實(shí)現(xiàn)存內(nèi)計(jì)算;

三是利用新型存儲(chǔ)元件實(shí)現(xiàn)存算一體。

當(dāng)前存算一體技術(shù)仍處于早期階段,我國(guó)存算一體芯片創(chuàng)新企業(yè)與海外創(chuàng)新企業(yè)齊頭并進(jìn),在該領(lǐng)域的先發(fā)制人,為我國(guó)相關(guān)技術(shù)的彎道超車提供了巨大可能性。

關(guān)鍵技術(shù) 2:-云多芯

一云多芯是指用一套云操作系統(tǒng)來(lái)管理不同架構(gòu)的硬件服務(wù)器集群,可以支持多種類型的芯片,解決不同類型芯片共存所帶來(lái)的多云管理問(wèn)題,最大限度利用云上資源池的強(qiáng)大算力。

作為IT產(chǎn)業(yè)鏈承上啟下的關(guān)鍵環(huán)節(jié),向下納管和兼容底層各種芯片、整機(jī)、操作系統(tǒng)等軟硬件基礎(chǔ)設(shè)施,向上支撐大數(shù)據(jù)、人工智能、物聯(lián)網(wǎng)、5G 等新代企業(yè)級(jí)應(yīng)用,有效規(guī)避算力孤島,逐步實(shí)現(xiàn)從算力的并存到算力的統(tǒng)一。

一云多芯通過(guò)納管不同指令集的芯片,包括CPU、GPU、DPU等,為各類應(yīng)用場(chǎng)景提供異構(gòu)多元化的算力支持,滿足智算業(yè)務(wù)高性能計(jì)算和數(shù)據(jù)處理要求,助力算力平臺(tái)建設(shè)標(biāo)準(zhǔn)化、統(tǒng)一化、服務(wù)化。

中國(guó)電信云驍智算平臺(tái)基于天翼云全棧自研操作系統(tǒng),打造一云六芯,全面支持主流國(guó)產(chǎn)芯片。阿里飛天操作系統(tǒng)正在全面兼容X86、ARM、RISC-V 等多種芯片架構(gòu),實(shí)現(xiàn)一云多芯。

關(guān)鍵技術(shù) 3:CPO

CPO(共封裝光學(xué))是光模塊未來(lái)的一種演進(jìn)形式,被視為AI高算力下高能效方案。

CPO是指把光引擎和交換芯片共同封裝在一起的光電共封裝,使電信號(hào)在引擎和芯片之間更快傳輸,縮短光引擎和交換芯片間的距離,有效減少尺寸,降低功耗,提高效率。

800G光模塊可提高服務(wù)器之間互聯(lián)密度,在同等算力下計(jì)算效率倍增,高效支撐AI 大模型 100%釋放算力。隨著 AIGC 發(fā)展趨勢(shì)明朗,高算力需求催化更高速率的 800G/1.6T 光模塊需求,LightCounting 預(yù)測(cè),硅光模塊有望在 2025 年高速光模塊市場(chǎng)中占據(jù)60%以上份額。

多家廠商也開(kāi)始大力研發(fā)用于數(shù)據(jù)中心的硅光模塊,如新華三發(fā)布 51.2T 800G CPO硅光數(shù)據(jù)中心交換機(jī),單芯片帶寬51.2T,支持64個(gè)800G端口,支撐 3.2萬(wàn)臺(tái)節(jié)點(diǎn)單個(gè) AIGC 集群,單位時(shí)間內(nèi) GPU 運(yùn)算效率提升 25%, 硅光+液冷技術(shù)融合實(shí)現(xiàn)單集群 TCO 降低30%,滿足大模型智算網(wǎng)絡(luò)高吞吐、低時(shí)延、綠色節(jié)能需求!

圖8 以太網(wǎng)轉(zhuǎn)發(fā)芯片演進(jìn)

關(guān)鍵技術(shù) 4:RDMA

RDMA(Remote Direct Memory Access)是一種遠(yuǎn)程直接數(shù)據(jù)存取技術(shù),可以有效降低多機(jī)多卡間端到端通信時(shí)延,滿足智算網(wǎng)絡(luò)的低時(shí)延、大帶寬需求。

當(dāng)前 RDMA 技術(shù)主要采用的方案為 InfiniBand和 RoCEv2 兩種。InfiniBand 網(wǎng)卡在速率方面保持著快速的發(fā)展,主流 200Gbps、400Gbps 已規(guī)模商用。

當(dāng)前用于大模型訓(xùn)練的智能算力節(jié)點(diǎn)內(nèi)部大多采用 InfiniBand 技術(shù)構(gòu)建數(shù)據(jù)中心內(nèi)高性能網(wǎng)絡(luò),提供高速連接,以及微秒級(jí)的時(shí)延、無(wú)丟包,避免GPU計(jì)算等待數(shù)據(jù)傳輸導(dǎo)致算力效率的下降。

目前InfiniBand 技術(shù)為英偉達(dá)獨(dú)家控制,成本偏高、開(kāi)放性較弱,因此業(yè)界也在考慮用RoCEv2等無(wú)損網(wǎng)絡(luò)技術(shù)替代 InfiniBand 技術(shù),但存在配置復(fù)雜、支持萬(wàn)卡規(guī)模網(wǎng)絡(luò)吞吐性較弱等問(wèn)題。

圖 9 InfiniBand 和 RoCEv2 的技術(shù)對(duì)比

關(guān)鍵技術(shù) 5:DDC

傳統(tǒng) CLOS 網(wǎng)絡(luò)架構(gòu)面臨多級(jí)轉(zhuǎn)發(fā)導(dǎo)致時(shí)延高、設(shè)備低緩存、易丟包等挑戰(zhàn),目前業(yè)界主要圍繞優(yōu)化 CLOS 架構(gòu)、DDC 等開(kāi)展研究(一)云商普遍采用多軌道流量聚合優(yōu)化面向大模型訓(xùn)練的三層CLOS 架構(gòu),確保在大規(guī)模訓(xùn)練時(shí)集群的性能和加速比。

在多軌道網(wǎng)絡(luò)架構(gòu)中,大部分流量都聚合在軌道內(nèi)傳輸(只經(jīng)過(guò)一級(jí) ToR switch)小部分流量跨軌道傳輸(需要經(jīng)過(guò)二級(jí)switch),讓任一同號(hào)卡在不同機(jī)器中的通信中的跳步數(shù)盡可能少,大幅減輕了大規(guī)模下的網(wǎng)絡(luò)通信壓力。

圖 10 多軌道流量聚合

(二)AT&T、博通推出 DDC(Disaggregated Distributed Chassis)架構(gòu),支持 AI超大規(guī)模集群彈性部署。

DDC 將傳統(tǒng)軟硬一體的框式設(shè)備組件進(jìn)行拆解,使用若于個(gè)低功耗盒式設(shè)備組成的集群替換框式設(shè)備業(yè)務(wù)線卡和網(wǎng)板等硬件單元,盒式設(shè)備間通過(guò)線纜互聯(lián)。

整個(gè)集群通過(guò)集中式或者分布式的NOS(網(wǎng)絡(luò)操作系統(tǒng))管理,以軟件化的方式靈活部署于任何一臺(tái)標(biāo)準(zhǔn)服務(wù)器或多臺(tái)服務(wù)器,能有效節(jié)省部署成本,提升系統(tǒng)幾余性和可靠性。

DDC架構(gòu)簡(jiǎn)單,支持彈性擴(kuò)展和功能快速迭代、更易部署、單機(jī)功耗低,可以根據(jù)AI 集群大小來(lái)靈活選擇。

基于 V0Q+Ce11 機(jī)制實(shí)現(xiàn)端到端流量調(diào)度,充分利用緩存大幅減少丟包,且解決了 ECMP 策略下流量負(fù)載不均衡的問(wèn)題,能有效提升寬帶利用率。

但由于 DDC硬件要求專用設(shè)備、大緩存設(shè)計(jì)增加網(wǎng)絡(luò)成本等問(wèn)題,目前可交付的 DDC產(chǎn)品較少,有待進(jìn)一步優(yōu)化。

圖 11 DDC 架構(gòu)

關(guān)鍵技術(shù) 6:并行計(jì)算

智算在數(shù)據(jù)遷移、同步等環(huán)節(jié),千卡以上規(guī)模的算力輸出最低往往僅有 40%左右。

隨著大模型規(guī)模的增長(zhǎng),需要考慮千卡甚至萬(wàn)卡規(guī)模的 GPU 集群訓(xùn)練,在多個(gè)GPU 上進(jìn)行并行計(jì)算,將訓(xùn)練任務(wù)分解為多個(gè)子任務(wù)并同時(shí)訓(xùn)練,以提升訓(xùn)練速度和效率。

針對(duì)大規(guī)模并行計(jì)算的特點(diǎn),數(shù)據(jù)并行、模型并行、流水并行、混合專家、增量更新等系列優(yōu)化算法和技術(shù)有效提升了算法的運(yùn)行效率和并發(fā)性能以及算力的資源利用率,支撐更高更復(fù)雜的訓(xùn)練速度和效率。

當(dāng)前業(yè)內(nèi)普遍采用多種并行方式聯(lián)合優(yōu)化的策略,如在機(jī)內(nèi)做張量并行,同時(shí)配合數(shù)據(jù)并行進(jìn)行分組參數(shù)切分操作,在多組機(jī)器組成流水線并行,以此來(lái)承載千億甚至萬(wàn)億的模型參數(shù)。

關(guān)鍵技術(shù) 7:液冷

AI服務(wù)器的功率較普通服務(wù)器高6-8倍,通用型服務(wù)器原來(lái)只需要 2顆 800W服務(wù)器電源,而AI服務(wù)器的需求直接提升為4顆 1800W高功率電源,當(dāng)前商湯、阿里等高性能 AI服務(wù)器已達(dá)到 25kw 以上而風(fēng)冷空調(diào)的極限在 25-30kw"。

傳統(tǒng)風(fēng)冷面臨散熱不足、能耗嚴(yán)重的問(wèn)題,液冷技術(shù)成為了降低數(shù)據(jù)中心 PUE 的優(yōu)解,其在 15kw/柜以上時(shí)更具經(jīng)濟(jì)性優(yōu)勢(shì)。

浸沒(méi)式和噴淋式液冷實(shí)現(xiàn)了100%液體冷卻,具有更優(yōu)的節(jié)能效果,PUE均在1.2以下,甚至可低至不足1.1;浸沒(méi)式液冷散熱節(jié)能優(yōu)勢(shì)明顯,在超算、高性能計(jì)算領(lǐng)域取得了廣泛應(yīng)用。在機(jī)架功率密度要求和 PUE 限制下,液冷已成為智算中心制冷必選項(xiàng),預(yù)計(jì) 2025 浸沒(méi)式液冷數(shù)據(jù)中心占比將達(dá) 40%。

(來(lái)源AI云原生智能算力架構(gòu))

標(biāo)簽:算力中心 我要反饋 
2024全景工博會(huì)
ABB協(xié)作機(jī)器人,自動(dòng)化從未如此簡(jiǎn)單
優(yōu)傲機(jī)器人下載中心
即刻點(diǎn)擊并下載ABB資料,好禮贏不停~
專題報(bào)道
2023-2024 智能·零碳成果展映
2023-2024 智能·零碳成果展映

“2023-2024智能·零碳成果展映”展示國(guó)內(nèi)外企業(yè)推進(jìn)“雙碳”實(shí)踐的最新成果,鼓勵(lì)更多企業(yè)、科研機(jī)構(gòu)、投資機(jī)構(gòu)等廣泛... [更多]

中國(guó)國(guó)際進(jìn)口博覽會(huì)
中國(guó)國(guó)際進(jìn)口博覽會(huì)

11月5日至10日,第七屆中國(guó)國(guó)際進(jìn)口博覽會(huì)在國(guó)家會(huì)展中心(上海)舉行。152個(gè)國(guó)家、地區(qū)和國(guó)際組織,近3500家參展企... [更多]

2024 工博會(huì) | 直播探館 · 全景解讀
2024 工博會(huì) | 直播探館 · 全景解讀

第二十四屆中國(guó)工博會(huì)于9月24日至28日在國(guó)家會(huì)展中心(上海)舉行,展會(huì)以“工業(yè)聚能 新質(zhì)領(lǐng)航”為全新主題。 [更多]