大數(shù)據(jù)

多層級可靠 構(gòu)筑智算訓(xùn)練的穩(wěn)定數(shù)據(jù)基石

ainet.cn   2025年01月15日

伴隨著智算需求的增長,GPU算力投資已占到AI加速芯片銷量的80%以上,但相關(guān)統(tǒng)計數(shù)據(jù)顯示,在實際模型訓(xùn)練場景下,GPU的平均利用率卻不足50%。

究其原因,由于數(shù)據(jù)存儲的可靠性不足導(dǎo)致的訓(xùn)練中斷尤為突出。例如,訓(xùn)練數(shù)據(jù)的讀寫中斷、租戶間資源相互干擾、計劃內(nèi)的擴容升級以及計劃外的宕機等,都會引起算力資源的空耗,從而降低GPU的整體利用率。而解決這一困擾的關(guān)鍵,在于一套高度穩(wěn)定、多層級可靠的數(shù)據(jù)存儲系統(tǒng),提供堅實的數(shù)據(jù)底座支撐。

軟硬件協(xié)同創(chuàng)新

重構(gòu)分布式存儲可靠性體驗

新華三下一代AI數(shù)據(jù)存儲平臺H3C UniStor Polaris X20000系列,通過對分布式存儲的軟硬件協(xié)同創(chuàng)新,基于獨特的NVMe高密全閃架構(gòu),結(jié)合新華三傲擎數(shù)據(jù)存儲底層平臺,實現(xiàn)了媲美集中式存儲的性能和可靠性體驗。在系統(tǒng)整體設(shè)計方面,H3C UniStor Polaris X20000系列所有組件,不管是硬件還是軟件,都采用了“冗余、多活、自動隔離和自愈”的設(shè)計,形成多層級可靠性方案。

傳統(tǒng)的分布式存儲系統(tǒng),采用節(jié)點間心跳的方式監(jiān)控各節(jié)點狀態(tài)。在智算訓(xùn)練場景下,大規(guī)模集群中大量的心跳消息會對網(wǎng)絡(luò)性能造成影響,并額外消耗計算資源。H3C UniStor X20000系列,創(chuàng)新性地通過SOM存儲集成管理平臺,實時監(jiān)控節(jié)點健康,制定中斷上報、事件上報和主動輪訓(xùn)三種不同的上報方案,配合存儲軟件聯(lián)動,實現(xiàn)故障毫秒級上報,性能影響<5%。不論是計劃內(nèi)的維護升級、擴容還是計劃外的意外故障,業(yè)務(wù)都是“弱感知”,保障智算訓(xùn)練任務(wù)不間斷連續(xù)運行。

在智算場景下,多租戶操作也是影響訓(xùn)練穩(wěn)定性的關(guān)鍵因素之一。多租戶環(huán)境下,單個軟件實例需要為多個不同的用戶組提供服務(wù),需要在數(shù)據(jù)的共享、安全隔離和性能間取得平衡。在處理敏感數(shù)據(jù)時,數(shù)據(jù)安全的實現(xiàn)策略也會直接影響到不同租戶間的隔離程度。H3C UniStor Polaris X20000系列提供了全面的安全策略管理,支持租戶間資源隔離,確保每個租戶都有獨立的容量分配和性能QoS策略,實現(xiàn)模型訓(xùn)練過程中多租戶間的零干擾。

在智算平臺的建設(shè)過程中,數(shù)據(jù)存儲的穩(wěn)定性對算力有效供給有著重要意義。面向未來,新華三集團將繼續(xù)秉持“精耕務(wù)實,為時代賦智慧”的理念,不斷深化“內(nèi)生智能·成就智慧存儲”技術(shù)戰(zhàn)略,充分發(fā)揮自身在數(shù)字領(lǐng)域的創(chuàng)新優(yōu)勢,加大產(chǎn)品創(chuàng)新力度,為百行百業(yè)構(gòu)筑澎湃算力提供穩(wěn)定的數(shù)據(jù)基石。

(來源:新華三)

標簽:新華三 我要反饋 
泰科電子ECK、ECP系列高壓直流接觸器白皮書下載
ABB協(xié)作機器人,自動化從未如此簡單
優(yōu)傲機器人下載中心
億萬克
專題報道
聚力同行 · 新智“碳”索
聚力同行 · 新智“碳”索

“新華社-智能·零碳”項目策劃以“聚力同行·新智‘碳’索”為主題的新能源專題,主要圍繞光伏、儲能、鋰電、氫能、風能五大新... [更多]

2025中國國際機床展覽會
2025中國國際機床展覽會

4月21至26日,以“融合創(chuàng)新,數(shù)智未來”為主題的第十九屆中國國際機床展覽會在首都國際會展中心盛大舉辦。憑借場館的卓越服... [更多]

2023-2024 智能·零碳成果展映
2023-2024 智能·零碳成果展映

“2023-2024智能·零碳成果展映”展示國內(nèi)外企業(yè)推進“雙碳”實踐的最新成果,鼓勵更多企業(yè)、科研機構(gòu)、投資機構(gòu)等廣泛... [更多]