伴隨著智算需求的增長(zhǎng),GPU算力投資已占到AI加速芯片銷量的80%以上,但相關(guān)統(tǒng)計(jì)數(shù)據(jù)顯示,在實(shí)際模型訓(xùn)練場(chǎng)景下,GPU的平均利用率卻不足50%。
究其原因,由于數(shù)據(jù)存儲(chǔ)的可靠性不足導(dǎo)致的訓(xùn)練中斷尤為突出。例如,訓(xùn)練數(shù)據(jù)的讀寫中斷、租戶間資源相互干擾、計(jì)劃內(nèi)的擴(kuò)容升級(jí)以及計(jì)劃外的宕機(jī)等,都會(huì)引起算力資源的空耗,從而降低GPU的整體利用率。而解決這一困擾的關(guān)鍵,在于一套高度穩(wěn)定、多層級(jí)可靠的數(shù)據(jù)存儲(chǔ)系統(tǒng),提供堅(jiān)實(shí)的數(shù)據(jù)底座支撐。
軟硬件協(xié)同創(chuàng)新
重構(gòu)分布式存儲(chǔ)可靠性體驗(yàn)
新華三下一代AI數(shù)據(jù)存儲(chǔ)平臺(tái)H3C UniStor Polaris X20000系列,通過對(duì)分布式存儲(chǔ)的軟硬件協(xié)同創(chuàng)新,基于獨(dú)特的NVMe高密全閃架構(gòu),結(jié)合新華三傲擎數(shù)據(jù)存儲(chǔ)底層平臺(tái),實(shí)現(xiàn)了媲美集中式存儲(chǔ)的性能和可靠性體驗(yàn)。在系統(tǒng)整體設(shè)計(jì)方面,H3C UniStor Polaris X20000系列所有組件,不管是硬件還是軟件,都采用了“冗余、多活、自動(dòng)隔離和自愈”的設(shè)計(jì),形成多層級(jí)可靠性方案。
傳統(tǒng)的分布式存儲(chǔ)系統(tǒng),采用節(jié)點(diǎn)間心跳的方式監(jiān)控各節(jié)點(diǎn)狀態(tài)。在智算訓(xùn)練場(chǎng)景下,大規(guī)模集群中大量的心跳消息會(huì)對(duì)網(wǎng)絡(luò)性能造成影響,并額外消耗計(jì)算資源。H3C UniStor X20000系列,創(chuàng)新性地通過SOM存儲(chǔ)集成管理平臺(tái),實(shí)時(shí)監(jiān)控節(jié)點(diǎn)健康,制定中斷上報(bào)、事件上報(bào)和主動(dòng)輪訓(xùn)三種不同的上報(bào)方案,配合存儲(chǔ)軟件聯(lián)動(dòng),實(shí)現(xiàn)故障毫秒級(jí)上報(bào),性能影響<5%。不論是計(jì)劃內(nèi)的維護(hù)升級(jí)、擴(kuò)容還是計(jì)劃外的意外故障,業(yè)務(wù)都是“弱感知”,保障智算訓(xùn)練任務(wù)不間斷連續(xù)運(yùn)行。
在智算場(chǎng)景下,多租戶操作也是影響訓(xùn)練穩(wěn)定性的關(guān)鍵因素之一。多租戶環(huán)境下,單個(gè)軟件實(shí)例需要為多個(gè)不同的用戶組提供服務(wù),需要在數(shù)據(jù)的共享、安全隔離和性能間取得平衡。在處理敏感數(shù)據(jù)時(shí),數(shù)據(jù)安全的實(shí)現(xiàn)策略也會(huì)直接影響到不同租戶間的隔離程度。H3C UniStor Polaris X20000系列提供了全面的安全策略管理,支持租戶間資源隔離,確保每個(gè)租戶都有獨(dú)立的容量分配和性能QoS策略,實(shí)現(xiàn)模型訓(xùn)練過程中多租戶間的零干擾。
在智算平臺(tái)的建設(shè)過程中,數(shù)據(jù)存儲(chǔ)的穩(wěn)定性對(duì)算力有效供給有著重要意義。面向未來,新華三集團(tuán)將繼續(xù)秉持“精耕務(wù)實(shí),為時(shí)代賦智慧”的理念,不斷深化“內(nèi)生智能·成就智慧存儲(chǔ)”技術(shù)戰(zhàn)略,充分發(fā)揮自身在數(shù)字領(lǐng)域的創(chuàng)新優(yōu)勢(shì),加大產(chǎn)品創(chuàng)新力度,為百行百業(yè)構(gòu)筑澎湃算力提供穩(wěn)定的數(shù)據(jù)基石。
(來源:新華三)