大數(shù)據(jù)

最高提速30%!高性能數(shù)據(jù)存儲加速大模型訓(xùn)練

ainet.cn   2024年12月25日

面對智算應(yīng)用的大規(guī)模部署,用戶的IT開支正在向GPU傾斜。在大模型訓(xùn)練的成本構(gòu)成中,硬件投資包括算力、運(yùn)力、存力,其中算力相關(guān)硬件投資占比80%。一個(gè)千億級參數(shù)的大模型,往往需要上萬顆GPU的算力,可在實(shí)際訓(xùn)練過程中,GPU的平均利用率卻不足50%。制約因素包括大模型參數(shù)需要頻繁調(diào)優(yōu)、訓(xùn)練中斷后恢復(fù)周期長、數(shù)據(jù)加載速度慢等等。如何確保智算系統(tǒng)高效運(yùn)行?加速算力的同時(shí),提升數(shù)據(jù)供給能力,或許是當(dāng)下應(yīng)對智算挑戰(zhàn)的最優(yōu)解。

大模型需要什么樣的存儲性能?

一次完整的AI大模型訓(xùn)練流程,通常分為數(shù)據(jù)集準(zhǔn)備、模型開發(fā)、模型訓(xùn)練、模型推理幾個(gè)階段。其中每個(gè)階段對數(shù)據(jù)存儲的性能需求并不十分一致,屬于混合復(fù)雜異構(gòu)的工作負(fù)載,要求數(shù)據(jù)存儲系統(tǒng)提供強(qiáng)大的綜合性能表現(xiàn)。

舉例來說,數(shù)據(jù)集準(zhǔn)備階段,涉及到不同終端、不同來源的大量數(shù)據(jù),來源豐富且規(guī)模巨大,這些數(shù)據(jù)都需要存儲到系統(tǒng)中,需要數(shù)據(jù)存儲提供較大的帶寬性能和高吞吐能力;此外,在長時(shí)間訓(xùn)練模型時(shí),需要定期將階段性的訓(xùn)練成果寫入硬盤,這個(gè)過程即Checkpoint,這個(gè)過程對存儲系統(tǒng)的小文件讀寫性能和帶寬性能都要求非常高,如果存儲系統(tǒng)性能不足,就會出現(xiàn)加載效率低,GPU空等的情況,從而拉低整個(gè)訓(xùn)練效率。

強(qiáng)悍存力,提升智算系統(tǒng)算力利用率

基于新一代傲擎平臺的新華三AI數(shù)據(jù)存儲平臺H3C UniStor Polaris X20000系列,通過對存儲軟件棧進(jìn)行重構(gòu)和優(yōu)化,大幅精簡系統(tǒng)無效IO,優(yōu)化數(shù)據(jù)讀寫路徑,單節(jié)點(diǎn)性能就可實(shí)現(xiàn)80GB帶寬和200萬IOPS,大幅提升不同階段的數(shù)據(jù)加載效率,可以減少30%的訓(xùn)練等待時(shí)間,保障智算系統(tǒng)的有效算力供給。

Polaris X20000系列通過多項(xiàng)技術(shù)革新提升在智算場景下的性能體驗(yàn),包括:

元數(shù)據(jù)性能優(yōu)化

對高性能智算存儲來說,元數(shù)據(jù)管理是至關(guān)重要的部分,將直接影響到文件系統(tǒng)的性能、可擴(kuò)展性和可靠性。Polaris X20000系列創(chuàng)新性地針對分布式kv數(shù)據(jù)庫進(jìn)行了優(yōu)化,來支撐整個(gè)元數(shù)據(jù)讀寫需求;同時(shí)設(shè)計(jì)了多級的元數(shù)據(jù)緩存,對元數(shù)據(jù)緩存結(jié)構(gòu)做了針對性精簡,減少內(nèi)存占用,對元數(shù)據(jù)訪問具有極大的加速效果。此外,采取多MDS、元數(shù)據(jù)打散、元數(shù)據(jù)協(xié)程化免鎖等多種元數(shù)據(jù)性能優(yōu)化手段,提升Polaris X20000系列的性能表現(xiàn)。

CPU智能分組

Polaris X20000系列針對AI/HPC 場景做了深度分析和軟件優(yōu)化設(shè)計(jì),對CPU實(shí)現(xiàn)智能分組、綁核處理,實(shí)現(xiàn)專核專用,避免資源搶占,減少核間調(diào)度,最大程度發(fā)揮CPU性能。

高性能EPC客戶端

同時(shí),通過獨(dú)有的高性能EPC客戶端,Polaris X20000系列可同時(shí)連接多個(gè)存儲節(jié)點(diǎn),對上層應(yīng)用提供標(biāo)準(zhǔn)POSIX和MPI-IO接口,獲得更好的兼容性和更優(yōu)的性能,多存儲節(jié)點(diǎn)實(shí)現(xiàn)IO級負(fù)載均衡,最大程度發(fā)揮單節(jié)點(diǎn)性能。

AI訓(xùn)練綜合負(fù)載能力提升

高帶寬:通過RDMA、內(nèi)存零拷貝、EPC、400G網(wǎng)絡(luò)(結(jié)合硬件交換機(jī))提升系統(tǒng)并行訪問能力,實(shí)現(xiàn)高帶寬性能;

高IOPS:通過Dcache技術(shù),在小IO讀寫時(shí),先寫入高速緩存層,并通過ROW寫時(shí)重定向快照,將多個(gè)小IO聚合成為大IO再一次性落盤,提升IOPS性能表現(xiàn);

混合負(fù)載優(yōu)化:在 EC邏輯層之上引入加速引擎層,對不同IO實(shí)現(xiàn)分組與流控調(diào)度,可同時(shí)滿足大IO高帶寬、小IO高IOPS與低時(shí)延的“混合負(fù)載”需求。

當(dāng)前,大模型參數(shù)從千億向萬億演進(jìn),更大的模型參數(shù)需要更大規(guī)模的算力供給。新華三基于對智算場景的深入理解,對數(shù)據(jù)存儲產(chǎn)品實(shí)現(xiàn)持續(xù)優(yōu)化。面向未來,新華三集團(tuán)將秉持“精耕務(wù)實(shí),為時(shí)代賦智慧”的理念,不斷深化“內(nèi)生智能·成就智慧存儲”技術(shù)戰(zhàn)略,充分發(fā)揮自身在數(shù)字領(lǐng)域的創(chuàng)新優(yōu)勢,持續(xù)推動產(chǎn)品的智能進(jìn)化,攜手百行百業(yè)激發(fā)數(shù)據(jù)潛能,邁向智能新未來。

(來源:新華三)

標(biāo)簽:新華三 我要反饋 
泰科電子ECK、ECP系列高壓直流接觸器白皮書下載
ABB協(xié)作機(jī)器人,自動化從未如此簡單
優(yōu)傲機(jī)器人下載中心
億萬克
專題報(bào)道
聚力同行 · 新智“碳”索
聚力同行 · 新智“碳”索

“新華社-智能·零碳”項(xiàng)目策劃以“聚力同行·新智‘碳’索”為主題的新能源專題,主要圍繞光伏、儲能、鋰電、氫能、風(fēng)能五大新... [更多]

2025中國國際機(jī)床展覽會
2025中國國際機(jī)床展覽會

4月21至26日,以“融合創(chuàng)新,數(shù)智未來”為主題的第十九屆中國國際機(jī)床展覽會在首都國際會展中心盛大舉辦。憑借場館的卓越服... [更多]

2023-2024 智能·零碳成果展映
2023-2024 智能·零碳成果展映

“2023-2024智能·零碳成果展映”展示國內(nèi)外企業(yè)推進(jìn)“雙碳”實(shí)踐的最新成果,鼓勵(lì)更多企業(yè)、科研機(jī)構(gòu)、投資機(jī)構(gòu)等廣泛... [更多]