【
智慧城市網 上市公司】伴隨著智算需求的增長,GPU算力投資已占到AI加速芯片銷量的80%以上,但相關統計數據顯示,在實際模型訓練場景下,GPU的平均利用率卻不足50%。
究其原因,由于數據存儲的可靠性不足導致的訓練中斷尤為突出。例如,訓練數據的讀寫中斷、租戶間資源相互干擾、計劃內的擴容升級以及計劃外的宕機等,都會引起算力資源的空耗,從而降低GPU的整體利用率。而解決這一困擾的關鍵,在于一套高度穩定、多層級可靠的數據存儲系統,提供堅實的數據底座支撐。
軟硬件協同創新
重構分布式存儲可靠性體驗
新華三下一代AI數據存儲平臺H3C UniStor Polaris X20000系列,通過對分布式存儲的軟硬件協同創新,基于獨特的NVMe高密全閃架構,結合新華三傲擎數據存儲底層平臺,實現了媲美集中式存儲的性能和可靠性體驗。在系統整體設計方面,H3C UniStor Polaris X20000系列所有組件,不管是硬件還是軟件,都采用了“冗余、多活、自動隔離和自愈”的設計,形成多層級可靠性方案。
傳統的分布式存儲系統,采用節點間心跳的方式監控各節點狀態。在智算訓練場景下,大規模集群中大量的心跳消息會對網絡性能造成影響,并額外消耗計算資源。H3C UniStor X20000系列,創新性地通過SOM存儲集成管理平臺,實時監控節點健康,制定中斷上報、事件上報和主動輪訓三種不同的上報方案,配合存儲軟件聯動,實現故障毫秒級上報,性能影響<5%。不論是計劃內的維護升級、擴容還是計劃外的意外故障,業務都是“弱感知”,保障智算訓練任務不間斷連續運行。
在智算場景下,多租戶操作也是影響訓練穩定性的關鍵因素之一。多租戶環境下,單個軟件實例需要為多個不同的用戶組提供服務,需要在數據的共享、安全隔離和性能間取得平衡。在處理敏感數據時,數據安全的實現策略也會直接影響到不同租戶間的隔離程度。H3C UniStor Polaris X20000系列提供了全面的安全策略管理,支持租戶間資源隔離,確保每個租戶都有獨立的容量分配和性能QoS策略,實現模型訓練過程中多租戶間的零干擾。
在智算平臺的建設過程中,數據存儲的穩定性對算力有效供給有著重要意義。面向未來,新華三集團將繼續秉持“精耕務實,為時代賦智慧”的理念,不斷深化“內生智能·成就智慧存儲”技術戰略,充分發揮自身在數字領域的創新優勢,加大產品創新力度,為百行百業構筑澎湃算力提供穩定的數據基石。
版權與免責聲明:
凡本網注明“來源:智慧城市網”的所有作品,均為浙江興旺寶明通網絡有限公司-智慧城市網合法擁有版權或有權使用的作品,未經本網授權不得轉載、摘編或利用其它方式使用上述作品。已經本網授權使用作品的,應在授權范圍內使用,并注明“來源:智慧城市網”。違反上述聲明者,本網將追究其相關法律責任。
本網轉載并注明自其它來源(非智慧城市網)的作品,目的在于傳遞更多信息,并不代表本網贊同其觀點或和對其真實性負責,不承擔此類作品侵權行為的直接責任及連帶責任。其他媒體、網站或個人從本網轉載時,必須保留本網注明的作品第一來源,并自負版權等法律責任。
如涉及作品內容、版權等問題,請在作品發表之日起一周內與本網聯系,否則視為放棄相關權利。