12月18日消息,全球群中科曙光宣布,領先中科曙光近日正式發(fā)布全球領先的中科大規(guī)模智能計算系統(tǒng)——scaleX萬卡超集群。這也是曙光國產萬卡級AI集群首次以真機形式對外亮相。
scaleX萬卡超集群是發(fā)布曙光基于大型計算機系統(tǒng)研制經驗,面向萬億參數大模型訓練、超集科學智能等復雜場景打造的全球群大規(guī)模智能算力基礎設施。
中科曙光高級副總裁李斌表示,領先為應對人工智能基礎設施對性能、中科效率與可靠性的曙光極致需求,該系統(tǒng)在超節(jié)點架構、發(fā)布高速互連網絡、超集存儲性能及系統(tǒng)調度等方面實現多項突破,全球群部分技術能力已超越海外同類產品2027年的領先規(guī)劃節(jié)點。
該集群的中科核心技術優(yōu)勢主要體現在以下四個方面:
全球首創(chuàng)單機柜級640卡超節(jié)點
scaleX萬卡超集群由16個scaleX640超節(jié)點通過高速網絡互連組成,可部署10240塊AI加速卡,總算力規(guī)模超過5EFlops。作為全球首個單機柜級640卡超節(jié)點,scaleX640采用超高密度刀片與浸沒相變液冷技術,將單機柜算力密度提升20倍,PUE值降至1.04。
自主研發(fā)原生RDMA高速網絡
搭載曙光自研的scaleFabric網絡,基于國內首款400G類InfiniBand原生RDMA網卡與交換芯片,實現400Gb/s超高帶寬與低于1微秒的端側通信延遲。該網絡支持超節(jié)點間高性能通信,可輕松將集群擴展至10萬卡以上,相比傳統(tǒng)IB網絡性能提升2.33倍,總體成本降低30%。
存算傳緊耦合深度優(yōu)化
通過“超級隧道”、AI數據加速等設計,實現從芯片、系統(tǒng)到應用的三級數據傳輸協(xié)同優(yōu)化,高效支撐大模型訓練中萬卡并發(fā)讀寫的帶寬需求,提升AI推理響應速度與精度,并將AI加速卡資源利用率提高55%。
超集群數字孿生與智能調度
依托物理集群數字孿生技術,實現故障定位與修復的全流程可視化智能管理。智能化運維平臺支持集群長期可用性達99.99%;調度引擎可管理萬級節(jié)點、服務十萬級用戶,支持每秒萬級作業(yè)調度。
作為“AI計算開放架構”的最新成果,scaleX萬卡超集群支持多品牌加速卡及主流計算生態(tài),已完成400余個主流大模型與世界模型的適配優(yōu)化。該系統(tǒng)可廣泛應用于大模型訓練、金融風控、地質能源勘探及科學智能等多個領域。
“AI計算開放架構”由中科曙光聯合20余家AI產業(yè)鏈企業(yè)共同推進,旨在通過共性技術共享與系統(tǒng)工程方法推動智算集群創(chuàng)新。scaleX萬卡超集群的推出,將有助于降低AI企業(yè)研發(fā)門檻,推動行業(yè)從技術“單點突破”邁向產業(yè)“生態(tài)共進”,真正實現開放、普惠的算力服務。