全球領先!中科曙光發布scaleX萬卡超集群

12月18日消息,全球群中科曙光宣布,領先中科曙光近日正式發布全球領先的中科大規模智能計算系統——scaleX萬卡超集群。這也是曙光國產萬卡級AI集群首次以真機形式對外亮相。

scaleX萬卡超集群是發布曙光基于大型計算機系統研制經驗,面向萬億參數大模型訓練、超集科學智能等復雜場景打造的全球群大規模智能算力基礎設施。

中科曙光高級副總裁李斌表示,領先為應對人工智能基礎設施對性能、中科效率與可靠性的曙光極致需求,該系統在超節點架構、發布高速互連網絡、超集存儲性能及系統調度等方面實現多項突破,全球群部分技術能力已超越海外同類產品2027年的領先規劃節點。

該集群的中科核心技術優勢主要體現在以下四個方面:

全球首創單機柜級640卡超節點

scaleX萬卡超集群由16個scaleX640超節點通過高速網絡互連組成,可部署10240塊AI加速卡,總算力規模超過5EFlops。作為全球首個單機柜級640卡超節點,scaleX640采用超高密度刀片與浸沒相變液冷技術,將單機柜算力密度提升20倍,PUE值降至1.04。

自主研發原生RDMA高速網絡

搭載曙光自研的scaleFabric網絡,基于國內首款400G類InfiniBand原生RDMA網卡與交換芯片,實現400Gb/s超高帶寬與低于1微秒的端側通信延遲。該網絡支持超節點間高性能通信,可輕松將集群擴展至10萬卡以上,相比傳統IB網絡性能提升2.33倍,總體成本降低30%。

存算傳緊耦合深度優化

通過“超級隧道”、AI數據加速等設計,實現從芯片、系統到應用的三級數據傳輸協同優化,高效支撐大模型訓練中萬卡并發讀寫的帶寬需求,提升AI推理響應速度與精度,并將AI加速卡資源利用率提高55%。

超集群數字孿生與智能調度

依托物理集群數字孿生技術,實現故障定位與修復的全流程可視化智能管理。智能化運維平臺支持集群長期可用性達99.99%;調度引擎可管理萬級節點、服務十萬級用戶,支持每秒萬級作業調度。

作為“AI計算開放架構”的最新成果,scaleX萬卡超集群支持多品牌加速卡及主流計算生態,已完成400余個主流大模型與世界模型的適配優化。該系統可廣泛應用于大模型訓練、金融風控、地質能源勘探及科學智能等多個領域。

“AI計算開放架構”由中科曙光聯合20余家AI產業鏈企業共同推進,旨在通過共性技術共享與系統工程方法推動智算集群創新。scaleX萬卡超集群的推出,將有助于降低AI企業研發門檻,推動行業從技術“單點突破”邁向產業“生態共進”,真正實現開放、普惠的算力服務。

探索
上一篇:蘋果被迫放開!日本App Store重大更新:支持第三方商店及支付
下一篇:運營29年的英睿達被棄!美光很開心:不干消費級市場賺翻了 明年產能都賣完