12月18日消息,全球群中科曙光宣布,領(lǐng)先中科曙光近日正式發(fā)布全球領(lǐng)先的中科大規(guī)模智能計(jì)算系統(tǒng)——scaleX萬卡超集群。這也是曙光國產(chǎn)萬卡級AI集群首次以真機(jī)形式對外亮相。
scaleX萬卡超集群是發(fā)布曙光基于大型計(jì)算機(jī)系統(tǒng)研制經(jīng)驗(yàn),面向萬億參數(shù)大模型訓(xùn)練、超集科學(xué)智能等復(fù)雜場景打造的全球群大規(guī)模智能算力基礎(chǔ)設(shè)施。
中科曙光高級副總裁李斌表示,領(lǐng)先為應(yīng)對人工智能基礎(chǔ)設(shè)施對性能、中科效率與可靠性的曙光極致需求,該系統(tǒng)在超節(jié)點(diǎn)架構(gòu)、發(fā)布高速互連網(wǎng)絡(luò)、超集存儲性能及系統(tǒng)調(diào)度等方面實(shí)現(xiàn)多項(xiàng)突破,全球群部分技術(shù)能力已超越海外同類產(chǎn)品2027年的領(lǐng)先規(guī)劃節(jié)點(diǎn)。
該集群的中科核心技術(shù)優(yōu)勢主要體現(xiàn)在以下四個(gè)方面:
全球首創(chuàng)單機(jī)柜級640卡超節(jié)點(diǎn)
scaleX萬卡超集群由16個(gè)scaleX640超節(jié)點(diǎn)通過高速網(wǎng)絡(luò)互連組成,可部署10240塊AI加速卡,總算力規(guī)模超過5EFlops。作為全球首個(gè)單機(jī)柜級640卡超節(jié)點(diǎn),scaleX640采用超高密度刀片與浸沒相變液冷技術(shù),將單機(jī)柜算力密度提升20倍,PUE值降至1.04。
自主研發(fā)原生RDMA高速網(wǎng)絡(luò)
搭載曙光自研的scaleFabric網(wǎng)絡(luò),基于國內(nèi)首款400G類InfiniBand原生RDMA網(wǎng)卡與交換芯片,實(shí)現(xiàn)400Gb/s超高帶寬與低于1微秒的端側(cè)通信延遲。該網(wǎng)絡(luò)支持超節(jié)點(diǎn)間高性能通信,可輕松將集群擴(kuò)展至10萬卡以上,相比傳統(tǒng)IB網(wǎng)絡(luò)性能提升2.33倍,總體成本降低30%。
存算傳緊耦合深度優(yōu)化
通過“超級隧道”、AI數(shù)據(jù)加速等設(shè)計(jì),實(shí)現(xiàn)從芯片、系統(tǒng)到應(yīng)用的三級數(shù)據(jù)傳輸協(xié)同優(yōu)化,高效支撐大模型訓(xùn)練中萬卡并發(fā)讀寫的帶寬需求,提升AI推理響應(yīng)速度與精度,并將AI加速卡資源利用率提高55%。
超集群數(shù)字孿生與智能調(diào)度
依托物理集群數(shù)字孿生技術(shù),實(shí)現(xiàn)故障定位與修復(fù)的全流程可視化智能管理。智能化運(yùn)維平臺支持集群長期可用性達(dá)99.99%;調(diào)度引擎可管理萬級節(jié)點(diǎn)、服務(wù)十萬級用戶,支持每秒萬級作業(yè)調(diào)度。
作為“AI計(jì)算開放架構(gòu)”的最新成果,scaleX萬卡超集群支持多品牌加速卡及主流計(jì)算生態(tài),已完成400余個(gè)主流大模型與世界模型的適配優(yōu)化。該系統(tǒng)可廣泛應(yīng)用于大模型訓(xùn)練、金融風(fēng)控、地質(zhì)能源勘探及科學(xué)智能等多個(gè)領(lǐng)域。
“AI計(jì)算開放架構(gòu)”由中科曙光聯(lián)合20余家AI產(chǎn)業(yè)鏈企業(yè)共同推進(jìn),旨在通過共性技術(shù)共享與系統(tǒng)工程方法推動(dòng)智算集群創(chuàng)新。scaleX萬卡超集群的推出,將有助于降低AI企業(yè)研發(fā)門檻,推動(dòng)行業(yè)從技術(shù)“單點(diǎn)突破”邁向產(chǎn)業(yè)“生態(tài)共進(jìn)”,真正實(shí)現(xiàn)開放、普惠的算力服務(wù)。