12月17日消息,騰訊今日,混元騰訊混元宣布,世界首次時世騰訊混元世界模型1.5正式發(fā)布,模型面實只需輸入文字描述或者圖片即可創(chuàng)建專屬的發(fā)布互動世界。
通過鍵盤、開源鼠標(biāo)或手柄,業(yè)界即可實時控制虛擬相機(jī)的最全移動和轉(zhuǎn)向,讓用戶可以像玩游戲一樣自由探索AI生成的界模架世界。
該模型首次開源業(yè)界最系統(tǒng)、型框最全面的騰訊實時世界模型框架,涵蓋數(shù)據(jù)、混元訓(xùn)練、世界首次時世流式推理部署等全鏈路、模型面實全環(huán)節(jié),發(fā)布并提出了重構(gòu)記憶力、長上下文蒸餾、基于3D的自回歸擴(kuò)散模型強(qiáng)化學(xué)習(xí)等算法模塊。
戲場景生成
混元世界模型1.5具備三大核心能力:
1、實時的交互生成:通過原創(chuàng)的Context Forcing蒸餾方案以及流式推理優(yōu)化,模型可以按照24 FPS的速度生成720P的高清視頻;
2、長范圍的3D一致性:通過重構(gòu)記憶機(jī)制(Reconstituted Memory),模型支持分鐘級內(nèi)容的幾何一致性生成,可用于構(gòu)建高質(zhì)量的3D空間模擬器;
3、多樣化的交互體驗:混元世界模型可廣泛適用于不同風(fēng)格的游戲或者現(xiàn)實場景,以及第一和第三人稱視角,也支持實時文本觸發(fā)事件和視頻續(xù)寫等功能。
據(jù)介紹,混元世界模型1.5的核心是WorldPlay自回歸擴(kuò)散模型,采用Next-Frames-Prediction的視覺自回歸任務(wù)進(jìn)行訓(xùn)練,實現(xiàn)長范圍幾何一致性的實時交互式世界建模,破解了業(yè)界滿足實時性與幾何一致性的難題。







