12月17日消息,騰訊今日,混元騰訊混元宣布,世界首次時世騰訊混元世界模型1.5正式發布,模型面實只需輸入文字描述或者圖片即可創建專屬的發布互動世界。
通過鍵盤、開源鼠標或手柄,業界即可實時控制虛擬相機的最全移動和轉向,讓用戶可以像玩游戲一樣自由探索AI生成的界模架世界。
該模型首次開源業界最系統、型框最全面的騰訊實時世界模型框架,涵蓋數據、混元訓練、世界首次時世流式推理部署等全鏈路、模型面實全環節,發布并提出了重構記憶力、長上下文蒸餾、基于3D的自回歸擴散模型強化學習等算法模塊。
戲場景生成
混元世界模型1.5具備三大核心能力:
1、實時的交互生成:通過原創的Context Forcing蒸餾方案以及流式推理優化,模型可以按照24 FPS的速度生成720P的高清視頻;
2、長范圍的3D一致性:通過重構記憶機制(Reconstituted Memory),模型支持分鐘級內容的幾何一致性生成,可用于構建高質量的3D空間模擬器;
3、多樣化的交互體驗:混元世界模型可廣泛適用于不同風格的游戲或者現實場景,以及第一和第三人稱視角,也支持實時文本觸發事件和視頻續寫等功能。
據介紹,混元世界模型1.5的核心是WorldPlay自回歸擴散模型,采用Next-Frames-Prediction的視覺自回歸任務進行訓練,實現長范圍幾何一致性的實時交互式世界建模,破解了業界滿足實時性與幾何一致性的難題。
作者:知識







