12月17日消息,騰訊今日,混元騰訊混元宣布,世界首次時(shí)世騰訊混元世界模型1.5正式發(fā)布,模型面實(shí)只需輸入文字描述或者圖片即可創(chuàng)建專屬的發(fā)布互動(dòng)世界。
通過鍵盤、開源鼠標(biāo)或手柄,業(yè)界即可實(shí)時(shí)控制虛擬相機(jī)的最全移動(dòng)和轉(zhuǎn)向,讓用戶可以像玩游戲一樣自由探索AI生成的界模架世界。
該模型首次開源業(yè)界最系統(tǒng)、型框最全面的騰訊實(shí)時(shí)世界模型框架,涵蓋數(shù)據(jù)、混元訓(xùn)練、世界首次時(shí)世流式推理部署等全鏈路、模型面實(shí)全環(huán)節(jié),發(fā)布并提出了重構(gòu)記憶力、長(zhǎng)上下文蒸餾、基于3D的自回歸擴(kuò)散模型強(qiáng)化學(xué)習(xí)等算法模塊。
戲場(chǎng)景生成
混元世界模型1.5具備三大核心能力:
1、實(shí)時(shí)的交互生成:通過原創(chuàng)的Context Forcing蒸餾方案以及流式推理優(yōu)化,模型可以按照24 FPS的速度生成720P的高清視頻;
2、長(zhǎng)范圍的3D一致性:通過重構(gòu)記憶機(jī)制(Reconstituted Memory),模型支持分鐘級(jí)內(nèi)容的幾何一致性生成,可用于構(gòu)建高質(zhì)量的3D空間模擬器;
3、多樣化的交互體驗(yàn):混元世界模型可廣泛適用于不同風(fēng)格的游戲或者現(xiàn)實(shí)場(chǎng)景,以及第一和第三人稱視角,也支持實(shí)時(shí)文本觸發(fā)事件和視頻續(xù)寫等功能。
據(jù)介紹,混元世界模型1.5的核心是WorldPlay自回歸擴(kuò)散模型,采用Next-Frames-Prediction的視覺自回歸任務(wù)進(jìn)行訓(xùn)練,實(shí)現(xiàn)長(zhǎng)范圍幾何一致性的實(shí)時(shí)交互式世界建模,破解了業(yè)界滿足實(shí)時(shí)性與幾何一致性的難題。







