騰訊近日宣布開源"混元世界模型1.0",這款生成式AI模型能夠根據文本或圖像提示自動創建3D虛擬場景。
據騰訊官方介紹,這是首個專為標準圖形管線設計的開源模型,可完美兼容游戲引擎、VR平臺和仿真工具。該模型旨在幫助創作者突破專利壁壘,快速實現從概念到3D內容的轉化。
三組由混元世界模型1.0生成的360度全景圖,展示了如何通過文本提示自動創建適用于游戲引擎的沉浸式3D場景。| 圖片來源:騰訊(截圖)
該模型的核心特性是支持場景元素解耦——用戶可單獨移動或編輯場景中的車輛、樹木、家具等元素。天空區域被智能分離,可作為動態光源使用,顯著提升渲染真實感與交互體驗。
混元世界模型1.0支持生成后對場景元素進行獨立編輯。| 圖片來源:騰訊
全景交互與有限探索
混元世界模型1.0融合了全景圖像生成與分層3D重建技術,支持"文本生成世界"和"圖像生成世界"兩種輸入模式。生成的場景可導出為網格文件,騰訊表示其能無縫對接標準3D工作流程。
實際應用中,該模型暫不能生成類似現代電子游戲中完全可探索的3D世界,而是提供可交互的360度全景場景。用戶雖能環視并有限導航,但自由移動仍受限制。如需實現高級鏡頭運動或生成長時間連貫的3D視頻序列,需配合騰訊近期論文中公布的Voyager擴展模塊使用。
騰訊認為這些可視化成果可作為VR開發的起點,同時該模型也適用于各類交互與創意場景。其文本理解能力專為精準映射復雜場景描述而優化,并支持多種面向網頁和VR環境的壓縮加速技術。模型采用生成式語義分層架構,可產出多風格場景滿足創意設計需求。
混元世界模型1.0已在GitHub和Hugging Face開源,用戶可通過sceneTo3D體驗交互演示(需中國大陸地區賬號登錄)。
此次發布是騰訊AI開源戰略的重要組成。同期開源的還包括:混元3D 2.0(帶紋理3D模型生成)、混元視頻(AI視頻生成)以及具備動態推理能力的混元-A13B語言模型。
精選文章: