4月16日,中國證券報·中證金牛座記者獲悉,阿里巴巴(BABA)發(fā)布可實時構建和交互的世界模型產(chǎn)品HappyOyster(中文名:快樂生蠔)。該模型基于原生多模態(tài)架構研發(fā),支持多模態(tài)理解與音視頻聯(lián)合生成。目前產(chǎn)品可實現(xiàn)漫游(Wander)和導演(Direct)兩大核心能力,用戶可以實時構建可互動、可演繹、可探索的AI數(shù)字世界。同時,用戶生成的數(shù)字世界,不僅能被完整保存,還能開放給其他用戶進行二次創(chuàng)作。該產(chǎn)品由阿里(BABA)ATH創(chuàng)新事業(yè)部團隊研發(fā),與HappyHorse同屬一個團隊。
相較于大語言模型相對成熟的模型架構和技術范式,世界模型仍屬于前沿探索階段。阿里(BABA)的HappyOyster與谷歌(GOOG)的Genie 3同屬于世界模擬器流派。區(qū)別于傳統(tǒng)文生視頻(886068)模型輸入提示詞、等待渲染、獲得成片的被動流程,這一流派采用長時間跨度上的世界演化建模方式。通過學習海量長視頻數(shù)據(jù),以及文本、動作指令、圖像參考等多樣控制信號,模型能夠主動理解空間、物理與因果規(guī)律,預測情節(jié)和畫面的演變,從而把“被動生成內容”轉變?yōu)椤爸鲃幽M世界演化”,為構建可交互的通用世界模擬器提供了關鍵技術路徑。
相比谷歌(GOOG),阿里(BABA)發(fā)布的HappyOyster采用了時間跨度更長的世界演化建模方式,使得模型能夠保持高保真、長時序的動態(tài)場景生成。在產(chǎn)品能力上,HappyOyster不僅能支持漫游探索,還提供實時導演功能,用戶可通過自然語言指令隨時介入世界演化、調度角色事件,實現(xiàn)從被動探索到主動創(chuàng)作的跨越。通過漫游和導演的雙模式,HappyOyster能夠為用戶帶來沉浸式的世界交互體驗。
具體來看,在漫游模式中,用戶僅需一句話或一張圖,即可生成具備物理一致性的完整空間,物體位置穩(wěn)定、場景持久存在,視角與光照也能跟隨第一人稱視角持續(xù)移動;此外,用戶能自由切換方向與鏡頭運動,突破初始畫框的邊界,體驗無限延展的探索樂趣。在導演模式中,用戶能夠在視頻的任意節(jié)點,通過文字、語音或圖像等多模態(tài)輸入,隨時實現(xiàn)鏡頭切換、劇情改寫、角色調度,在充分的交互中生成一個光照、重力、角色動作與場景因果持續(xù)演化的世界,并能選擇題材風格。HappyOyster的導演模式支持連續(xù)生成3分鐘以上的480p或720p實時畫面。
不過,當前,漫游與導演兩大模式尚未完全打通,但阿里(BABA)方面表示,未來用戶有望在漫游過程中直接與世界深度互動、實時改寫場景規(guī)則,真正實現(xiàn)邊探索、邊創(chuàng)造的無縫融合體驗。世界模型的發(fā)展仍處于早期階段,但在實際應用中,HappyOyster已在改變傳統(tǒng)的內容創(chuàng)作模式和交互體驗,如游戲(881275)領域、影視創(chuàng)作以及文旅、教育領域都有應用空間。未來,HappyOyster還能應用于線下智能空間或娛樂場景,例如與穿戴設備等智能硬件結合,根據(jù)人的位置、動作與語言動態(tài),實時生成沉浸式內容,讓數(shù)字世界與現(xiàn)實共振。
