4月16日,來自阿里(BABA)的消息,阿里巴巴(BABA)(BABA.US)正式發(fā)布世界模型產(chǎn)品HappyOyster(快樂生蠔),基于原生多模態(tài)架構(gòu),具備多模態(tài)理解與音視頻聯(lián)合生成能力。該產(chǎn)品由阿里(BABA)ATH創(chuàng)新事業(yè)部研發(fā),與HappyHorse同團(tuán)隊。
相比大語言模型相對成熟的模型架構(gòu)和技術(shù)范式,世界模型仍屬于前沿探索領(lǐng)域。阿里(BABA)的HappyOyster與谷歌(GOOG)的Genie3同屬于世界模擬器流派。區(qū)別于傳統(tǒng)文生視頻(886068)模型輸入提示詞、等待渲染、獲得成片的被動流程,這一流派采用長時間跨度上的世界演化建模方式。
HappyOyster實現(xiàn)“漫游”(Wander)與“導(dǎo)演”(Direct)兩大核心功能,支持用戶實時構(gòu)建可交互、可保存、可二次創(chuàng)作的AI數(shù)字世界。區(qū)別于傳統(tǒng)文生視頻(886068)的被動流程,其采用長時序世界演化建模,融合文本、動作、圖像等控制信號,主動模擬空間、物理與因果演化,實現(xiàn)生成質(zhì)量、時序與可控性協(xié)同優(yōu)化。
在漫游模式下,產(chǎn)品支持1分鐘連續(xù)位移與鏡頭控制,畫面質(zhì)量高、風(fēng)格泛化強;導(dǎo)演模式可實現(xiàn)3分鐘以上480p/720p實時生成,支持任意節(jié)點通過多模態(tài)指令改寫劇情、調(diào)度角色。當(dāng)前雙模式尚未完全融合,但未來將向“邊探索邊創(chuàng)造”演進(jìn)。
該模型已在游戲(881275)、影視、文旅及教育等領(lǐng)域展現(xiàn)應(yīng)用潛力,可降低內(nèi)容生產(chǎn)成本、縮短創(chuàng)意驗證周期(883436),并推動從被動觀看向沉浸交互躍遷。
