4月16日,中國(guó)證券報(bào)·中證金牛座記者獲悉,阿里巴巴(BABA)發(fā)布可實(shí)時(shí)構(gòu)建和交互的世界模型產(chǎn)品HappyOyster(中文名:快樂(lè)生蠔)。該模型基于原生多模態(tài)架構(gòu)研發(fā),支持多模態(tài)理解與音視頻聯(lián)合生成。目前產(chǎn)品可實(shí)現(xiàn)漫游(Wander)和導(dǎo)演(Direct)兩大核心能力,用戶(hù)可以實(shí)時(shí)構(gòu)建可互動(dòng)、可演繹、可探索的AI數(shù)字世界。同時(shí),用戶(hù)生成的數(shù)字世界,不僅能被完整保存,還能開(kāi)放給其他用戶(hù)進(jìn)行二次創(chuàng)作。該產(chǎn)品由阿里(BABA)ATH創(chuàng)新事業(yè)部團(tuán)隊(duì)研發(fā),與HappyHorse同屬一個(gè)團(tuán)隊(duì)。
相較于大語(yǔ)言模型相對(duì)成熟的模型架構(gòu)和技術(shù)范式,世界模型仍屬于前沿探索階段。阿里(BABA)的HappyOyster與谷歌(GOOG)的Genie 3同屬于世界模擬器流派。區(qū)別于傳統(tǒng)文生視頻(886068)模型輸入提示詞、等待渲染、獲得成片的被動(dòng)流程,這一流派采用長(zhǎng)時(shí)間跨度上的世界演化建模方式。通過(guò)學(xué)習(xí)海量長(zhǎng)視頻數(shù)據(jù),以及文本、動(dòng)作指令、圖像參考等多樣控制信號(hào),模型能夠主動(dòng)理解空間、物理與因果規(guī)律,預(yù)測(cè)情節(jié)和畫(huà)面的演變,從而把“被動(dòng)生成內(nèi)容”轉(zhuǎn)變?yōu)椤爸鲃?dòng)模擬世界演化”,為構(gòu)建可交互的通用世界模擬器提供了關(guān)鍵技術(shù)路徑。
相比谷歌(GOOG),阿里(BABA)發(fā)布的HappyOyster采用了時(shí)間跨度更長(zhǎng)的世界演化建模方式,使得模型能夠保持高保真、長(zhǎng)時(shí)序的動(dòng)態(tài)場(chǎng)景生成。在產(chǎn)品能力上,HappyOyster不僅能支持漫游探索,還提供實(shí)時(shí)導(dǎo)演功能,用戶(hù)可通過(guò)自然語(yǔ)言指令隨時(shí)介入世界演化、調(diào)度角色事件,實(shí)現(xiàn)從被動(dòng)探索到主動(dòng)創(chuàng)作的跨越。通過(guò)漫游和導(dǎo)演的雙模式,HappyOyster能夠?yàn)橛脩?hù)帶來(lái)沉浸式的世界交互體驗(yàn)。
具體來(lái)看,在漫游模式中,用戶(hù)僅需一句話(huà)或一張圖,即可生成具備物理一致性的完整空間,物體位置穩(wěn)定、場(chǎng)景持久存在,視角與光照也能跟隨第一人稱(chēng)視角持續(xù)移動(dòng);此外,用戶(hù)能自由切換方向與鏡頭運(yùn)動(dòng),突破初始畫(huà)框的邊界,體驗(yàn)無(wú)限延展的探索樂(lè)趣。在導(dǎo)演模式中,用戶(hù)能夠在視頻的任意節(jié)點(diǎn),通過(guò)文字、語(yǔ)音或圖像等多模態(tài)輸入,隨時(shí)實(shí)現(xiàn)鏡頭切換、劇情改寫(xiě)、角色調(diào)度,在充分的交互中生成一個(gè)光照、重力、角色動(dòng)作與場(chǎng)景因果持續(xù)演化的世界,并能選擇題材風(fēng)格。HappyOyster的導(dǎo)演模式支持連續(xù)生成3分鐘以上的480p或720p實(shí)時(shí)畫(huà)面。
不過(guò),當(dāng)前,漫游與導(dǎo)演兩大模式尚未完全打通,但阿里(BABA)方面表示,未來(lái)用戶(hù)有望在漫游過(guò)程中直接與世界深度互動(dòng)、實(shí)時(shí)改寫(xiě)場(chǎng)景規(guī)則,真正實(shí)現(xiàn)邊探索、邊創(chuàng)造的無(wú)縫融合體驗(yàn)。世界模型的發(fā)展仍處于早期階段,但在實(shí)際應(yīng)用中,HappyOyster已在改變傳統(tǒng)的內(nèi)容創(chuàng)作模式和交互體驗(yàn),如游戲(881275)領(lǐng)域、影視創(chuàng)作以及文旅、教育領(lǐng)域都有應(yīng)用空間。未來(lái),HappyOyster還能應(yīng)用于線下智能空間或娛樂(lè)場(chǎng)景,例如與穿戴設(shè)備等智能硬件結(jié)合,根據(jù)人的位置、動(dòng)作與語(yǔ)言動(dòng)態(tài),實(shí)時(shí)生成沉浸式內(nèi)容,讓數(shù)字世界與現(xiàn)實(shí)共振。
