4月3日,阿里云通義實驗室宣布視頻生成模型 Wan2.7-Video 正式上線。該模型支持文本、圖像、視頻、音頻全模態(tài)輸入,聚焦“創(chuàng)作”全鏈路,覆蓋生成、編輯、復(fù)刻、重塑、驅(qū)動、續(xù)寫、參考等流程,號稱更可控、更全能、“能導(dǎo)擅演”。
據(jù)悉,Wan2.7 支持文本、圖像、視頻、音頻全模態(tài)輸入,在畫面結(jié)構(gòu)、劇情走向、局部細節(jié)、時序變化等方面均可隨心控制,讓視頻像文檔一樣可編輯。
用戶可以通過指令對視頻畫面進行局部調(diào)整,編輯后的區(qū)域在光影與材質(zhì)上能與原視頻自然融合。同時,其支持指令增刪元素(如“刪掉視頻中的火車”)、替換物體(如“把膠片替換成盤子”),也可修改物體屬性(如建筑顏色)。支持參考圖像內(nèi)容進行精準添加。
該模型還支持變換環(huán)境與風格,人物動作不變,背景季節(jié)可從夏日變深秋,或一鍵轉(zhuǎn)換為羊毛氈風格,瞬間穿越平行宇宙。
此外,其還支持視頻質(zhì)量提升(如給黑白畫面上色)、視覺理解任務(wù)(如主體分割)及拍攝方式調(diào)整(如修改對焦)等,滿足多樣編輯需求。
對已經(jīng)拍攝或生成的視頻內(nèi)容,支持通過指令描述實現(xiàn)劇情內(nèi)容和拍攝方法的修改。Wan2.7 允許你在不改變原有身份和場景的前提下,對角色的行為、臺詞甚至拍攝視角進行顛覆性修改,實現(xiàn)靈活的二次創(chuàng)作。同時,其支持修改角色所講的臺詞內(nèi)容,保持其情緒、口型與新臺詞匹配,并保持音色統(tǒng)一。也可以修改行為,如“其他保持不變,坐沙發(fā)上的女生變?yōu)檎局?span>游戲(881275)”,僅動作邏輯改變。
該模型還支持同場景角色的顛覆演繹,如將玩家替換為中世紀騎士,手中控制器替換為冷兵器,但保持原有握持姿勢不變。也可修改拍攝相機設(shè)定(機位、視角、景別、鏡頭類型、焦距等)。例如“將鏡頭修改為從地面逐漸向上升起”,同一素材呈現(xiàn)截然不同的觀影體驗。
該模型能夠通過首尾幀、視頻續(xù)寫、續(xù)寫 + 尾幀等方式,實現(xiàn)對劇情走向和畫面構(gòu)圖、光影的精準控制,兼顧動態(tài)延續(xù)性與結(jié)構(gòu)可控性。
其還支持圖像、視頻、音頻等多模態(tài)參考,實現(xiàn)外觀和音色的鎖定。支持多達 5 個視頻主體參考,讓每個角色都有專屬音色,多鏡頭間特征保持更一致。
