通義萬相視頻模型,再度迎來史詩級升級!處理復(fù)雜運(yùn)動(dòng)、還原真實(shí)物理規(guī)律等方面令人驚嘆,甚至業(yè)界首創(chuàng)了漢字視頻生成。現(xiàn)在,通義萬相直接以84.70%總分擊敗了一眾頂尖模型,登頂VBench榜首。
Sora、Veo2接連發(fā)布之后,AI視頻生成的戰(zhàn)場又熱鬧了起來。
就在昨天,通義萬相視頻生成模型迎來了重磅升級!
他們一口氣推出了兩個(gè)版本:注重高效的2.1極速版、追求卓越表現(xiàn)的2.1專業(yè)版。
剛一上線,就異常火爆,等待時(shí)間甚至一度達(dá)到了1小時(shí)
此次,全面升級的模型不僅在架構(gòu)上取得創(chuàng)新,更是以84.70%總分登頂權(quán)威評測榜單VBench榜首。
通義萬相2.1的性能一舉超越了Gen-3、CausVid等全球頂尖模型。
在實(shí)用性方面,通義萬相2.1也得到了顯著的提升,尤其是在處理復(fù)雜運(yùn)動(dòng)、還原真實(shí)物理規(guī)律、提升影視質(zhì)感、優(yōu)化指令遵循等方面。
以下都是我們實(shí)測出的Demos,就說夠不夠拍電影大片吧!
更令人驚嘆的是,它還在業(yè)界首次實(shí)現(xiàn)了中文文字視頻生成,讓AI視頻文字創(chuàng)作再無門檻。
以紅色新年宣紙為背景,出現(xiàn)一滴水墨,暈染墨汁緩緩暈染開來。文字的筆畫邊緣模糊且自然,隨著暈染的進(jìn)行,水墨在紙上呈現(xiàn)「福」字,墨色從深到淺過渡,呈現(xiàn)出獨(dú)特的東方韻味。背景高級簡潔,雜志攝影感。
從今天起,所有人皆可在通義萬相官網(wǎng)體驗(yàn)新模型,開發(fā)者則可以通過阿里云百煉直接調(diào)用API,阿里云也成為了國內(nèi)第一家實(shí)現(xiàn)視頻生成模型商業(yè)化的云廠商。
那么,通義萬相2.1究竟給我們帶來了哪些驚喜?
我們經(jīng)過一番實(shí)測后,總結(jié)出了5大要點(diǎn)。
1.首創(chuàng)中文文字生成
通常來說,文字生成是AI視頻模型進(jìn)化的一大痛點(diǎn)。
我們已經(jīng)看到Sora、Gen-3等模型,已經(jīng)能夠生成很好的英文字母效果,不過截至目前,從未有一個(gè)模型能攻克漢字的生成難題。
為什么之前的AI視頻生成工具,都在「逃避」中文文字生成這個(gè)難題?
這是因?yàn)殡y點(diǎn)在于,中文文字的字體結(jié)構(gòu)比英文更復(fù)雜,而且需要考慮筆畫的層次感。在布局方面,中文字體更講究,做成動(dòng)態(tài)效果時(shí)對美感要求更高。
而阿里通義萬相,便是首個(gè)中文文字視頻生成的模型。從此,AI視頻生成邁入「中文時(shí)代」!
這一切,只需要你動(dòng)動(dòng)手指,輸入簡單的文字提示就夠了。
天空中飄著云朵,云朵呈現(xiàn)「新年快樂」的字樣,微風(fēng)吹過,云朵隨著風(fēng)輕輕飄動(dòng)。
水彩透疊插畫風(fēng)格,兩只不同顏色的可愛小貓咪手舉著一條超大的魚,從右邊走到左邊。它們分別穿著粉色和藍(lán)色的小背心,眼睛圓圓的,表情呆萌。充滿童趣,筆觸淡雅溫馨,簡筆畫風(fēng)格。純白背景上逐漸顯示出來幾個(gè)字體,寫著:「摸魚一天快樂無邊」。
一只柯基坐在桌前冥想,背后一個(gè)「靜」字非常應(yīng)景。
一只柯基面前擺放著一只小巧的木魚,仿佛在進(jìn)行冥想儀式,背景出現(xiàn)字樣「靜」。
2.更穩(wěn)定的復(fù)雜運(yùn)動(dòng)生成
對于大多數(shù)AI視頻模型來說,無法逃脫「體操」魔咒。有人稱,這是AI視頻最新的「圖靈測試」。
你會(huì)經(jīng)常看到,AI體操視頻生成中,扭曲的肢體、不協(xié)調(diào)的動(dòng)作滿屏皆是。
這僅是復(fù)雜肢體運(yùn)動(dòng)的一種,因?yàn)樯婕暗骄?xì)細(xì)節(jié)和高水平動(dòng)作協(xié)調(diào),成為了AI視頻生成的一項(xiàng)重要評判標(biāo)準(zhǔn)。
生成一個(gè)人物復(fù)雜運(yùn)動(dòng),對于AI來說就像是在解一道物理難題——
它不僅要做到身體各個(gè)部位精準(zhǔn)配合,讓四肢保持協(xié)調(diào),還要考慮重力、人體運(yùn)動(dòng)特點(diǎn)、平衡感等各種細(xì)節(jié)。
在最新升級中,通義萬相在多種場景下展示了驚人的「運(yùn)動(dòng)天賦」。
滑冰、游泳、跳水這些極易出錯(cuò)的名場面,萬相2.1也通通Hold住,沒有出現(xiàn)任何詭異的肢體動(dòng)作,和不符合物理規(guī)律的場景。
平拍一位女性花樣滑冰運(yùn)動(dòng)員在冰場上進(jìn)行表演的全景。她穿著紫色的滑冰服,腳踩白色的滑冰鞋,正在進(jìn)行一個(gè)旋轉(zhuǎn)動(dòng)作。她的手臂張開,身體向后傾斜,展現(xiàn)了她的技巧和優(yōu)雅。
在泳池中,一名男子正在奮力向前游動(dòng)。近景俯拍鏡頭下,他穿著黑色泳衣,戴著白色泳帽和黑色泳鏡,正在水中劃動(dòng)雙臂。他的頭部部分被泳帽和泳鏡遮擋,只露出嘴巴和鼻子。他的手臂在水中劃動(dòng),產(chǎn)生了一系列的水花和氣泡。隨著他的動(dòng)作,水面上出現(xiàn)了漣漪,水花四濺。背景是藍(lán)色的泳池。
就看這個(gè)跳水動(dòng)作,完全就是一個(gè)專業(yè)級選手的樣子。肌肉的精準(zhǔn)控制、濺起的水花,都非常符合自然規(guī)律。
一名男子在跳臺上做專業(yè)跳水動(dòng)作。全景平拍鏡頭中,他穿著紅色泳褲,身體呈倒立狀態(tài),雙臂伸展,雙腿并攏。鏡頭下移,他跳入水中,濺起水花。背景中是藍(lán)色的泳池。
特寫鏡頭下,女孩以手指輕觸紅唇,然后開懷大笑。這么近的懟臉特寫,表情肌的走向和分布都十分自然,臉部紋路和嘴角笑起的弧線,也逼真似真人。
特寫鏡頭下,一位美女面容精致,她先是以手指輕觸紅唇,微微抿嘴,眼神中透露出一絲俏皮。緊接著,她毫無保留地開懷大笑,笑容如同綻放的花朵,美麗動(dòng)人,眼角彎成了月牙狀,展現(xiàn)出無比的快樂與感染力。
3.更靈活的運(yùn)鏡控制
同一個(gè)場景下的視頻,為什么專業(yè)人士拍出來就是不一樣?某種程度上講,秘訣在于「運(yùn)鏡」。
那么,對于AI來說,教它運(yùn)鏡就相當(dāng)于在教機(jī)器人當(dāng)導(dǎo)演。
它需要理解跟隨拍攝節(jié)奏、快慢推進(jìn)速度,還要保持協(xié)調(diào)性的問題,比如鏡頭移動(dòng)時(shí),主體不能丟失;運(yùn)鏡速度變化要自然,不能忽快忽慢。
更重要的是,AI還得有藝術(shù)感,運(yùn)鏡效果要符合視覺習(xí)慣,動(dòng)態(tài)美感要恰到好處。
在通義萬相2.1版本中,AI展現(xiàn)出了專業(yè)級的運(yùn)鏡效果。
穿著禪衣的小狐貍,在360度運(yùn)鏡下歡快跳舞,這不,夢幻般的效果一下子就來了。
穿著禪意風(fēng)服飾的可愛狐貍在林間空地上歡快地跳舞,身上的衣物隨風(fēng)輕揚(yáng)。狐貍有著蓬松的尾巴和靈動(dòng)的眼神,嘴角帶著微笑,仿佛在享受自然的每一刻。背景是茂密的竹林,陽光透過竹葉灑下斑駁光影。畫面采用旋轉(zhuǎn)拍攝,營造出夢幻般的動(dòng)感效果。整體風(fēng)格清新自然,充滿東方韻味。近景動(dòng)態(tài)特寫。
此外,新模型還能自動(dòng)根據(jù)場景需求,智能調(diào)整運(yùn)鏡速度,完美把控了鏡頭的節(jié)奏。
海王在暴風(fēng)雨中駕馭巨浪前行,這種級別的運(yùn)鏡絕對經(jīng)得起考驗(yàn),出現(xiàn)在大熒幕上也毫不違和。
暴風(fēng)雨中的海面,海王駕馭巨浪前行,肌肉線條,灰暗天空,戲劇性照明,動(dòng)態(tài)鏡頭,粗獷,高清,動(dòng)漫風(fēng)格
實(shí)驗(yàn)室中女醫(yī)生精心設(shè)計(jì)的特寫鏡頭,細(xì)膩的表情刻畫,以及背后燈光、實(shí)驗(yàn)器材等多種元素碰撞,讓整個(gè)角色立即具備了豐富的層次感。
富有電影感的鏡頭捕捉了一位身著暗黃色生化防護(hù)服的女醫(yī)生,實(shí)驗(yàn)室慘白的熒光燈將她的身影籠罩其中。鏡頭緩緩?fù)七M(jìn)她的面部特寫,細(xì)膩的橫向推移凸顯出她眉宇間深深刻畫的憂思與焦慮。她專注地俯身于實(shí)驗(yàn)臺前,目不轉(zhuǎn)睛地透過顯微鏡觀察,手套包裹的雙手正謹(jǐn)慎地微調(diào)著焦距。整個(gè)場景籠罩在壓抑的色調(diào)之中,防護(hù)服呈現(xiàn)出令人不安的黃色,與實(shí)驗(yàn)室冰冷的不銹鋼器械相互映襯,無聲地訴說著事態(tài)的嚴(yán)峻和未知的威脅。景深精確控制下,鏡頭對準(zhǔn)她眼中流露的恐懼,完美傳達(dá)出她肩負(fù)的重大壓力與責(zé)任。
下面這個(gè)鏡頭中,穿過一條兩盤種滿樹木的郊區(qū)住宅街道,給人一種實(shí)時(shí)拍攝的感覺。
Afast-trackingshotdownansuburbanresidentialstreetlinedwithtrees.Daytimewithaclearbluesky.Saturatedcolors,highcontrast
4.真實(shí)的物理規(guī)律模擬
AI視頻模型不理解物理世界,一直以來飽受詬病。
比如,Sora不僅會(huì)生成8條腿的螞蟻,而且眼瞧著手都要被切斷了,也切不開西紅柿,而通義萬相2.1切西紅柿就像發(fā)生在現(xiàn)實(shí)生活中一樣自然真實(shí)。
這一次,通義萬相在物理規(guī)律理解上,得到顯著提升。通過對現(xiàn)實(shí)世界動(dòng)態(tài)和細(xì)節(jié)深入認(rèn)知,就能模擬出真實(shí)感十足的視頻,避免「一眼假」情況的出現(xiàn)。
就看這個(gè)經(jīng)典切牛排的視頻,刀刃沿著肉質(zhì)紋理緩緩切入,表面上一層薄薄的油脂,在陽光下散發(fā)著誘人的光澤,每一處細(xì)節(jié)都盡顯質(zhì)感與鮮美。
在餐廳里,一個(gè)人正在切一塊熱氣騰騰的牛排。在特寫俯拍下,這個(gè)人右手拿著一把鋒利的刀,將刀放在牛排上,然后沿著牛排中心切開。這個(gè)人手上涂著白色指甲油,背景是虛化的,有一個(gè)白色的盤子,里面放著黃色的食物,還有一張棕色的桌子。
它具備更強(qiáng)大的概念組合能力,能夠準(zhǔn)確理解和整合元素級的概念,使其在生成內(nèi)容時(shí)更加智能。
比如,柯基+拳擊,會(huì)碰撞出什么呢?
AI生成的柯基打斗的畫面,真給人一種人類拳擊的現(xiàn)場感。
兩只柯基狗在擂臺中央進(jìn)行拳擊比賽。左邊的狗戴著黑色拳套,右邊的狗戴著紅色拳套。平拍鏡頭下,兩只狗都穿著拳擊短褲,身體肌肉線條明顯。它們互相揮動(dòng)拳頭,進(jìn)行攻防轉(zhuǎn)換。整個(gè)場景在固定視角下拍攝,沒有明顯的運(yùn)鏡變化。
AI大牛Karpathy最愛考驗(yàn)AI視頻的難題,就是「水獺在飛機(jī)上用wifi」。這道題,萬相2.1完美做出。
5.高級質(zhì)感、多種風(fēng)格、多長寬比
更值得一提的是,萬相2.1能夠生成「電影級」畫質(zhì)的視頻。
同時(shí),它還能支持各類藝術(shù)風(fēng)格,比如卡通、電影色、3D風(fēng)格、油畫、古典等等。
不論是哥特式電影風(fēng)格,還是中國古典宮廷風(fēng)格,AI將其特點(diǎn)呈現(xiàn)得淋漓盡致。
哥特式電影風(fēng)格,亞當(dāng)斯騎在一匹黑色駿馬上,馬蹄輕踏在古老的石板路上。她身穿黑色長裙,頭戴寬邊帽,眼神冷峻,嘴角微揚(yáng),透出一絲神秘。背景是陰暗的古堡和茂密的森林,天空中飄著烏云。鏡頭晃動(dòng),營造出一種不安與緊張的氛圍。近景動(dòng)態(tài)騎馬場景。
這個(gè)中國古典宮廷風(fēng)格的畫面,鏡頭由群臣向前推進(jìn),聚焦在身披龍袍的皇帝身上,好像正在上映的一部古裝劇。
中國古典宮廷風(fēng)格,古代皇宮宮殿上正在進(jìn)行皇帝的登基大典。群臣身著華麗朝服,表情肅穆,排列整齊。鏡頭從群臣視角出發(fā)快速向前推進(jìn),鎖定在身穿龍袍、頭戴皇冠的皇帝身影上。皇帝面容威嚴(yán),眼神堅(jiān)定,緩緩步入大殿。背景是金碧輝煌的大殿,雕梁畫棟,氣勢恢宏。畫面帶有濃厚的皇家氛圍,近景特寫與中景結(jié)合,快速推進(jìn)和跟隨拍攝。
養(yǎng)蜂人手中的蜂蜜罐在陽光中折射出溫暖的光暈,背后的向日葵與鄉(xiāng)村老宅相映成趣,構(gòu)筑出一幅充滿歲月與質(zhì)感的畫面。
Thecamerafloatsgentlythroughrowsofpastel-paintedwoodenbeehives,buzzinghoneybeesglidinginandoutofframe.Themotionsettlesontherefinedfarmerstandingatthecenter,hispristinewhitebeekeepingsuitgleaminginthegoldenafternoonlight.Heliftsajarofhoney,tiltingitslightlytocatchthelight.Behindhim,tallsunflowersswayrhythmicallyinthebreeze,theirpetalsglowinginthewarmsunlight.Thecameratiltsupwardtorevealaretrofarmhouse.
大文豪李白的「舉頭望明月,低頭思故鄉(xiāng)」,AI直接把氛圍感拉滿。
古風(fēng)畫面,一位古人抬頭望著月亮,緩緩低頭,眼神中流露出深深的思鄉(xiāng)之情。
對于詞窮的創(chuàng)意者來說,通義萬相「智能體擴(kuò)寫」功能非常友好。比如,我想生成一個(gè)「超快放大蒲公英,展現(xiàn)宏觀夢幻般的抽象世界」。
若想要細(xì)節(jié)更豐富的描述,直接交給AI就好了。它會(huì)自動(dòng)生成一段文案,可以直接復(fù)用,也可以二次編輯修改。
且看,AI視頻中展現(xiàn)了蒲公英種子的驚人細(xì)節(jié),鏡頭慢慢放大至每根絨毛纖毫畢現(xiàn),仿佛進(jìn)入了一個(gè)夢幻般的世界。
此外,萬相2.1還能支持5種不同的長寬比——1:1,3:4,4:3,16:9,9:16,恰好可以匹配電視、電腦、手機(jī)等不同終端設(shè)備。
核心架構(gòu)創(chuàng)新
那么,到底是什么讓通義萬相,能在激烈AI視頻生成競爭中脫穎而出?
它又藏著哪些讓人眼前一亮的「黑科技」?
接下來,讓我們逐一分解此次2.1版本的技術(shù)創(chuàng)新突破點(diǎn)。
自研VAE與DiT雙重突破
通過采用自研的高效VAE和DiT架構(gòu),阿里團(tuán)隊(duì)在時(shí)空上下文關(guān)系建模方面取得重大突破。
模型基于線性噪聲軌跡的FlowMatching方案展開了深度設(shè)計(jì),同時(shí)驗(yàn)證了ScalingLaw在視頻生成任務(wù)中的有效性。
通義萬相2.1視頻生成架構(gòu)圖
在視頻VAE層面,通過結(jié)合緩存機(jī)制和因果卷積,團(tuán)隊(duì)提出了一個(gè)極具創(chuàng)新性的視頻編碼解決方案。
通過將視頻拆分為多個(gè)若干塊(Chunk)并緩存中間特征,替代長視頻的E2E編端到端解碼過程。顯存的使用僅與Chunk大小相關(guān),與原始視頻長度無關(guān)。
由此,這一關(guān)鍵技術(shù)能夠支持無限長1080P視頻的高效編解碼,為任意時(shí)長視頻訓(xùn)練開辟新途徑。
如下圖所示,展示了不同VAE模型的計(jì)算效率和視頻壓縮重構(gòu)指標(biāo)的結(jié)果。
值得一提的是,通義萬相VAE在較小的模型參數(shù)規(guī)模下,取得了業(yè)內(nèi)領(lǐng)先的視頻壓縮重構(gòu)質(zhì)量。
通義萬相2.1視頻VAE和其他方法的結(jié)果對比
DiT架構(gòu)的設(shè)計(jì)圍繞兩個(gè)核心目標(biāo)展開:實(shí)現(xiàn)強(qiáng)大的時(shí)空建模能力,同時(shí)保持高效的訓(xùn)練過程。
具體創(chuàng)新包括:
·時(shí)空全注意機(jī)制
為了提高時(shí)空關(guān)系建模能力,通義萬相團(tuán)隊(duì)采用了「時(shí)空全注意機(jī)制」,讓模型能夠更準(zhǔn)確地模擬現(xiàn)實(shí)世界的復(fù)雜動(dòng)態(tài)。
·參數(shù)共享機(jī)制
團(tuán)隊(duì)引入了「參數(shù)共享機(jī)制」,不僅提升了模型性能,還有效降低了訓(xùn)練成本。
·優(yōu)化文本嵌入
針對文本嵌入進(jìn)行了性能優(yōu)化,在提供更優(yōu)的文本可控性的同時(shí),還降低了計(jì)算需求。
得益于這些創(chuàng)新,使得新模型在相同計(jì)算成本下,凸顯出收斂的優(yōu)越性,并更易實(shí)現(xiàn)ScalingLaw的驗(yàn)證。
超長序列訓(xùn)練和推理
通過結(jié)合全新通義萬相模型Workload的特點(diǎn)和訓(xùn)練集群的硬件性能,團(tuán)隊(duì)制定了訓(xùn)練的分布式、顯存優(yōu)化的策略。
這一策略在保證模型迭代時(shí)間前提下,優(yōu)化訓(xùn)練性能,在業(yè)界率先實(shí)現(xiàn)了100萬Tokens的高效訓(xùn)練。
在分布式訓(xùn)練策略上,團(tuán)隊(duì)開發(fā)了創(chuàng)新的4D并行策略,結(jié)合了DP、FSDP、RingAttention、Ulysses混合并行,顯著提升了訓(xùn)練性能和分布式擴(kuò)展性。
通義萬相4D并行分布式訓(xùn)練策略
在顯存優(yōu)化上,采用了分層顯存優(yōu)化策略優(yōu)化Activation顯存,解決了顯存碎片問題。
在計(jì)算優(yōu)化上,使用FlashAttention3進(jìn)行時(shí)空全注意力計(jì)算,并結(jié)合訓(xùn)練集群在不同尺寸上的計(jì)算性能,選擇合適的CP策略進(jìn)行切分。
同時(shí),針對一些關(guān)鍵模塊,去除計(jì)算冗余,使用高效Kernel實(shí)現(xiàn),降低訪存開銷,提升了計(jì)算效率。
在文件系統(tǒng)優(yōu)化上,結(jié)合了阿里云訓(xùn)練集群的高性能文件系統(tǒng),采用分片Save/Load方式,提升了讀寫性能。
在模型訓(xùn)練過程中,通過錯(cuò)峰內(nèi)存使用方案,能夠解決多種OOM問題,比如由DataloaderPrefetch、CPUOffloading和SaveCheckpoint所引起的問題。
規(guī)模化數(shù)據(jù)構(gòu)建管線與模型自動(dòng)化評估機(jī)制
規(guī)模化的高質(zhì)量數(shù)據(jù)是大型模型訓(xùn)練的基礎(chǔ),而有效的模型評估,則指引著大模型訓(xùn)練的方向。
為此,團(tuán)隊(duì)建立了一套完整的自動(dòng)化數(shù)據(jù)構(gòu)建系統(tǒng)。
該管線在視覺質(zhì)量、運(yùn)動(dòng)質(zhì)量等方面與人類偏好分布高度一致,能夠自動(dòng)構(gòu)建高質(zhì)量的視頻數(shù)據(jù),同時(shí)還具備多樣化、分布均衡等特點(diǎn)。
針對模型評估,團(tuán)隊(duì)還開發(fā)了覆蓋多維的自動(dòng)化評估系統(tǒng),涵蓋美學(xué)評分、運(yùn)動(dòng)分析和指令遵循等20多個(gè)維度。
與此同時(shí),訓(xùn)練出專業(yè)的打分器,以對齊人類偏好,通過評估反饋加速模型的迭代優(yōu)化。
AI視頻生成下一個(gè)里程碑
去年12月,OpenAI和谷歌相繼放出Sora、Veo2模型,讓視頻生成領(lǐng)域的熱度再一次升溫。
從創(chuàng)業(yè)新秀到科技巨頭,都希望在這場技術(shù)革新中尋找自己的位置。
但是相較于文本的生成,制作出令人信服的AI視頻,確實(shí)是一個(gè)更具挑戰(zhàn)性的命題。
Sora正式上線那天,奧特曼曾表示,「它就像視頻領(lǐng)域的GPT-1,現(xiàn)在還處于初期階段」。
若要從GPT-1通往GPT-3時(shí)刻,還需要在角色一致性、物理規(guī)律理解、文本指令精準(zhǔn)控制等方面取得技術(shù)突破。
當(dāng)AI真正打破現(xiàn)實(shí)創(chuàng)作的局限,賦予創(chuàng)意工作者前所未有的想象,新一輪的行業(yè)變革必將隨之而來。
此次,通義萬相2.1取得重大突破,讓我們有理由相信,AI視頻的GPT-3時(shí)刻正加速到來。