當前位置:首頁 > 外匯資訊 > 正文內(nèi)容

清華團隊國產(chǎn)“Sora”火了!畫面效果對標OpenAI,長度可達16秒,還能讀懂物理規(guī)律

激石外匯2024-04-28 11:57:20外匯資訊223

激石Pepperstone(http://xcvvvm.com/)報道:

Sora席卷世界,也掀起了全球競逐AI視頻生成的熱潮。

就在今天,國內(nèi)又有一支短片引發(fā)關(guān)注。

視頻來自生數(shù)科技聯(lián)合清華大學(xué)最新發(fā)布的視頻大模型「Vidu」。

從官宣消息看,「Vidu」支持一鍵生成長達16秒、分辨率達1080p的高清視頻內(nèi)容。

更令人驚喜的是,「Vidu」畫面效果非常接近Sora,在多鏡頭語言、時間和空間一致性、遵循物理規(guī)律等方面表現(xiàn)都十分出色,而且還能虛構(gòu)出真實世界不存在的超現(xiàn)實主義畫面,這是當前的視頻生成模型難以實現(xiàn)的。

并且實現(xiàn)這般效果,背后團隊只用了兩個月的時間。

全面對標Sora

3月中旬,生數(shù)科技聯(lián)合創(chuàng)始人兼CEO唐家渝就曾公開表示:“今年內(nèi)一定能達到Sora目前版本的效果?!?/p>

現(xiàn)在,在生成時長、時空一致性、鏡頭語言、物理模擬等方面,確實能看到「Vidu」在短時間內(nèi)已經(jīng)逼近Sora水平。

長度突破10秒大關(guān)

「Vidu」生成的視頻不再是持續(xù)幾秒的「GIF」,而是達到了16秒,并且做到了畫面連續(xù)流暢,且有細節(jié)、邏輯連貫。

盡管都是運動畫面,但幾乎不會出現(xiàn)穿模、鬼影、運動不符合現(xiàn)實規(guī)律的問題。

給視頻注入「鏡頭語言」

在視頻制作中有個非常重要的概念——鏡頭語言。通過不同的鏡頭選擇、角度、運動和組合,來表達故事情節(jié)、揭示角色心理、營造氛圍以及引導(dǎo)觀眾情感。

現(xiàn)有AI生成的視頻,能夠明顯地感覺到鏡頭語言的單調(diào),鏡頭的運動局限于輕微幅度的推、拉、移等簡單鏡頭。深究背后的原因看,因為現(xiàn)有的視頻內(nèi)容生成大多是先通過生成單幀畫面,再做連續(xù)的前后幀預(yù)測,但主流的技術(shù)路徑,很難做到長時序的連貫預(yù)測,只能做到小幅的動態(tài)預(yù)測。

「Vidu」則突破了這些局限。在一個「海邊小屋」為主題的片段中,我們可以看到,「Vidu」一次生成的一段片段中涉及多個鏡頭,畫面既有小屋的近景特寫,也有望向海面的遠眺,整體看下來有種從屋內(nèi)到走廊再到欄桿邊賞景的敘事感。

包括從短片中的多個片段能看到,「Vidu」能直接生成轉(zhuǎn)場、追焦、長鏡頭等效果,包括能夠生成影視級的鏡頭畫面,給視頻注入鏡頭語言,提升畫面的整體敘事感。

保持時間和空間的一致性

視頻畫面的連貫和流暢性至關(guān)重要,這背后其實是人物和場景的時空一致性,比如人物在空間中的運動始終保持一致,場景也不能在沒有任何轉(zhuǎn)場的情況下突變。而這一點 AI 很難實現(xiàn),尤其時長一長,AI生成的視頻將出現(xiàn)敘事斷裂、視覺不連貫、邏輯錯誤等問題, 這些問題會嚴重影響視頻的真實感和觀賞性。

「Vidu」在一定程度上克服了這些問題。從它生成的一段“帶珍珠耳環(huán)的貓”的視頻中可以看到,隨著鏡頭的移動,作為畫面主體的貓在3D空間下一直保持著表情、服飾的一致,視頻整體上連貫、流暢,保持了很好的時間、空間一致性。

模擬真實物理世界

Sora令人驚艷的一大特點,就是能夠模擬真實物理世界的運動,例如物體的移動和相互作用。其中Sora有發(fā)布的一個經(jīng)典案例,“一輛老式SUV行駛在山坡上”的畫面,非常好地模擬了輪胎揚起的灰塵、樹林中的光影以及車行駛過程中的陰影變化:

在同樣的提示詞下,「Vidu」與Sora生成效果高度接近,灰塵、光影等細節(jié)與人類在真實物理世界中的體驗非常接近。

當然在“帶有黑色車頂行李架”的局部細節(jié)上,「Vidu」沒能生成出來,但也瑕不掩瑜,整體效果已高度接近真實世界。

豐富的想象力

與實景拍攝相比,用AI生成視頻有一個很大的優(yōu)勢——它可以生成現(xiàn)實世界中不存在的畫面。以往,這些畫面往往要花費很大的人力、物力去搭建或做成特效,但是AI短時間就可以自動生成了。

比如在下面這個場景中,「帆船」、「海浪」罕見地出現(xiàn)在了畫室里,而且海浪與帆船的交互動態(tài)非常自然。

包括短片中的“魚缸女孩”的片段,奇幻但又具有一定的合理感,這種能夠虛構(gòu)真實世界不存在的畫面,對于創(chuàng)作超現(xiàn)實主義內(nèi)容非常有幫助,不僅可以激發(fā)創(chuàng)作者的靈感,提供新穎的視覺體驗,還能拓寬藝術(shù)表達的邊界,帶來更加豐富和多元化的內(nèi)容形式。

理解中國元素

除了以上四方面的特點外,我們從「Vidu」放出的短片中還看到了一些不一樣的驚喜,「Vidu」能夠生成特有中國元素的畫面,比如熊貓、龍、宮殿場景等。

兩個月快速突破的“秘籍”

此前,唐家渝給出的趕上Sora的時間,是“很難說是三個月還是半年”。

但如今僅僅過去一個多月時間,團隊就實現(xiàn)了突破,而且據(jù)透露,3月份公司內(nèi)部就實現(xiàn)了8秒的視頻生成,緊接著4月份突破了16秒生成。短短兩個月時間,背后是如何做到的?

一是選對了技術(shù)路線

「Vidu」底層基于完全自研的U-ViT架構(gòu),該架構(gòu)由團隊在2022年9月提出,早于Sora采用的DiT架構(gòu),是全球首個Diffusion和Transformer融合的架構(gòu)。

Transformer架構(gòu)被廣泛應(yīng)用于大語言模型,該架構(gòu)的優(yōu)勢在于scale特性,參數(shù)量越大,效果越好,而Diffusion被常用于傳統(tǒng)視覺任務(wù)(圖像和視頻生成)中。

融合架構(gòu)就是在Diffusion Model(擴散模型)中,用Transformer替換常用的U-Net卷積網(wǎng)絡(luò),將Transformer的可擴展性與Diffusion模型處理視覺數(shù)據(jù)的天然優(yōu)勢進行融合,能在視覺任務(wù)下展現(xiàn)出卓越的涌現(xiàn)能力。

不同于市面上之前的一些“類Sora”模型,長視頻的實現(xiàn)其實是通過插幀的方式,在視頻的每兩幀畫面中增加一幀或多幀來提升視頻的長度。這種方法就需要對視頻進行逐幀處理,通過插入額外的幀來改善視頻長度和質(zhì)量。整體畫面就會顯得僵硬而又緩慢。

另外,還有一些視頻工具看似實現(xiàn)了長視頻,實際打了“擦邊球”。底層集合了許多其他模型工作,比如先基于Stable Diffusion、Midjourney生成單張畫面,再圖生4s短視頻,再做拼接。表面看時長是長了,但本質(zhì)還是“短視頻生成”的內(nèi)核。

但「Vidu」基于純自研的融合架構(gòu),底層是“一步到位”,不涉及中間的插幀和拼接等多步驟的處理,文本到視頻的轉(zhuǎn)換是直接且連續(xù)的。直觀上,我們可以看到“一鏡到底”的絲滑感,視頻從頭到尾連續(xù)生成,沒有插幀痕跡。

二是扎實的工程化基礎(chǔ)

早在2023年3月,基于U-ViT架構(gòu),團隊在開源的大規(guī)模圖文數(shù)據(jù)集LAION-5B上就訓(xùn)練了10億參數(shù)量的多模態(tài)模型——UniDiffuser,并將其開源。

UniDiffuser主要擅長圖文任務(wù),能支持圖文模態(tài)間的任意生成和轉(zhuǎn)換。UniDiffuser的實現(xiàn)有一項重要的價值——首次驗證了融合架構(gòu)在大規(guī)模訓(xùn)練任務(wù)中的可擴展性(Scaling Law),相當于將U-ViT 架構(gòu)在大規(guī)模訓(xùn)練任務(wù)中的所有環(huán)節(jié)流程都跑通。值得一提的,同樣是圖文模型,UniDiffuser比最近才切換到DiT架構(gòu)的Stable Diffusion 3領(lǐng)先了一年。

這些在圖文任務(wù)中積累工程經(jīng)驗為視頻模型的研發(fā)打下了基礎(chǔ)。因為視頻本質(zhì)上是圖像的流,相當于是圖像在時間軸上做了一個擴增。因此,在圖文任務(wù)上取得的成果往往能夠在視頻任務(wù)中得到復(fù)用。Sora就是這么做的:它采用了DALL·E 3的重標注技術(shù),通過為視覺訓(xùn)練數(shù)據(jù)生成詳細的描述,使模型能夠更加準確地遵循用戶的文本指令生成視頻。

據(jù)悉,「Vidu」也復(fù)用了生數(shù)科技在圖文任務(wù)的很多經(jīng)驗,包括訓(xùn)練加速、并行化訓(xùn)練、低顯存訓(xùn)練等等,從而快速跑通了訓(xùn)練流程。據(jù)悉,他們通過視頻數(shù)據(jù)壓縮技術(shù)降低輸入數(shù)據(jù)的序列維度,同時采用自研的分布式訓(xùn)練框架,在保證計算精度的同時,通信效率提升1倍,顯存開銷降低80%,訓(xùn)練速度累計提升40倍。

從圖任務(wù)的統(tǒng)一到融合視頻能力,「Vidu」可被視為一款通用視覺模型,能夠支持生成更加多樣化、更長時長的視頻內(nèi)容,官方也透露,「Vidu」目前并在加速迭代提升,面向未來,「Vidu」靈活的模型架構(gòu)也將能夠兼容更廣泛的多模態(tài)能力。

One More Thing

最后,再聊下「Vidu」背后的團隊——生數(shù)科技,這是一支清華背景的精干團隊,致力于專注于圖像、3D、視頻等多模態(tài)大模型領(lǐng)域。

生數(shù)科技的核心團隊來自清華大學(xué)人工智能研究院。首席科學(xué)家由清華人工智能研究院副院長朱軍擔(dān)任;CEO唐家渝本碩就讀于清華大學(xué)計算機系,是THUNLP組成員;CTO鮑凡則是清華大學(xué)計算機系博士生、朱軍教授的課題組成員,長期關(guān)注擴散模型領(lǐng)域研究,U-ViT和UniDiffuser兩項工作均是由他主導(dǎo)完成的。

團隊從事生成式人工智能和貝葉斯機器學(xué)習(xí)的研究已有20余年,在深度生成模型突破的早期就開展了深入研究。在擴散模型方面,團隊于國內(nèi)率先開啟了該方向的研究,成果涉及骨干網(wǎng)絡(luò)、高速推理算法、大規(guī)模訓(xùn)練等全棧技術(shù)方向。

團隊于ICML、NeurIPS、ICLR等人工智能頂會發(fā)表多模態(tài)領(lǐng)域相關(guān)論文近30篇,其中提出的免訓(xùn)練推理算法Analytic-DPM、DPM-Solver等突破性成果,獲得ICLR杰出論文獎,并被OpenAI、蘋果、Stability.ai等國外前沿機構(gòu)采用,應(yīng)用于DALL·E 2、Stable Diffusion等明星項目中。

自2023年成立以來,團隊已獲得螞蟻集團、啟明創(chuàng)投、BV百度風(fēng)投、字節(jié)系錦秋基金等多家知名產(chǎn)業(yè)機構(gòu)的認可,完成數(shù)億元融資。據(jù)悉,生數(shù)科技是目前國內(nèi)在多模態(tài)大模型賽道估值最高的創(chuàng)業(yè)團隊。

掃描二維碼推送至手機訪問。

版權(quán)聲明:本文由激石Pepperstone發(fā)布,如需轉(zhuǎn)載請注明出處。

本文鏈接:http://xcvvvm.com/news/2988.html

標簽: OpenAI

“清華團隊國產(chǎn)“Sora”火了!畫面效果對標OpenAI,長度可達16秒,還能讀懂物理規(guī)律” 的相關(guān)文章

新興市場加息潮:墨西哥央行加息75基點,創(chuàng)歷史最大幅度

激石Pepperstone(http://xcvvvm.com/)報道:周四,墨西哥央行加快了升息步伐,央行董事會成員一致同意將基準利率上調(diào)75個基點,至7.75%,創(chuàng)下2008年以來最大加息幅度,與預(yù)期一致。 此次加息幅度是該行2008年采用通脹目標制以來最大,并且與美聯(lián)儲上周的加息幅度...

如何理解“MCU砍單潮”?

激石Pepperstone(http://xcvvvm.com/)報道:7月1日,有媒體表示,全球前五大MCU廠產(chǎn)品價格腰斬,半導(dǎo)體芯片砍單降價風(fēng)暴擴大,相對此前價格堅挺,供不應(yīng)求的MCU,出現(xiàn)價格快速下滑。MCU成為繼驅(qū)動IC,電源管理IC,CIS傳感器又一個跌價砍單的品種。 筆者總結(jié)有...

丹麥首都發(fā)生槍擊事件,警方稱多人傷亡,市長:情況非常嚴重!22歲男子被捕,不排除恐襲可能

丹麥首都發(fā)生槍擊事件,警方稱多人傷亡,市長:情況非常嚴重!22歲男子被捕,不排除恐襲可能

激石Pepperstone(http://xcvvvm.com/)報道:人口只有500多萬的北歐國家丹麥,不僅是童話的故鄉(xiāng),還曾多次被評為幸福指數(shù)最高的國度。然而當?shù)貢r間7月3日晚,一起槍擊案打破了該國的寧靜。當日,丹麥首都哥本哈根阿邁厄購物中心發(fā)生一起槍擊事件,當?shù)鼐奖硎?,已有多人傷?..

“私募大戶”年中投資感悟:新銳量化讓人“懵”,老牌產(chǎn)品“心很累”,規(guī)模是收益最大敵人

“私募大戶”年中投資感悟:新銳量化讓人“懵”,老牌產(chǎn)品“心很累”,規(guī)模是收益最大敵人

激石Pepperstone(http://xcvvvm.com/)報道:近期,各大私募管理人忙碌于半年度基金運作匯報,投資者也紛紛在網(wǎng)上展開半年投資績效“回顧”。 結(jié)果是喜憂參半,感受卻眾口一詞——心累。 一方面,開年后股市翻云覆雨,大起大落,讓部分投資者“煎熬”良久。 另一方面,許多持有...

中俄外長會面

激石Pepperstone(http://xcvvvm.com/)報道: 當?shù)貢r間2022年7月7日,國務(wù)委員兼外長王毅出席二十國集團外長會期間在巴厘島會見俄羅斯外長拉夫羅夫。 王毅表示,當前,國際局勢動蕩不定,全球挑戰(zhàn)層出不窮。在兩國元首戰(zhàn)略引領(lǐng)下,中俄排除干擾,保持...

哈薩克斯坦退出獨聯(lián)體跨國貨幣委員會協(xié)議,俄哈關(guān)系裂痕逐步公開化

激石Pepperstone(http://xcvvvm.com/)報道:當?shù)貢r間7月8日,哈薩克斯坦總統(tǒng)卡托卡耶夫簽署法令并宣布,該國退出1995年簽署的獨聯(lián)體跨國貨幣委員會的協(xié)議。 據(jù)《莫斯科真理報》7月8日報道,托卡耶夫簽署法令稱,(哈薩克斯坦)終止于1995年5月簽署、2013年1...