當(dāng)前位置：首頁 > 外匯資訊 > 正文內(nèi)容

谷歌VideoPoet負(fù)責(zé)人蔣路跳槽TikTok！對(duì)標(biāo)Sora，AI視頻模型大戰(zhàn)在即

激石外匯2024-02-22 12:01:20外匯資訊290

激石Pepperstone(http://xcvvvm.com/)報(bào)道：

谷歌VideoPoet項(xiàng)目Research Lead，CMU兼職教授蔣路的Google Scholar資料顯示已加入TikTok。

最近，有傳聞TikTok招募了某篇論文的作者作為北美技術(shù)部門負(fù)責(zé)人，研發(fā)能和Sora對(duì)抗的視頻生成AI。

而蔣路3周前在Linkedin上發(fā)布了離職谷歌的消息，也向外界揭開了謎底。

他作為谷歌VideoPoet項(xiàng)目的負(fù)責(zé)人，將離開Google Research，不過會(huì)留在灣區(qū)，繼續(xù)視頻生成領(lǐng)域的工作。

「人才第一，數(shù)據(jù)第二，算力第三」，謝賽寧的AI突破「3要素」，已經(jīng)為大廠在未來構(gòu)建自己的AI護(hù)城河指明了方向。

而蔣路帶領(lǐng)谷歌團(tuán)隊(duì)在去年年底推出了在技術(shù)路線上與Sora相似的視頻生成技術(shù)：VideoPoet，讓他成為了世界上為數(shù)不多的有能力構(gòu)建最前沿AI視頻生成技術(shù)的科學(xué)家。

VideoPoet在Sora發(fā)布之前就已經(jīng)將AI視頻的前沿推進(jìn)到了生成10秒長(zhǎng)，一致性非常強(qiáng)，動(dòng)作幅度大且連貫的視頻。

而與此同時(shí)，他還是CMU的兼職教授，有非常豐富的科研經(jīng)歷和成果。

蔣路這樣既有深厚的理論功底，又有最前沿大型項(xiàng)目的工程和管理經(jīng)驗(yàn)的復(fù)合型專家，自然成為了大廠必爭(zhēng)的AI基石型人才。

個(gè)人介紹

蔣路在Google擔(dān)任研究科學(xué)家和管理崗位，同時(shí)也是卡內(nèi)基梅隆大學(xué)計(jì)算機(jī)科學(xué)學(xué)院語言技術(shù)研究所的兼職教授。

在CMU，他不僅指導(dǎo)研究生的科研項(xiàng)目，還親自講授課程。

他的研究成果在自然語言處理（ACL）和計(jì)算機(jī)視覺（CVPR）等領(lǐng)域的頂級(jí)會(huì)議上屢獲佳績(jī)，還在ACM ICMR、IEEE SLT 和 NIST TRECVID等重要會(huì)議上獲獎(jiǎng)。

他的研究對(duì)多款谷歌產(chǎn)品的開發(fā)和完善起到了至關(guān)重要的作用：包括YouTube、Cloud、Cloud AutoML、Ads、Waymo和Translate 等。

這些產(chǎn)品每天服務(wù)全球數(shù)十億用戶。

除了上述這些內(nèi)容以外，還有另一個(gè)側(cè)面能很好地說明蔣路學(xué)術(shù)水平的高度：他與眾多計(jì)算機(jī)視覺和自然語言處理領(lǐng)域的頂尖研究者都有過合作。

2017至2018年期間，他是Google Cloud AI首批研究團(tuán)隊(duì)的創(chuàng)始成員，由李佳博士和李飛飛博士親自挑選。

隨后，他加入了Google Research，與Weilong Yang博士（2019-2020）、Ce Liu博士（2020-2021）、Madison Le（2021-2022）和Irfan Essa博士（2023）等人都有過合作。

此外，在卡內(nèi)基梅隆大學(xué)讀博期間，他的論文由Tat-Seng Chua博士和 Louis-Philippe Morency博士共同指導(dǎo)。2017他在Alexander Hauptmann博士和Teruko Mitamura博士的幫助下成功畢業(yè)。

他在雅虎、谷歌和微軟研究院的實(shí)習(xí)時(shí)，得到了Liangliang Cao博士、Yannis Kalantidis博士、Sachin Farfade、Paul Natsev博士、Balakrishnan Varadarajan博士、Qiang Wang博士和Dongmei Zhang博士等人的指導(dǎo)。

從他在領(lǐng)英上的履歷可以看出，很多科技大廠都留有過他的足跡。

在CMU和NSF都有過實(shí)習(xí)經(jīng)歷。

而在畢業(yè)之前，他在雅虎，谷歌，微軟都實(shí)習(xí)過。

他本科畢業(yè)于西安交通大學(xué)，研究生畢業(yè)于布魯塞爾自由大學(xué)，博士畢業(yè)于CMU。

VideoPoet

他在谷歌帶領(lǐng)的團(tuán)隊(duì)在去年底推出的VideoPoet，已經(jīng)用Transformer代替了傳統(tǒng)的UNet，成為AI視頻生成當(dāng)時(shí)的SOTA.

這項(xiàng)成就，也成為了TikTok相中他最主要的原因。

相比起只能生成小幅動(dòng)作的Gen-2，VideoPoet一次能夠生成10秒超長(zhǎng)，且連貫大動(dòng)作視頻，可以說是實(shí)現(xiàn)了完全碾壓！

另外，VideoPoet也并非基于擴(kuò)散模型，而是多模態(tài)大模型，便可擁有T2V、V2A等能力，或?qū)⒊蔀槲磥硪曨l生成的主流。

相比起其他模型，谷歌的方法是將多種視頻生成功能無縫集成到單一的大語言模型中，而不依賴針對(duì)各個(gè)任務(wù)分別訓(xùn)練的專用組件。

具體來說，VideoPoet主要包含以下幾個(gè)組件：

- 預(yù)訓(xùn)練的MAGVIT V2視頻tokenizer和SoundStream音頻tokenizer，能將不同長(zhǎng)度的圖像、視頻和音頻剪輯轉(zhuǎn)換成統(tǒng)一詞匯表中的離散代碼序列。這些代碼與文本型語言模型兼容，便于與文本等其他模態(tài)進(jìn)行結(jié)合。

- 自回歸語言模型可在視頻、圖像、音頻和文本之間進(jìn)行跨模態(tài)學(xué)習(xí)，并以自回歸方式預(yù)測(cè)序列中下一個(gè)視頻或音頻token。

- 在大語言模型訓(xùn)練框架中引入了多種多模態(tài)生成學(xué)習(xí)目標(biāo)，包括文本到視頻、文本到圖像、圖像到視頻、視頻幀延續(xù)、視頻修復(fù)/擴(kuò)展、視頻風(fēng)格化和視頻到音頻等。此外，這些任務(wù)可以相互結(jié)合，實(shí)現(xiàn)額外的零樣本功能（例如，文本到音頻）。

VideoPoet能夠在各種以視頻為中心的輸入和輸出上進(jìn)行多任務(wù)處理。其中，LLM可選擇將文本作為輸入，來指導(dǎo)文本到視頻、圖像到視頻、視頻到音頻、風(fēng)格化和擴(kuò)圖任務(wù)的生成

使用LLM進(jìn)行訓(xùn)練的一個(gè)關(guān)鍵優(yōu)勢(shì)是，可以重用現(xiàn)有LLM訓(xùn)練基礎(chǔ)設(shè)施中引入的許多可擴(kuò)展的效率改進(jìn)。

不過，LLM是在離散token上運(yùn)行的，這可能會(huì)給視頻生成帶來挑戰(zhàn)。

幸運(yùn)的是，視頻和音頻tokenizer，可以將視頻和音頻剪輯編碼為離散token序列（即整數(shù)索引），并可以將其轉(zhuǎn)換回原始表示。

VideoPoet訓(xùn)練一個(gè)自回歸語言模型，通過使用多個(gè)tokenizer（用于視頻和圖像的MAGVIT V2，用于音頻的SoundStream）來跨視頻、圖像、音頻和文本模態(tài)進(jìn)行學(xué)習(xí)。

一旦模型根據(jù)上下文生成了token，就可以使用tokenizer解碼器將這些token轉(zhuǎn)換回可查看的表示形式。

VideoPoet任務(wù)設(shè)計(jì)：不同模態(tài)通過tokenizer編碼器和解碼器與token相互轉(zhuǎn)換。每個(gè)模態(tài)周圍都有邊界token，任務(wù)token表示要執(zhí)行的任務(wù)類型

相比于之前的視頻生成模型，VideoPoet有這么三個(gè)比較大的優(yōu)勢(shì)。

一個(gè)是能生成更長(zhǎng)的視頻，一個(gè)是用戶能對(duì)生成的視頻有更好的控制能力，最后一個(gè)則是VideoPoet還可以根據(jù)文本提示，生成不同的運(yùn)鏡手法。

而在測(cè)試中，VideoPoet也是拔得頭籌，碾壓了不少其它視頻生成模型。

文本保真度：

文本保真度的用戶偏好評(píng)級(jí)，即在準(zhǔn)確遵循提示方面首選視頻的百分比

動(dòng)作趣味性：

用戶對(duì)動(dòng)作趣味性的偏好評(píng)級(jí)，即在產(chǎn)生有趣的動(dòng)作方面，首選視頻的百分比

綜上可見，平均有24-35%的人認(rèn)為VideoPoet生成的示例比其他模型更加遵循提示，而其他模型的這一比例僅為8-11%。

此外，41%-54%的評(píng)估者認(rèn)為VideoPoet中的示例動(dòng)作更有趣，而其他模型只有11%-21%。

而有關(guān)未來的研究方向，谷歌研究人員表示，VideoPoet框架將會(huì)實(shí)現(xiàn)「any-to-any」的生成，比如擴(kuò)展文本到音頻、音頻到視頻，以及視頻字幕等等。?????????

掃描二維碼推送至手機(jī)訪問。

版權(quán)聲明：本文由激石Pepperstone發(fā)布，如需轉(zhuǎn)載請(qǐng)注明出處。

本文鏈接：http://xcvvvm.com/news/2656.html

標(biāo)簽: AI視頻模型大戰(zhàn)

分享給朋友：

返回列表

上一篇：日本地產(chǎn)是如何走出低谷的？

下一篇：科技巨頭繼續(xù)打壓，納指三連跌，標(biāo)普驚險(xiǎn)反彈，財(cái)報(bào)后英偉達(dá)一度拉升10%

谷歌VideoPoet負(fù)責(zé)人蔣路跳槽TikTok！對(duì)標(biāo)Sora，AI視頻模型大戰(zhàn)在即

“谷歌VideoPoet負(fù)責(zé)人蔣路跳槽TikTok！對(duì)標(biāo)Sora，AI視頻模型大戰(zhàn)在即” 的相關(guān)文章

價(jià)跌換量漲！美國5月新屋銷售意外上漲，但均價(jià)已較年內(nèi)高點(diǎn)大幅回落

“雪糕刺客”鐘薛高：花最多的錢，吃最多的膠？

岸田文雄與拜登通電話討論如何延續(xù)安倍的遺產(chǎn)

罕見！德國、日本、越南都出現(xiàn)了貿(mào)易赤字，這意味著什么？

美聯(lián)儲(chǔ)副主席：在加密貨幣風(fēng)險(xiǎn)更大之前，監(jiān)管必須先出手

一夜間變天！英國首相繼任者面臨1950年代以來前所未見的挑戰(zhàn)

Copyright ? 2017-2022 激石Pepperstone

谷歌VideoPoet負(fù)責(zé)人蔣路跳槽TikTok！對(duì)標(biāo)Sora，AI視頻模型大戰(zhàn)在即

“谷歌VideoPoet負(fù)責(zé)人蔣路跳槽TikTok！對(duì)標(biāo)Sora，AI視頻模型大戰(zhàn)在即” 的相關(guān)文章

價(jià)跌換量漲！美國5月新屋銷售意外上漲，但均價(jià)已較年內(nèi)高點(diǎn)大幅回落

“雪糕刺客”鐘薛高：花最多的錢，吃最多的膠？

岸田文雄與拜登通電話 討論如何延續(xù)安倍的遺產(chǎn)

罕見！德國、日本、越南都出現(xiàn)了貿(mào)易赤字，這意味著什么？

美聯(lián)儲(chǔ)副主席：在加密貨幣風(fēng)險(xiǎn)更大之前，監(jiān)管必須先出手

一夜間變天！英國首相繼任者面臨1950年代以來前所未見的挑戰(zhàn)

Copyright ? 2017-2022 激石Pepperstone

谷歌VideoPoet負(fù)責(zé)人蔣路跳槽TikTok！對(duì)標(biāo)Sora，AI視頻模型大戰(zhàn)在即

“谷歌VideoPoet負(fù)責(zé)人蔣路跳槽TikTok！對(duì)標(biāo)Sora，AI視頻模型大戰(zhàn)在即” 的相關(guān)文章

價(jià)跌換量漲！美國5月新屋銷售意外上漲，但均價(jià)已較年內(nèi)高點(diǎn)大幅回落

“雪糕刺客”鐘薛高：花最多的錢，吃最多的膠？

岸田文雄與拜登通電話討論如何延續(xù)安倍的遺產(chǎn)

罕見！德國、日本、越南都出現(xiàn)了貿(mào)易赤字，這意味著什么？

美聯(lián)儲(chǔ)副主席：在加密貨幣風(fēng)險(xiǎn)更大之前，監(jiān)管必須先出手

一夜間變天！英國首相繼任者面臨1950年代以來前所未見的挑戰(zhàn)