當(dāng)前位置:首頁 > 外匯資訊 > 正文內(nèi)容

谷歌VideoPoet負(fù)責(zé)人蔣路跳槽TikTok!對(duì)標(biāo)Sora,AI視頻模型大戰(zhàn)在即

激石外匯2024-02-22 12:01:20外匯資訊290

激石Pepperstone(http://xcvvvm.com/)報(bào)道:

谷歌VideoPoet項(xiàng)目Research Lead,CMU兼職教授蔣路的Google Scholar資料顯示已加入TikTok。

最近,有傳聞TikTok招募了某篇論文的作者作為北美技術(shù)部門負(fù)責(zé)人,研發(fā)能和Sora對(duì)抗的視頻生成AI。

而蔣路3周前在Linkedin上發(fā)布了離職谷歌的消息,也向外界揭開了謎底。

他作為谷歌VideoPoet項(xiàng)目的負(fù)責(zé)人,將離開Google Research,不過會(huì)留在灣區(qū),繼續(xù)視頻生成領(lǐng)域的工作。

「人才第一,數(shù)據(jù)第二,算力第三」,謝賽寧的AI突破「3要素」,已經(jīng)為大廠在未來構(gòu)建自己的AI護(hù)城河指明了方向。

而蔣路帶領(lǐng)谷歌團(tuán)隊(duì)在去年年底推出了在技術(shù)路線上與Sora相似的視頻生成技術(shù):VideoPoet,讓他成為了世界上為數(shù)不多的有能力構(gòu)建最前沿AI視頻生成技術(shù)的科學(xué)家。

VideoPoet在Sora發(fā)布之前就已經(jīng)將AI視頻的前沿推進(jìn)到了生成10秒長(zhǎng),一致性非常強(qiáng),動(dòng)作幅度大且連貫的視頻。

而與此同時(shí),他還是CMU的兼職教授,有非常豐富的科研經(jīng)歷和成果。

蔣路這樣既有深厚的理論功底,又有最前沿大型項(xiàng)目的工程和管理經(jīng)驗(yàn)的復(fù)合型專家,自然成為了大廠必爭(zhēng)的AI基石型人才。

個(gè)人介紹

蔣路在Google擔(dān)任研究科學(xué)家和管理崗位,同時(shí)也是卡內(nèi)基梅隆大學(xué)計(jì)算機(jī)科學(xué)學(xué)院語言技術(shù)研究所的兼職教授。

在CMU,他不僅指導(dǎo)研究生的科研項(xiàng)目,還親自講授課程。

他的研究成果在自然語言處理(ACL)和計(jì)算機(jī)視覺(CVPR)等領(lǐng)域的頂級(jí)會(huì)議上屢獲佳績(jī),還在ACM ICMR、IEEE SLT 和 NIST TRECVID等重要會(huì)議上獲獎(jiǎng)。

他的研究對(duì)多款谷歌產(chǎn)品的開發(fā)和完善起到了至關(guān)重要的作用:包括YouTube、Cloud、Cloud AutoML、Ads、Waymo和Translate 等。

這些產(chǎn)品每天服務(wù)全球數(shù)十億用戶。

除了上述這些內(nèi)容以外,還有另一個(gè)側(cè)面能很好地說明蔣路學(xué)術(shù)水平的高度:他與眾多計(jì)算機(jī)視覺和自然語言處理領(lǐng)域的頂尖研究者都有過合作。

2017至2018年期間,他是Google Cloud AI首批研究團(tuán)隊(duì)的創(chuàng)始成員,由李佳博士和李飛飛博士親自挑選。

隨后,他加入了Google Research,與Weilong Yang博士(2019-2020)、Ce Liu博士(2020-2021)、Madison Le(2021-2022)和Irfan Essa博士(2023)等人都有過合作。

此外,在卡內(nèi)基梅隆大學(xué)讀博期間,他的論文由Tat-Seng Chua博士和 Louis-Philippe Morency博士共同指導(dǎo)。2017他在Alexander Hauptmann博士和Teruko Mitamura博士的幫助下成功畢業(yè)。

他在雅虎、谷歌和微軟研究院的實(shí)習(xí)時(shí),得到了Liangliang Cao博士、Yannis Kalantidis博士、Sachin Farfade、Paul Natsev博士、Balakrishnan Varadarajan博士、Qiang Wang博士和Dongmei Zhang博士等人的指導(dǎo)。

從他在領(lǐng)英上的履歷可以看出,很多科技大廠都留有過他的足跡。

在CMU和NSF都有過實(shí)習(xí)經(jīng)歷。

而在畢業(yè)之前,他在雅虎,谷歌,微軟都實(shí)習(xí)過。

他本科畢業(yè)于西安交通大學(xué),研究生畢業(yè)于布魯塞爾自由大學(xué),博士畢業(yè)于CMU。

VideoPoet

他在谷歌帶領(lǐng)的團(tuán)隊(duì)在去年底推出的VideoPoet,已經(jīng)用Transformer代替了傳統(tǒng)的UNet,成為AI視頻生成當(dāng)時(shí)的SOTA.

這項(xiàng)成就,也成為了TikTok相中他最主要的原因。

相比起只能生成小幅動(dòng)作的Gen-2,VideoPoet一次能夠生成10秒超長(zhǎng),且連貫大動(dòng)作視頻,可以說是實(shí)現(xiàn)了完全碾壓!

另外,VideoPoet也并非基于擴(kuò)散模型,而是多模態(tài)大模型,便可擁有T2V、V2A等能力,或?qū)⒊蔀槲磥硪曨l生成的主流。

相比起其他模型,谷歌的方法是將多種視頻生成功能無縫集成到單一的大語言模型中,而不依賴針對(duì)各個(gè)任務(wù)分別訓(xùn)練的專用組件。

具體來說,VideoPoet主要包含以下幾個(gè)組件:

- 預(yù)訓(xùn)練的MAGVIT V2視頻tokenizer和SoundStream音頻tokenizer,能將不同長(zhǎng)度的圖像、視頻和音頻剪輯轉(zhuǎn)換成統(tǒng)一詞匯表中的離散代碼序列。這些代碼與文本型語言模型兼容,便于與文本等其他模態(tài)進(jìn)行結(jié)合。

- 自回歸語言模型可在視頻、圖像、音頻和文本之間進(jìn)行跨模態(tài)學(xué)習(xí),并以自回歸方式預(yù)測(cè)序列中下一個(gè)視頻或音頻token。

- 在大語言模型訓(xùn)練框架中引入了多種多模態(tài)生成學(xué)習(xí)目標(biāo),包括文本到視頻、文本到圖像、圖像到視頻、視頻幀延續(xù)、視頻修復(fù)/擴(kuò)展、視頻風(fēng)格化和視頻到音頻等。此外,這些任務(wù)可以相互結(jié)合,實(shí)現(xiàn)額外的零樣本功能(例如,文本到音頻)。

VideoPoet能夠在各種以視頻為中心的輸入和輸出上進(jìn)行多任務(wù)處理。其中,LLM可選擇將文本作為輸入,來指導(dǎo)文本到視頻、圖像到視頻、視頻到音頻、風(fēng)格化和擴(kuò)圖任務(wù)的生成

使用LLM進(jìn)行訓(xùn)練的一個(gè)關(guān)鍵優(yōu)勢(shì)是,可以重用現(xiàn)有LLM訓(xùn)練基礎(chǔ)設(shè)施中引入的許多可擴(kuò)展的效率改進(jìn)。

不過,LLM是在離散token上運(yùn)行的,這可能會(huì)給視頻生成帶來挑戰(zhàn)。

幸運(yùn)的是,視頻和音頻tokenizer,可以將視頻和音頻剪輯編碼為離散token序列(即整數(shù)索引),并可以將其轉(zhuǎn)換回原始表示。

VideoPoet訓(xùn)練一個(gè)自回歸語言模型,通過使用多個(gè)tokenizer(用于視頻和圖像的MAGVIT V2,用于音頻的SoundStream)來跨視頻、圖像、音頻和文本模態(tài)進(jìn)行學(xué)習(xí)。

一旦模型根據(jù)上下文生成了token,就可以使用tokenizer解碼器將這些token轉(zhuǎn)換回可查看的表示形式。

VideoPoet任務(wù)設(shè)計(jì):不同模態(tài)通過tokenizer編碼器和解碼器與token相互轉(zhuǎn)換。每個(gè)模態(tài)周圍都有邊界token,任務(wù)token表示要執(zhí)行的任務(wù)類型

相比于之前的視頻生成模型,VideoPoet有這么三個(gè)比較大的優(yōu)勢(shì)。

一個(gè)是能生成更長(zhǎng)的視頻,一個(gè)是用戶能對(duì)生成的視頻有更好的控制能力,最后一個(gè)則是VideoPoet還可以根據(jù)文本提示,生成不同的運(yùn)鏡手法。

而在測(cè)試中,VideoPoet也是拔得頭籌,碾壓了不少其它視頻生成模型。

文本保真度

文本保真度的用戶偏好評(píng)級(jí),即在準(zhǔn)確遵循提示方面首選視頻的百分比

動(dòng)作趣味性:

用戶對(duì)動(dòng)作趣味性的偏好評(píng)級(jí),即在產(chǎn)生有趣的動(dòng)作方面,首選視頻的百分比

綜上可見,平均有24-35%的人認(rèn)為VideoPoet生成的示例比其他模型更加遵循提示,而其他模型的這一比例僅為8-11%。

此外,41%-54%的評(píng)估者認(rèn)為VideoPoet中的示例動(dòng)作更有趣,而其他模型只有11%-21%。

而有關(guān)未來的研究方向,谷歌研究人員表示,VideoPoet框架將會(huì)實(shí)現(xiàn)「any-to-any」的生成,比如擴(kuò)展文本到音頻、音頻到視頻,以及視頻字幕等等。?????????

掃描二維碼推送至手機(jī)訪問。

版權(quán)聲明:本文由激石Pepperstone發(fā)布,如需轉(zhuǎn)載請(qǐng)注明出處。

本文鏈接:http://xcvvvm.com/news/2656.html

“谷歌VideoPoet負(fù)責(zé)人蔣路跳槽TikTok!對(duì)標(biāo)Sora,AI視頻模型大戰(zhàn)在即” 的相關(guān)文章

價(jià)跌換量漲!美國5月新屋銷售意外上漲,但均價(jià)已較年內(nèi)高點(diǎn)大幅回落

激石Pepperstone(http://xcvvvm.com/)報(bào)道:周五,美國政府公布的數(shù)據(jù)顯示,5月新屋銷售環(huán)比上漲10.7%,達(dá)到年化69.6萬戶,高于市場(chǎng)預(yù)期的62.9萬戶。雖然比4月份的銷售有所增長(zhǎng),但同比2021年5月年化74萬套的新房銷售,下降了5.9%。 庫存方面,截至5...

“雪糕刺客”鐘薛高:花最多的錢,吃最多的膠?

激石Pepperstone(http://xcvvvm.com/)報(bào)道:“網(wǎng)紅”從來都是一把雙刃劍,捧的時(shí)候,把你抬得有多高,踩的時(shí)候,就把你罵得有多慘。 鐘薛高不融化的話題持續(xù)發(fā)酵,一直把公司架在火上烤。 盡管,鐘薛高添加卡拉膠等增稠劑符合國家標(biāo)準(zhǔn),但在普遍存在“添加劑恐懼癥”的背景之下...

岸田文雄與拜登通電話 討論如何延續(xù)安倍的遺產(chǎn)

岸田文雄與拜登通電話 討論如何延續(xù)安倍的遺產(chǎn)

激石Pepperstone(http://xcvvvm.com/)報(bào)道:據(jù)日本共同社報(bào)道,當(dāng)?shù)貢r(shí)間9日,日本首相岸田文雄與美國總統(tǒng)拜登通電話,拜登對(duì)日本前首相安倍晉三在8日演講時(shí)遭槍擊身亡表示哀悼。兩人討論了在繼續(xù)捍衛(wèi)和平與民主的重要任務(wù)時(shí),如何延續(xù)安倍晉三的遺產(chǎn)。 資料圖:日本首相...

罕見!德國、日本、越南都出現(xiàn)了貿(mào)易赤字,這意味著什么?

激石Pepperstone(http://xcvvvm.com/)報(bào)道:今年5月份,全球各大主要經(jīng)濟(jì)體幾乎全都在貿(mào)易逆差。 德國,傳統(tǒng)制造業(yè)強(qiáng)國,產(chǎn)品暢銷全球,歐洲經(jīng)濟(jì)火車頭,自1991年以來一直保持著貿(mào)易順差。 但7月4日德國聯(lián)邦統(tǒng)計(jì)局公布的數(shù)據(jù)打破了這一記錄,2022年5月,德國出口額...

美聯(lián)儲(chǔ)副主席:在加密貨幣風(fēng)險(xiǎn)更大之前,監(jiān)管必須先出手

美聯(lián)儲(chǔ)副主席:在加密貨幣風(fēng)險(xiǎn)更大之前,監(jiān)管必須先出手

激石Pepperstone(http://xcvvvm.com/)報(bào)道:今年以來,雖然多數(shù)資產(chǎn)都在下行,但是下跌最慘烈的資產(chǎn)中,加密貨幣榜上有名。 此前,很多投資者都認(rèn)為,加密貨幣和宏觀金融體系沒什么聯(lián)系,但是在美聯(lián)儲(chǔ)眼中,加密貨幣的動(dòng)蕩卻可能給整個(gè)金融體系帶來系統(tǒng)性風(fēng)險(xiǎn)。 7月8日周五,...

一夜間變天!英國首相繼任者面臨1950年代以來前所未見的挑戰(zhàn)

激石Pepperstone(http://xcvvvm.com/)報(bào)道:上周四,眾叛親離的英國首相約翰遜在唐寧街10號(hào)首相官邸正式宣布辭去保守黨領(lǐng)袖一職,但他無視眾人呼吁他立即讓位的請(qǐng)求仍然表示,在選定繼任者之前,他將留在唐寧街。 雖然約翰遜的時(shí)代即將落幕,但誰人能接過相位并不明朗。與前任...