告別渣畫質,視頻會議帶寬降90%,英偉達公開Maxine服務背後重要技術

機器之心報道

作者:魔王、蛋醬

如果讓打工人用幾個關鍵詞總結 2020 年的生活,「視頻會議」應該是其中一個。受疫情影響,這一年來,遠程辦公和視頻會議正在成為新的潮流。在忍受會議枯燥的同時,很多人迷上瞭 AI 換臉,期望能夠實現「一邊開會,一邊摸魚」的夢想。此前機器之心也介紹過 Avatarify 這樣的熱門項目。隻是…… 效果不一定很理想:

給出一個人的源圖像,和一個人的動作視頻(此處稱為驅動視頻 (driving video),動作視頻和源圖像中的人物可以一致或不一致),如何合成逼真的說話者頭部視頻,即將源圖像中的頭像與驅動視頻中的動作合二為一。源圖像編碼目標人物的外觀,驅動視頻決定輸出視頻中的人物動作。最近,針對這一任務,英偉達提出瞭一種純神經式的渲染方法,即不使用人物頭部的 3D 圖模型,隻使用在 one-shot 設置下訓練而成的深度網絡,進行說話者頭部視頻的渲染。

論文鏈接:https://images.weserv.nl/?url=https://arxiv.org/pdf/2011.15126.pdf與 3D 圖模型相比,基於 2D 的方法具備多項優勢:首先,避免瞭繁雜、昂貴的 3D 模型獲取;其次,2D 方法可以更好地處理頭發、胡須等的合成,而獲得這些區域的詳細 3D 幾何形狀則有一定的挑戰性;最後,無需 3D 模型,2D 方法可以直接合成源圖像中的配飾,包括眼鏡、帽子、圍巾等。但是,現有的 2D 方法存在一些局限性。由於缺少 3D 圖模型,2D 方法隻能從原始視角合成說話者頭部視頻,無法從新的角度進行渲染。而英偉達的方法解決瞭 2D 方法的固定視角問題,並實現瞭局部自由視角合成,你可以在原始視角的一定范圍內改變說話者頭部的角度。該模型使用新型 3D 關鍵點表征來表示視頻,3D 關鍵點表征的特點是將人物特定信息和動作相關信息分解開來,關鍵點及其分解均使用無監督學習方式得到。使用該分解,英偉達能夠對人物特定表征應用 3D 變換,來模擬頭部姿勢的變化,如轉動頭部。下圖 2 展示瞭英偉達提出的新方法:

研究者在多個說話者頭部合成任務中進行瞭大量實驗驗證,包括視頻重建、動作遷移和人臉重定向(face redirection),還將該方法應用於降低視頻會議的帶寬。通過僅發送關鍵點表征、在接收端重建源視頻,該方法將視頻會議帶寬降至 H.264 商用標準所需帶寬的十分之一,且不影響視覺質量。

視頻重建效果。

動作遷移。

人臉重定向。這項研究基於前段時間英偉達開源的 Imaginaire 庫,也是英偉達 Maxine 視頻流平臺背後的技術組成部分之一。GAN 發明者 Ian Goodfellow 在推特上點贊並表示:「Cool,博士時期的實驗室夥伴曾研究預訓練階段的 ML 壓縮,我記得這很難。」

主要貢獻該研究的主要貢獻如下:

  • 提出新型 one-shot 神經說話者頭部合成方法,在基準數據集上獲得瞭比 SOTA 方法更好的視覺質量;

  • 在沒有 3D 圖模型的情況下,實現瞭對輸出視頻的局部自由視角控制,即在合成過程中允許改變說話者頭部的角度;

  • 將視頻會議的帶寬,降至 H.264 視頻壓縮標準所需帶寬的十分之一。

英偉達新方法英偉達提出一種純神經合成方法,不使用 3D 圖模型。該方法包含三個主要步驟:

  • 源圖像特征提取;

  • 驅動視頻特征提取;

  • 視頻合成。

研究者使用一組網絡並進行聯合訓練,來完成這些步驟。其中前兩個步驟參見下圖 3:

圖 3:源圖像和驅動視頻特征提取。具體而言,該研究從源圖像中提取人物外觀特征和 3D 典型關鍵點及其雅克比行列式,同時還估計人物頭部姿勢和表情變化引起的關鍵點擾動,利用它們來計算源關鍵點。對於驅動視頻,研究者仍舊估計其頭部姿勢和表情形變。通過重用來自源圖像的 3D 典型關鍵點,來計算驅動關鍵點。第三個步驟參見圖 5:

圖 5:視頻合成。該步驟中,研究人員使用源關鍵點、驅動關鍵點及其雅克比行列式來估計 K 個 flow(w_1、w_2、w_k),這些 flow 用於扭曲源特征 f_s。然後將這些結果結合起來輸入到運動場(motion field)估計網絡 M,得到流分解掩碼 m。將 m 和 w_k flow 進行線性組合得到合成流場 w(composited flow field),可用於扭曲 3D 源特征。最後,生成器 G 將扭曲後的特征轉換為輸出圖像 y。而該方法還包括一個主要環節:用無監督方式學習一組 3D 關鍵點及其分解。研究人員將這些關鍵點分解成兩部分:一部分建模人臉表情,一部分建模人物的幾何特征。二者與目標人物頭部姿勢相結合,就可以生成圖像特定的關鍵點,然後利用它們學習兩個圖像之間的映射函數。在第一個步驟中,從源圖像得到的關鍵點是圖像特定的,且包含人物特征、姿勢和表情信息。關鍵點計算流程參見下圖 4:

訓練細節下圖展示瞭該模型中網絡的實現細節,以及模型構造塊詳情:

 圖 12:模型中各個組件的具體架構。

圖 13:模型構造塊。實驗說話者頭部圖像合成這部分涉及兩個任務:相同人物的圖像合成和不同人物的動作遷移。首先是源圖像和驅動圖像中人物身份一致的情況。研究者對比瞭五種人臉合成方法,量化評估結果參見下表 1。可以看出,該研究提出的方法在兩個數據集的所有指標上的表現均優於其他方法。

在圖 6 和圖 7 中,研究者分別展示瞭不同方法的定性比較結果,該研究提出的方法能夠更加真實地再現動作變化。

接下來,研究者在源圖像和驅動圖像中人物不同的情況下,進行方法對比,結果如表 2 所示。該研究提出的方法取得瞭最低的 FID 分數。

 圖 8 展示瞭不同方法間的對比結果,可以看出英偉達方法生成的結果更為真實,且保留瞭原有的人物特征。

人臉重定向研究人員對 pixel2style2pixel (pSp)、Rotate-and-Render (RaR) 和該研究提出方法進行瞭量化對比,結果參見下表 3:

三種方法的示例對比結果如圖 9 所示。可以看出,pSp 模型雖然能夠將人臉前置,但會丟失人物的身份特征。RaR 采用瞭 3D 人臉模型,因此生成結果的視覺效果更具吸引力,但在人臉區域以外的地方存在問題。此外,這兩種方法都存在時間穩定性問題。對比之下,該研究提出方法實現瞭不錯的人臉前置效果。

在視頻會議中的應用該模型能夠利用緊湊表征對驅動圖像中的動作進行蒸餾,這有助於降低視頻會議應用的帶寬。視頻會議流程可以看做接收者看到發送者面部的動態版本。圖 10 展示瞭使用該研究提出的神經說話者頭部模型搭建的視頻會議系統。

圖 10:視頻壓縮框架。在發送端,驅動圖像編碼器提出關鍵點擾動δ_d,k 和頭部姿勢 R_d 和 t_d,然後使用熵編碼器進行壓縮並傳送至接收端。接收端對信息進行解壓縮,並將其與源圖像 s 結合生成輸入 d 的重建結果 y。論文作者表示,目前該方法在壓縮方面的優勢僅限於說話者頭部視頻,至於一般的視頻壓縮,還未能達到如此理想的效果。

目前,英偉達已經開放瞭在線演示網址:https://images.weserv.nl/?url=http://nvidia-research-mingyuliu.com/face_redirection關於更多的論文細節,可參考下方視頻:

2020 NeurIPS MeetUp

12月6日,機器之心將舉辦2020 NeurIPS MeetUp。此次MeetUp精選數十篇論文,覆蓋深度學習、強化學習、計算機視覺、NLP等多個熱門主題,設置4場Keynote、13篇論文分享和28個Poster。

時間:12月6日9:00-18:00地址:北京燕莎中心凱賓斯基飯店(亮馬橋)

點擊閱讀原文,立即報名。

© THE END 

轉載請聯系本公眾號獲得授權

投稿或尋求報道:[email protected]