要約

特定の音声データに対して適切な唇の動きを生成するリップシンクテクノロジーは、ディープラーニングで最も一般的な分野の1つです。映画を例にとってみましょう。もし外国の俳優が自国の言葉で吹き替えをしたら？韓国に長く住んでいる俳優のように、言葉の意味がよく表現され、没入感も格段に良くなります。また、ニュースで他国の政治家がディープラーニング技術を使って韓国語で話している様子が映っているのも不思議ではありません。そのため、自然で正確なリップシンク技術が、これからのサービスや通信業界に大きな飛躍をもたらすことが期待されています。

リップシンク技術はどのように実装されるのでしょうか？これは主に 2 つのステップで説明できます。まず、ニューラルネットワークは、音と同期して唇の形の主座標を一致させることを学習します。

次に、与えられた口のキーポイントを基にしたリアルなリップベースの合成方法を学習します。このステップで使用されるテクノロジーは、ジェネレーティブ・アドバーサリアル・ネットワーク (GAN) です。このGANはニューラルネットワークの一種で、特定の特徴を持つ以前に学習したデータセットと同様の分布のアウトプットを放出します。

例を見てみましょう。韓国銀行がニューラルネットワークに通貨の形状や色の分布を教えれば、本物そっくりの偽造紙幣が作れるようになるだろう。そのため、おおよそのキーポイントを教えれば、ニューラルネットワークは人間の唇の形をリアルに作れるようになります。

しかし、現実的な唇の形を作ったり、人間の下顎を合成したりするものは非常に複雑な作業であるため、ネットワークは簡単にはこの手法を習得できません。特に、こうした複雑な宿題を無責任に全部引き継いでネットワークにしっかり学習させると、音と唇が非現実的に合成された顔と合わないことがわかりやすくなります。

論文の主な貢献

リップシンクロネットワーク ウェーブツーリップ 過酷な条件下でも入力音声にうまく機能する構造が最先端の性能で提案されました。
ベンチマーク そして メトリック リップシンクの性能を評価することを提案しました。
彼らはと呼ばれるデータセットを収集して提供しました 実際のリップシンク評価 (再同期)。
合成された動画を評価する際、 90% 以上 の人が、以前のリップシンクモデルよりもWav2Lipのパフォーマンスが優れていると評価しました。

‍

以前のSOTAベースライン：リップガンモデル

著者は、以前のSOTAネットワークであるLipGaN [1] をベースラインとして挙げました。簡単にまとめると、以下のようになります。

データのタイプ

MFCC（メル周波数ケプストラル係数）技術によって変換された音声データ。
合成対象者の顔の画像（イメージを同期解除 (音声データ付き)
合成対象者の顔の画像（同期イメージの下半分が覆われている)

‍

ザの オーディオエンコーダー赤色で表示されている (4 ブロック) が MFCC データを計算します。
ザの フェイスエンコーダー（7ブロック）を青色で表示すると、同期された顔画像（下半分が覆われている）と同期されていない顔全体の画像を計算します。
2 つのエンコーダーで作成されたオーディオ埋め込みベクトルと顔埋め込みベクトル (赤と青) を組み合わせます。
グリーンカラー フェイスデコーダー(7 ブロック) 組み合わされた埋め込みベクトルから顔を合成します。このとき、U-Netのようにスキップ接続をしておくと、顔情報を十分に保存してデコーダーに配信できます。このデコード処理は GAN のジェネレータの役割を果たします。(割り当て) L1 損失 ターゲットのグラウンドトゥルースフェイス画像を再構築するため)
合成された画像とグラウンドトゥルース画像（音声データと同期した顔）は黄色のフェイスエンコーダーに入り、いくつかの操作を経て埋め込みベクトルに変更されます。
同様に、入力として使用されるオーディオMFCCデータは、グレーのオーディオエンコーダー（4ブロック）を介して埋め込みベクトルに変換されます。
コントラストロス 音声埋め込みベクトルと顔埋め込みベクトルが同期されていない場合は 0 になり、同期されている場合は 1 になります。

‍

制限事項

ジェネレータに過剰な量のタスクが割り当てられました。その構造は、対象となる人間の正体を明らかにするようなリアルな顔を合成する作業と、合成された画像から唇の動きが同期しているかどうかを判断する作業を教えてくれます。つまり、数学を勉強して数学の試験を受けるだけでなく、数学と英語を一緒に勉強して、2科目の試験を受けるということです。そこで、LipGaN モデルなどの既存のネットワークは 複雑なタスクを一度に学ぶそのため、適切な口の形を合成することは困難です。
実際に20エポックほど学習に費やしたら エポックのほぼ半分はフェイシャルシンセシスの方向に偏っていますそして唇の合成はその後です。そのため、唇の形を覚えることは学習プロセス全体のほんの一部に過ぎません。筆者はこう指摘しています。 口の周りの損失はパフォーマンスが4％低下します ピクセル再構成よりも。
LipGaN は 1 つのフレームだけを合成します。しかし、実際に口の形が前述の声の影響を受けることを考えると、 マルチフレームからの画像の合成 自然な口の動きには、事前知識を習得できる方が適しています。

‍

ウェーブ2リップモデル

LipGaNの問題を改善するために、著者はWav2Lipと呼ばれる構造を提案しています。

データのタイプ

MFCC（メル周波数ケプストラル係数）技術によって変換された音声データ。
合成対象者の顔の画像（イメージを同期解除 (音声データ付き)
合成対象者の顔の画像（同期イメージの下半分が覆われている)

‍

ネットワークメカニズム

ザの オーディオエンコーダー 緑色で表示すると、MFCC データが計算されます。
ザの フェイスエンコーダー 青色で表示すると、同期された顔画像（下半分が覆われている）と同期されていない顔全体の画像が計算されます。LipGaN とは異なり、単一フレームではなく連続した複数のフレームを使用しました。
2 つのエンコーダーによって作成されたオーディオ埋め込みベクトルと顔埋め込みベクトルが組み合わされてデコードを通過し、ターゲットのグラウンドトゥルース画像セットが再構成されます。ここでは、再構成用に L1 損失を割り当てます。

生成された画像とグラウンドトゥルース画像は、画像が現実的であるかどうかにかかわらず、ビジュアル・クオリティ・ディスクリミネーターによって評価されます。 音声同期ではなくビジュアルアーティファクトについて。リップガンとは異なり、 バイナリクロスエントロピー 対照的な損失ではなく、損失が使用されました。音声の同期に関係なく視覚的なアーティファクトを除去するのに役立ち、リアルな顔の合成のみに集中できます。数学に関する問題を解くことができるモンスター学生を育てます。
音声の同期が良好かどうかを判断するのは専門家に任せるべきです。持参してください。 エキスパートは、事前にトレーニングされたリップシンクディスクリミネーターで、音と画像の同期が正しいかどうかを評価します。要点は、ネットワークは十分な知識を持つ専門家から信頼できるスコアを取得する必要があるということです。そうでないと、シンセサイジングのスキルを磨くことができません。この論文では、同期だけを専門的に区別できる、スマートなプレトレーニングネットワークを導入することを論じています。これにより、合成された画像と音声データの正確な同期が失われる可能性があります。もっと正確に言うと、 コサイン類似度損失 同期が正しい場合はスコア1に、正しくない場合は0が割り当てられます。

‍

評価指標

データセット

法律 [4]
LRS [5]
LRS [6]

データセット

法律 [4]
LRS [5]
LRS [6]

SyncNet: LSE-D、LSE-C

SyncNetは、動画が偽物かどうかを判断するために登場したネットワークです [2]。ビデオの口の形や音声のMFCCデータを入力すると、同期が正しければネットワークから近い距離が出力されます。同期が間違っていると、オーディオ埋め込みベクトルとビデオ埋め込みベクトルの間の距離が遠く離れて出力されます。

‍

このとき、フレームと音声データの同期が正しいかどうかを判断するための評価項目として、リップシンクエラー距離（LSE-D）が使用されます。

ビデオフレームとオーディオの間に時間オフセットを与えると、オーディオとビデオの埋め込みベクトルの間の距離を比較できます。同期が一致する瞬間 (時間オフセットが 0 の場合) は、LSE-D が小さく、オフセットが大きくなるため、距離が遠ざかります。そこで、距離値の変化に応じて映像と音声がフィットする部分が合っていることが分かる、一種の信頼性指標であるリップシンクエラーコンフィデンス (LSE-C) が登場しました。距離の中央値と最小値の差を計算します。

‍‍

FID (フラッシェ・インセプション・ディスタンス)

‍

結果

1。テンポラルウィンドウ:ベースラインのLipGaNとの大きな違いの1つは、Wav2Lipがマルチフレームを入力として使用していることです。実際、フレーム数を増やして学習した結果、サーマルウィンドウが大きくなるほど、LSE-D と LSE-C の両方が良好なパフォーマンスを示すことがわかりました。

2。事前トレーニング済みのディスクリミネーター:リップシンクロだけを専門的にチェックできるプレトレーニングネットワーク Expert を使用した結果、LSE-D と LSE-C の評価項目は、既存の Speech2Vid [3] や LipGaN モデルよりも優れたパフォーマンスを示しました。参照 ウェーブ2リップ (当社)

3。視覚品質ディスクリミネーター：LipGaNとは異なり、視覚画像のみを比較して本物か偽物を判断するディスクリミネーターを追加すると、LSE-DとLSE-Cではパフォーマンスがわずかに低下しましたが、FIDに関しては視覚的画質の方がはるかに優れています。そのため、よりリアルな唇の動きを表現できます。また、好感度やユーザーエクスペリエンスのスコアもはるかに高かった。「」を参照してください。 ウェーブ2リップ+ GAN (当社製品)

結論と意見

これは、以前のモデルよりもはるかに正確なリップシンクビデオを合成できるネットワークです。ディスクリミネーターを使用して視覚的なアーティファクトを除去するだけではなく、同期をより良くするために事前に学習した無関係なディスクリミネーターによってパフォーマンスがさらに向上したことは印象的でした。さらに、パフォーマンス評価用にさまざまな指標やデータセットが提供され、ユーザーエクスペリエンスによる選好スコアを通じて、客観性と信頼性が高いことが証明されました。近い将来、ジェスチャーやヘッドポーズなどのモーションプレゼンテーションが追加される予定で、すでに多くの研究が行われています。ディープラーニングによるリップシンク合成モデルはさらに発展し、より豊かなサービスとして人間にアプローチすることが期待されています。