[En lo profundo. Artículo] Un experto en sincronización de labios es todo lo que necesita para generar voz a labios en la naturaleza: DeepBrainAI

Updated on
July 5, 2024
|
Technology
Published
January 25, 2022

Resumen

La tecnología de sincronización de labios, que genera el movimiento correcto de los labios para un dato de voz determinado, es uno de los campos más populares del aprendizaje profundo. Tomemos una película como ejemplo. ¿Qué pasa si un actor extranjero dobla según el idioma de nuestro país? Como un actor que vivió en Corea durante mucho tiempo, el significado del discurso se expresará bien y la inmersión será mucho mejor. Además, no es sorprendente que las noticias muestren a políticos de otros países hablando en coreano a través de la tecnología de aprendizaje profundo. Por lo tanto, se espera que la tecnología de sincronización de labios natural y precisa dé un gran salto adelante en la futura industria de servicios y comunicaciones.

¿Cómo se implementará la tecnología de sincronización de labios? Se puede explicar en dos pasos principales. En primer lugar, la red neuronal aprende a hacer coincidir las coordenadas principales de la forma del labio sincronizándolas con el sonido.

Luego, aprende a sintetizar labios realistas basándose en puntos clave dados un conjunto de puntos clave orales. La tecnología utilizada en este paso es la Red Generativa de Adversarios (GAN). Esta GAN es un tipo de red neuronal que libera salidas que tienen una distribución similar a la de un conjunto de datos previamente aprendido, que tiene ciertas características.

Tomemos un ejemplo. Si el Banco de Corea enseñara a una red neuronal la forma o la distribución del color de la moneda, podrá crear billetes falsos realistas. Por lo tanto, la red neuronal aprende a crear formas realistas de labios humanos si le enseñamos los principales puntos clave aproximados.

Sin embargo, la red no puede aprender fácilmente la técnica porque las cosas que dan forma realista a los labios y sintetizan la mandíbula inferior humana son tareas muy complicadas. En particular, si uno traspasa a su red de manera irresponsable todos estos complejos deberes para aprender bien, es fácil observar que el sonido y los labios no coinciden con los de rostros sintetizados de forma poco realista.

 

Contribución principal del artículo

  1. Una red de sincronización de labios Wav2Lip Se propuso una estructura que funciona bien para la entrada de voz incluso en condiciones adversas con un rendimiento de última generación.
  2. Punto de referencia y métrico se propuso evaluar el rendimiento de la sincronización de labios.
  3. Recopilaron y proporcionaron un conjunto de datos llamado Evaluación de sincronización de labios en el mundo real (resincronizada).
  4. Al evaluar el vídeo sintetizado, más del 90% de las personas evaluadas, Wav2Lip funcionó mejor que los modelos anteriores de sincronización de labios.

Línea base SOTA anterior: modelo LipGAN

El autor citó LipGAN [1], la red SOTA anterior, como referencia. A continuación se presenta un breve resumen.

  • Tipo de datos
  1. Datos de voz transformados mediante la técnica MFCC (coeficiente cepstral de frecuencia melada).
  2. Imagen del rostro de la persona objetivo que se va a sintetizar (desincronizar imagen con datos de voz)
  3. Imagen del rostro de la persona objetivo que se va a sintetizar (la mitad inferior de la imagen de sincronización está cubierta)

[Mecanismo de red]

 

  1. El Codificador de audio(4 bloques) expresado en color rojo calcula los datos del MFCC.
  2. El Codificador facial(7 bloques) expresado en color azul calcula la imagen facial sincronizada (la mitad inferior cubierta) y la imagen facial completa no sincronizada.
  3. Combine el vector de incrustación de audio y el vector de incrustación facial creado a través de los dos codificadores (color rojo y azul).
  4. El color verde Decodificador facial(7 bloques) sintetiza la cara a partir del vector de incrustación combinado. En este momento, mantenga la conexión omitida como U-Net para que la información facial pueda conservarse bien y entregarse al decodificador. Este proceso de decodificación actúa como un generador en GAN. (asignación) Pérdida L1 para reconstruir el terreno objetivo: verdad (imagen facial)
  5. La imagen sintetizada y la imagen real del suelo (rostro sincronizado con datos de voz) entran en el codificador facial amarillo y lo cambian por vector incrustado mediante varias operaciones.
  6. De manera similar, los datos MFCC de audio utilizados como entrada se convierten en un vector de incrustación a través de un codificador de audio gris (4 bloques).
  7. Pérdida contrastiva permite que el vector de incrustación de voz y el vector de incrustación de rostros se conviertan en 0 si no están sincronizados y en 1 si están sincronizados.

Limitación

  1. Se asignó una cantidad excesiva de tareas al generador. Esa estructura enseña el trabajo de sintetizar rostros realistas que puedan revelar la identidad del ser humano objetivo y el trabajo de determinar si el movimiento de los labios está sincronizado o no mediante imágenes sintetizadas. En otras palabras, no solo estudie matemáticas y haga un examen de matemáticas, sino que estudie matemáticas e inglés juntos y rinda exámenes para dos materias. Por lo tanto, las redes existentes, como el modelo LipGAN aprende tareas complejas a la vez, por lo que es difícil sintetizar las formas de boca apropiadas.
  2. Si realmente dedicas unas 20 épocas a aprender, casi la mitad de las épocas están sesgadas hacia la síntesis facial, y la síntesis de labios es solo después de eso. Por lo tanto, aprender la forma de los labios es solo una parte de todo el proceso de aprendizaje. El autor señaló que la pérdida alrededor de la boca es un 4% menor de rendimiento que la reconstrucción de píxeles.
  3. LipGan sintetiza un solo fotograma. Sin embargo, teniendo en cuenta que la forma de la boca se ve realmente afectada por la voz antes mencionada, sintetizar imágenes a partir de varios fotogramas que puede aprender conocimientos previos es más apropiado para los movimientos naturales de la boca.

Modelo Wav2Lip

Para mejorar los problemas de LipGan, el autor propone una estructura llamada Wav2Lip.

  • Tipo de datos
  1. Datos de voz transformados mediante la técnica MFCC (coeficiente cepstral de frecuencia melada).
  2. Imagen del rostro de la persona objetivo que se va a sintetizar (desincronizar imagen con datos de voz)
  3. Imagen del rostro de la persona objetivo que se va a sintetizar (la mitad inferior de la imagen de sincronización está cubierta)

 

  • Mecanismo de red
  1. El Codificador de audio expresado en color verde calcula los datos del MFCC.
  2. El Codificador facial expresado en color azul calcula la imagen facial sincronizada (la mitad inferior cubierta) y la imagen facial completa no sincronizada. A diferencia de LipGan, utilizamos varios fotogramas consecutivos en lugar de un fotograma único.
  3. El vector de incrustación de audio y el vector de incrustación facial creados por dos codificadores se combinan para pasar por la decodificación y reconstruir el conjunto de imágenes reales del terreno objetivo. Aquí asignamos la pérdida L1 para la reconstrucción.
  1. Visual Quality Discriminación evalúa las imágenes generadas y las imágenes reales sobre el terreno, independientemente de que la imagen sea realista o no, sobre no la sincronización de voz sino sobre los artefactos visuales. A diferencia de LipGan, entropía cruzada binaria se utilizó la pérdida, no la pérdida de contraste. Ayudan a eliminar los artefactos visuales independientemente de la sincronización de la voz y se centran únicamente en la síntesis facial realista. Fomenta a un estudiante monstruoso que puede resolver problemas de matemáticas.
  2. Se debe dejar que el experto determine si la sincronización de la voz es excelente. Traiga el Experto, un discriminador de sincronización de labios previamente entrenado, para evaluar si la sincronización entre el sonido y la imagen es correcta. El punto principal es que su red necesita obtener una puntuación fiable de un experto con experiencia; de lo contrario, no podrán desarrollar sus habilidades de síntesis. En este artículo, abogan por crear una red inteligente de preentrenamiento que solo pueda discriminar profesionalmente la sincronización. Puede provocar una pérdida de sincronización precisa entre la imagen sintetizada y los datos de voz. Más precisamente, pérdida de similitud de coseno se asigna a la puntuación 1 si la sincronización es correcta y a 0 si no es correcta.

Métrica de evaluación

  • Conjunto de datos
  1. LEY [4]
  2. LRS 2 [5]
  3. LRS 3 [6]
  • Conjunto de datos
  1. LEY [4]
  2. LRS 2 [5]
  3. LRS 3 [6]
  • SyncNet: LSE-D, LSE-C

SyncNet es una red que ha surgido para determinar si un vídeo es falso o no [2]. Al introducir datos MFCC de vídeo y voz en forma de boca, la red emite una señal de que la distancia es cercana si la sincronización es correcta. Si la sincronización es incorrecta, emiten una distancia considerable entre los vectores de incrustación de audio y los vectores de incrustación de vídeo.

En este momento, la distancia de error de sincronización de labios (LSE-D) se utiliza como elemento de evaluación para determinar si la sincronización de los datos de voz y fotogramas es correcta.

 

 

Si proporciona un desplazamiento temporal entre el fotograma de vídeo y el audio, podemos comparar la distancia entre los vectores de incrustación de audio y vídeo. En el momento en que la sincronización coincide (cuando el desfase temporal es 0), el LSE-D es pequeño y el desfase aumenta, lo que hace que la distancia se aleje. Por lo tanto, ha surgido el error de sincronización de labios (LSE-C), una especie de indicador de fiabilidad, para comprobar que el vídeo y el sonido se sincronizan parcialmente según el cambio en el valor de la distancia. Calculan la diferencia entre el valor medio y el valor mínimo de la distancia.

 

  • FID (distancia de inicio de Frachet)

 

Resultados

1. Ventana temporal: Una de las grandes diferencias con respecto a LipGAN de Baseline es que Wav2Lip utiliza fotogramas múltiples como entrada. De hecho, al aprender aumentando el número de fotogramas, se descubrió que tanto el LSE-D como el LSE-C mostraban un buen rendimiento a medida que aumentaba la ventana térmica.

 

2. Discriminación previamente entrenada: Como resultado del uso del experto en redes de preentrenamiento, que solo ayuda a comprobar de forma profesional la sincronización labial, los elementos de evaluación de LSE-D y LSE-C mostraron un mejor rendimiento que los modelos Speech2Vid [3] y LipGaN existentes. Consulte Wav2Lip (4 horas)

 

 

3. Discriminación de calidad visual: a diferencia de LipGAN, la adición de un discriminador que compare solo imágenes visuales para determinar si son reales o falsas mostró una ligera disminución en el rendimiento en LSE-D y LSE-C, pero en términos de FID, la calidad de la imagen visual es mucho mejor. Por lo tanto, puedes expresar un movimiento de labios mucho más realista. También recibió puntuaciones mucho más altas en cuanto a preferencias y experiencia de usuario. Consulte Wav2Lip + GAN (4 horas)

 

 

Conclusión y opinión

Es una red que puede sintetizar vídeos de sincronización de labios mucho más precisos que los modelos anteriores. Es impresionante que no se limite al uso de discriminadores para eliminar artefactos visuales, sino que aumente aún más el rendimiento con discriminadores externos aprendidos de antemano para una sincronización mucho mejor. Además, se proporcionaron varias métricas y conjuntos de datos para la evaluación del desempeño, que demostraron una mayor objetividad y confiabilidad al obtener una puntuación de preferencia basada en la experiencia del usuario. En un futuro próximo, se añadirá la presentación de movimientos, como los gestos y la postura de la cabeza, y gran parte de la investigación ya se está llevando a cabo. Se espera que el modelo de síntesis de sincronización de labios mediante el aprendizaje profundo siga desarrollándose y se acerque a los humanos como un servicio más rico.

 

Referencia

[1] Hacia la traducción automática cara a cara

[2] Fuera de tiempo: sincronización de labios automatizada en la naturaleza

[3] Métodos adaptativos de subgradiente para el aprendizaje en línea y la optimización estocástica

[4] Lectura de labios en la naturaleza

[5] Reconocimiento profundo de voz audiovisual

[6] LRS3-TED: un conjunto de datos a gran escala para el reconocimiento visual de voz

[7] U-Net: redes convolucionales para imágenes biomédicas

Most Read

Most Read

Mantengámonos conectados

Nuestro equipo está listo para apoyarlo en su viaje humano virtual. Haga clic a continuación para comunicarse con nosotros y alguien se pondrá en contacto con usted en breve.