El 13 de junio de 2024. papelinvestigadores de Sony Research India y el Instituto Indraprastha de Tecnología de la Información (IIIT) presentaron DubWise, un método diseñado para sincronizar el audio doblado con el contenido visual de un vídeo.
DubWise utiliza un enfoque multimodal que combina modelos de lenguaje grande (LLM) de texto a voz (TTS) con señales visuales de video. Como señalan los investigadores, «los videos brindan una guía más confiable que el audio con respecto a la alineación».
Esto permite que el sistema no solo traduzca el diálogo sino que también controle la duración del discurso traducido para garantizar que coincida con los movimientos de los labios y el tiempo del video original.
El sistema primero usa LLM para generar el texto traducido y luego usa un modelo de predicción de duración que tiene en cuenta tanto el texto como las señales visuales del video, como los movimientos de los labios y las expresiones faciales del hablante.
Los investigadores eligieron GPT-2 para la conversión de texto a voz multilingüe debido a su pequeño tamaño de modelo y su mayor adaptabilidad en los sistemas modernos de texto a voz (TTS).
«Nuestro método utiliza señales visuales extraídas de vídeo para lograr control de duración en la conversión de texto a voz basada en GPT manteniendo al mismo tiempo la inteligibilidad y la calidad de la voz», dijeron.
Según los investigadores, DubWise puede solucionar el difícil problema de alinear audio y vídeo después del doblaje. Explicaron que las técnicas de doblaje tradicionales basadas en inteligencia artificial a menudo no logran alinear el audio doblado con el video, lo que resulta en una sincronización visual y de audio poco natural. Agregaron que este desequilibrio se produce porque el habla producida por la conversión de texto a voz en el idioma de destino suele tener una duración diferente a la del audio original.
El primer intento de este tipo.
“Este es el primer intento de este tipo que utiliza un modelo basado en video para lograr el control de la duración en […] Los investigadores informaron que el TTS multimodal basado en LLM.
Realizaron experimentos en escenarios de un solo hablante y de varios hablantes y utilizaron diferentes métricas para evaluar el control de la duración, la claridad y la precisión de la sincronización de labios.
Los investigadores dicen que DubWise supera a otros métodos modernos en varias métricas. Logró una mejora en la sincronización de labios y la naturalidad tanto en escenarios multilingües como en el mismo idioma, manteniendo al mismo tiempo la inteligibilidad y la calidad del habla.
Las muestras de prueba están disponibles en https://nirmesh-sony.github.io/DubWise/
Autores: Neha Sahibjohn, Ashikkumar Gudmalwar, Nirmesh Shah, Pankaj Wasnik, Rajiv Rattan Shah
More Stories
El código en los datos previos al entrenamiento mejora el rendimiento del LLM en tareas que no son de codificación
Un marco para resolver ecuaciones diferenciales parciales equivalentes puede guiar el procesamiento y la ingeniería de gráficos por computadora
Epiroc ha lanzado una nueva plataforma de perforación de producción de pozos largos