Los videos se han vuelto omnipresentes, desde transmitir nuestras películas y programas de TV favoritos hasta participar en videoconferencias y llamadas. Con el uso cada vez mayor de teléfonos inteligentes y otros dispositivos de captura, ha aumentado la importancia de la calidad de los videos. Sin embargo, debido a diversos factores, como la poca luz, el ruido digital o la mala calidad de adquisición, la calidad de los videos capturados por estos dispositivos suele estar lejos de ser perfecta. En estas situaciones, entran en juego las tecnologías de mejora de video, con el objetivo de mejorar la resolución y las características visuales.
A lo largo de los años, se han desarrollado muchas técnicas de mejora de video hasta la llegada de complejos algoritmos de aprendizaje automático para eliminar el ruido y mejorar la calidad de la imagen. Las redes neuronales son una de las tecnologías de optimización de video más prometedoras. Ha surgido recientemente como una poderosa herramienta de mejora de video, que permite niveles sin precedentes de nitidez y detalle en los videos.
Entre las aplicaciones más emocionantes de las redes neuronales en la mejora de video se encuentran la superresolución, que implica aumentar la resolución del video para brindar una imagen más clara y detallada, y la reducción de ruido, cuyo objetivo es convertir las regiones borrosas en características distintas. Con la ayuda de las redes neuronales, estas tareas se hacen realidad.
Sin embargo, la complejidad de estas tareas de optimización de video plantea muchos desafíos en las aplicaciones en tiempo real. Por ejemplo, muchas técnicas modernas, como los modelos de difusión, involucran múltiples pasos que requieren muchos recursos para crear una imagen a partir del ruido de la red. Para los modelos de difusión, solo los pasos de eliminación de ruido requieren una GPU potente.
Con este desafío en mente, se ha desarrollado un nuevo marco de red neuronal llamado ReBotNet. Una visión general del sistema propuesto está disponible en la siguiente figura.
La red toma el marco que necesita ser optimizado y el marco predicho como entrada. La singularidad del método radica en su diseño, que utiliza bloques convolucionales y basados en MLP para evitar la alta complejidad computacional asociada con los mecanismos de atención tradicionales, manteniendo un buen rendimiento.
Los autores codifican los marcos de entrada de dos maneras para permitir que la red aprenda características espacio-temporales. Cada conjunto de símbolos se pasa a través de capas de mezclador separadas para determinar las dependencias entre ellos. El marco optimizado se predice utilizando un decodificador directo basado en estos tokens. El método también utiliza la repetición temporal en videos de la vida real para mejorar la eficiencia y la consistencia temporal. Para lograr esto, se utiliza una configuración de entrenamiento recursivo de marcos donde la predicción anterior se usa como una entrada adicional a la red, lo que permite que la información se propague a marcos futuros.
Este método es más eficaz que las técnicas que utilizan una pila de varios fotogramas como entrada. En cuanto a la calidad conseguida, a continuación se muestran algunos de los resultados y se comparan con la última tecnología.
Los autores afirman que el método propuesto es 2,5 veces más rápido que los métodos modernos anteriores al tiempo que iguala o mejora ligeramente la calidad óptica en términos de PSNR.
Ese fue el resumen de ReBotNet, un nuevo marco de IA para la optimización de video en tiempo real.
Si está interesado o desea obtener más información sobre este trabajo, puede encontrar un enlace a la página del artículo y el proyecto.
escanear el papel Y proyecto. Todo el crédito por esta investigación es para los investigadores de este proyecto. Además, no olvides unirte Sub Reddit de 17k+MLY canal de discordiaY Boletín electrónicodonde compartimos las últimas noticias de investigación de IA, interesantes proyectos de IA y más.
Daniel Lorenzi tiene una maestría. Recibió su doctorado en Tecnologías de la Información y la Comunicación para Internet e Ingeniería Multimedia en 2021 de la Universidad de Padua, Italia. Tiene un doctorado. Candidato en el Instituto de Tecnología de la Información (ITEC) en Alpen-Adria-Universität (AAU) Klagenfurt. Actualmente trabaja en el Laboratorio Christian Doppler en ATHENA y sus intereses de investigación incluyen transmisión de video adaptable, medios inmersivos, aprendizaje automático y evaluación de QoS/QoS.
More Stories
El código en los datos previos al entrenamiento mejora el rendimiento del LLM en tareas que no son de codificación
Un marco para resolver ecuaciones diferenciales parciales equivalentes puede guiar el procesamiento y la ingeniería de gráficos por computadora
Epiroc ha lanzado una nueva plataforma de perforación de producción de pozos largos