Nvidia quiere eliminar el ruido en las imágenes de tus videollamadas

8 de octubre de 2020 · 05:50 hs

Hay mil razones para odiar las videollamadas, entre ellas la mala calidad de compresión de video que ocasionalmente pueden hacer que tu rostro sea completamente irreconocible. Nvidia tiene una posible solución al problema, pero en lugar de corregir los algoritmos de compresión, quiere usar redes neuronales para representar una recreación de su rostro en tiempo real.

Al igual que con todos los videos transmitidos a través de Internet, desde YouTube a Netflix, los algoritmos de compresión se utilizan para reducir la cantidad de ancho de banda necesario para que las videollamadas siempre se realicen en tiempo real, independientemente de la velocidad del proveedor de servicios de Internet del usuario. Estos algoritmos utilizan muchos trucos, desde reducir la fidelidad del color hasta eliminar fotogramas e interpolarlos luego, hasta incluso minimizar la resolución del video, que es lo que a menudo lleva a que las personas a veces parezcan estar llamando a una cámara web de finales de los 90. Los algoritmos de compresión de video mejorarán lentamente con el tiempo, ofreciendo mejor calidad con tamaños de archivo más pequeños, pero Nvidia ha demostrado una solución que ofrece mejoras notables en este momento.

No es ningún secreto que las herramientas de procesamiento de video impulsadas por redes neuronales ahora son capaces de realizar algunas hazañas impresionantes. Además de los convincentes intercambios de rostros, estas herramientas también pueden mejorar las imágenes fijas y los videos, generando vistas desde diferentes ángulos donde una cámara no estaba colocada originalmente, o crear imágenes completamente originales de una persona que hace o dice algo que no había hecho antes. Hay buenas razones para preocuparse por los usos nefastos de estas herramientas, pero también hay muchas razones para estar entusiasmados con sus posibles aplicaciones útiles.

Nvidia llama a esta nueva aplicación compresión de video AI y en lugar de enviar un flujo de video a través de Internet a 15 o 30 cuadros por segundo, solo envía un número menor de cuadros de intervalos de tiempo específicos, conocidos como fotogramas clave. Ver solo estos fotogramas clave reproducidos en el otro extremo se vería como una presentación de diapositivas entrecortada, por lo que el sistema también analiza, extrae y comparte datos sobre la posición y el movimiento de puntos específicos en la cara del sujeto, que es un goteo de datos en comparación. En el extremo receptor, una red neuronal alimentada por una tarjeta gráfica capaz, utiliza esos datos puntuales para generar fotogramas adicionales entre los fotogramas clave, lo que da como resultado un video de movimiento completo con una reproducción suave nuevamente y sin ningún artefacto visual desagradable comúnmente asociado con sobrecomprimido vídeo.

No solo los resultados en el extremo del receptor se ven mejor, los investigadores de Nvidia estiman que el ancho de banda necesario para transmitir video usando compresión de video AI podría reducirse a tan solo una décima parte del ancho de banda necesario para vídeos comprimidos con estándares populares como H.264 . Potencialmente significa que incluso si tuviera que marcar una videollamada en tu teléfono inteligente con una recepción irregular, se vería tan bien como si estuvieras sentado en la oficina con una conexión rápida y confiable.

Archivado en