Actualización de Netflix ofrece Optimización de la experiencia Aural en dispositivos Android con xHE-AAC

Actualización de Netflix ofrece Optimización de la experiencia Aural en dispositivos Android con xHE-AAC

Netflix anuncia una nueva actualización y ahora transmite HE-AAC extendido con MPEG-D DRC (xHE-AAC) a dispositivos Android que mejora la calidad del audio, tal como comentan en su blog.

Características xHE-AAC

MPEG-D DRC

Niveles de diálogo y rango dinámico

Para medir el rango dinámico de un programa, dividimos la forma de onda en segmentos cortos, como intervalos de medio segundo, y calculamos el nivel RMS de cada segmento en dBFS. El resumen de esas mediciones se puede trazar en una sola línea vertical, como se muestra a continuación en la Figura 2. El sonido ambiental de una fogata puede ser hasta 60 dB más suave que el coche que explota en una escena de acción. El rango dinámico de un programa es la diferencia entre sus sonidos más silenciosos y los más fuertes. Así que en nuestro ejemplo, diríamos que el programa tiene un rango dinámico de 60 dB. Revisaremos este ejemplo en la sección que analiza el control de rango dinámico.

La sonoridad es la percepción subjetiva de la presión sonora. Aunque está más directamente correlacionado con el nivel de presión sonora, también se ve afectado por la duración y la composición espectral del sonido. Las investigaciones han demostrado que, en los contenidos cinematográficos y televisivos, el nivel de diálogo es el elemento más importante para la percepción de los espectadores de la sonoridad de un programa. No todos los programas tienen el mismo nivel de diálogo o el mismo rango dinámico.

La película de acción contiene diálogos a -27 dBFS, dejando espacio para efectos fuertes como explosiones. Por otro lado, el concierto en vivo tiene un rango dinámico relativamente pequeño, con diálogos cerca de la parte superior de la mezcla. Otros programas tienen diferentes niveles de diálogo y rangos dinámicos variables. Cada espectáculo se mezcla en función de un conjunto único de condiciones.

Ahora, imagina que estabas viendo estos programas, uno tras otro. Si cambiaste del espectáculo de acción al concierto en vivo, ¡probablemente estarías buceando para que el control de volumen lo baje! Luego, cuando el drama se enciende, es posible que no pueda entender el diálogo hasta que vuelva a subir el volumen. Si fueras a cambiar a mitad de los espectáculos, el efecto podría incluso ser más pronunciado. Esto es lo que la gestión de la sonoridad tiene como objetivo resolver.

Gestión de la sonoridad

Las métricas de sonoridad de todo el contenido de Netflix se miden antes de la codificación. Dado que nuestro objetivo es jugar todos los diálogos al mismo nivel, utilizamos la medición basada en anclaje (diálogo), como se recomienda en A/85. El nivel de diálogo medido se entrega en metadatos MPEG-D DRC en la secuencia de bits xHE-AAC, utilizando el conjunto de metadatos anchorLoudness. En el ejemplo de la Figura 3, la demostración de la acción tendría un anclaLoudness de -27 dBFS; el documental, -20 dBFS.

En Android, Netflix utiliza KEY_AAC_DRC_TARGET_REFERENCE_LEVEL para establecer el nivel de salida. El decodificador aplica una ganancia igual a la diferencia entre el nivel de salida y los metadatos anchorLoudness, para normalizar todo el contenido de modo que el diálogo siempre se genere en el mismo nivel. En el cuadro 4, el nivel de salida se fija a -27 dBFS. El contenido con mayor sonoridad de anclaje se atenúa en consecuencia.

Ahora, en nuestro escenario de reproducción imaginaria, ya no se alcanza el control de volumen al cambiar del programa de acción al concierto en vivo, o al cambiar a cualquier otro programa.

Cada dispositivo puede establecer un nivel de salida de destino en función de sus capacidades y el entorno del miembro. Por ejemplo, en un dispositivo móvil con altavoces pequeños, a menudo es deseable utilizar un nivel de salida más alto, como -16 dBFS

Algunos programas —en particular, la acción y el thriller— se amplificaron para alcanzar el nivel de producción deseado. Al hacerlo, el contenido más alto de estos programas se recortaría, introduciendo una distorsión armónica indeseable en el sonido, por lo que el decodificador debe aplicar limitación de picos para evitar la salida falsa. Esto no es ideal, pero puede ser un inconveniente deseable para lograr un nivel de salida suficiente en algunos dispositivos. Afortunadamente, xHE-AAC proporciona una opción para mejorar la protección de picos, como se describe en la sección Metadatos de muestra de audio pico a continuación.

Mediante el uso de metadatos y ganancia del lado de decodificación para normalizar la sonoridad, Netflix aprovecha xHE-AAC para minimizar el número total de etapas de ganancia en el sistema de extremo a extremo, maximizando la calidad del audio. Los dispositivos conservan la capacidad de personalizar el nivel de salida en función de las condiciones de escucha únicas. También conservamos la opción de derrotar la normalización de la sonoridad por completo, para un modo «puro», cuando las condiciones de escucha son óptimas, como en un entorno de cine en casa.

Control de rango dinámico

Conclusión