Simplificando la gestión de subtítulos en un mundo de video IP

Uno de los mayores desafíos que enfrentan los operadores de TV paga en su migración a IP es cómo administrar los subtítulos sin tener que acudir a una codificación extra. Este post indagará en por qué los subtítulos son difíciles de procesar en el mundo de video IP y cuáles son las soluciones originales que ofrece Broadpeak, en particular para los operadores de Latinoamérica.

La complejidad de los subtítulos

Hoy, vemos una clara transición de QAM hacia servicios IP, empezando con las ofertas de VOD OTT hasta la televisión en vivo. Estos cambios muestran dos tendencias: Los cableoperadores  — quienes solían tener tecnología de TV broadcast en sus redes — están ahora desplegando servicios de OTT sobre fibra (GPON), y por otro lado, los pequeños ISPs y nuevos jugadores están lanzando ofertas de OTT puro.

La mayoría de los despliegues de Televisión por IP están basados en OTT puro utilizando DASH y HLS con algún uso menor del formato HSS, principalmente para navegadores web, televisores y Xbox de Microsoft. Aunque no lo parezca, los subtítulos, los cuales consisten en una o dos líneas de texto, han resultado, en varias ocasiones, problemáticos. Los subtítulos son un recurso crítico, especialmente para la emisión de contenido en inglés para audiencias hablantes de lengua no inglesa. En algunas regiones, los subtítulos son incluso un requerimiento legal para las audiencias con problemas de audición. Técnicamente — entre la sincronización con el audio/video, la colocación de los subtítulos sobre el video y el tratamiento de los caracteres especiales — los subtítulos han generado más de un dolor de cabeza desde las primeras épocas del broadcast.

Una de las razones que explica por qué los subtítulos son tan complicados es que tanto los formatos de video como los de subtítulos han ido cambiando a lo largo del tiempo. Para los formatos OTT, los subtítulos se gestionan como archivos de texto que se descargan junto con los fragmentos de video y son leídos fácilmente por el Player. Veamos las diferentes especificaciones:

  • HLS solo especifica un formato de texto WebVTT. Incluso en la versión 7 donde se introduce IMSC-1, sólo soporta texto.
  • DASH puede especificar un formato de texto tanto en TTML como en SMPTE-TT, una extensión de TTML la cual permite imágenes bitmap.
  • Microsoft HTTP Smooth Streaming (HSS) especifica un formato de texto TTML (perfil DFXP). Aunque sea posible transportar un perfil de imagen TTML en HSS, eso no forma parte del estándar y no todos los player HSS lo soportan.
  • Los Closed Captions (CEA 608/708) son embebidos en el video por lo que el rol del Origin Packager es realizar un passthrough de los mensajes SEI. En algunos casos, el Packager también agrega una señalización en el manifiesto (HLS y DASH).

 

Los subtítulos DVB y SCTE-27 se han vuelto populares en el mundo del broadcast de TV en vivo porque se trata de imágenes (literalmente, imágenes bitmap) con los subtítulos ya “quemados”. Estas imágenes pueden ser decodificadas fácilmente por los decodificadores (STB) del mundo legado o “broadcast” que desplegaron los operadores de cable y satélite. Esos formatos eliminan los potenciales problemas de interoperabilidad en la reproducción, especialmente con los caracteres especiales como la “ñ” en español y el “~” en portugués. Estos feeds todavía están operativos y también son utilizados en las cabeceras para nuevos servicios OTT. Muchos operadores en LATAM todavía reciben contenido de video de los grandes proveedores de contenido con subtítulos en DVB y/o SCTE-27. Esto genera un problema porque no hay una manera nativa de visualizar esos subtítulos en HLS, que es el formato principal para la mayoría de las instalaciones actuales.

Cómo arreglar el problema

En Broadpeak, hemos estado trabajando con nuestros clientes para desarrollar posibles soluciones a este dilema.

Solución HLS: Para HLS, la primera forma de resolver el problema es usar el SMPTE-TT bitmap. Como dijimos antes, éste no está soportado nativamente por el protocolo por lo que necesita una adaptación del lado del player. Esto se ha hecho tanto para player app/web como para los player de STBs nativos. La principal desventaja es que es una solución propietaria que depende de la implementación particular del proveedor del Packager y de las capacidades del player para soportarlo. Existen muchas implementaciones en este campo que convierten el uso de SMPTE-TT en HLS en una carga en términos de interoperabilidad.

La segunda solución consiste en usar OCR (Optical Character Recognition) para transcodificar el subtítulo en bitmap DVB/SCTE-27 en un formato de texto amigable con OTT tal como el WebVTT. Esto se puede lograr con nuestro Origin Packager sin tener que agregar módulos o productos extra. Ha demostrado ser una solución popular entre los clientes que no quieren hacer adaptaciones a sus aplicaciones/reproductores así como para los que emplean un reproductor iOS nativo.

Solución DASH: La solución estándar consiste en usar imágenes SMPTE-TT. También podemos usar OCR para generar subtítulos TTML-TT.

Solución VOD: Respecto del VOD, los formatos más utilizados están basados en texto. El más popular es TTML. Sin embargo, algunos broadcasters han empleado por mucho tiempo EBU-STL como su formato para subtítulos, que es mucho más complejo y permite el uso de colores y variedades de formatos, color de fondo, desviación de texto y es útil para el subtitulado avanzado.

Para VOD, Broadpeak soporta subtítulos en TTML y STL así como también el más simple pero más ampliamente utilizado formato SRT. También tenemos algunos clientes que necesitan soportar subtítulos SMPTE-TT, para el cual usamos OCR tal como para  flujos en vivo.

Para resumir, nuestro Packager puede recibir los siguientes tres formatos para archivos VOD y producir estos formatos de salida:

  • Para HLS, WebVTT (si el archivo de entrada está en SMPTE-TT, también usamos OCR)
  • Para DASH, stpp (TTML, SMPTE-TT, o TTML mediante OCR)

 

¿Cómo manejamos el OCR?

OCR es una funcionalidad embebida en nuestro Origin Packager (BkS350) sin la necesidad de agregar módulos adicionales.
El procesamiento de OCR se divide en tres pasos:

  1. Procesamiento de la imagen — esto implica el recorte, encuadre, transformación de la luminancia y el cambio del fondo y bordes para facilitar el proceso de reconocimiento.
  2. Reconocimiento de caracteres.
  3. Procesamiento de lenguaje con deep learning usando redes de memoria de largo plazo.

Por qué la solución de subtitulado de Broadpeak es única

El Origin Packager BkS350 de Broadpeak incluye una función “just-in-time” innovadora que empaqueta y encripta el contenido de video en los formatos ABR más populares, incluyendo Apple HTTP Live Streaming (HLS), MPEG-DASH, HSS y los últimos protocolos de baja latencia CMAF. El BkS350 soporta una amplia variedad de formatos de audio, video y subtítulos y ofrece una integración perfecta con los principales proveedores de DRM.

Combinando el empaquetamiento “just-in-time” junto con un mecanismo interno de caché, el BkS350 disminuye la necesidad de recursos de codificación y almacenamiento y provee una alta capacidad de rendimiento, lo que permite generar ahorros significativos. Como el BkS350 puede entregar contenido a cualquier CDN dentro o fuera de la red, se puede tener contenido distribuido a través cualquier CDN y combinar diferentes infraestructuras de distribución.

Broadpeak también está empezando a desplegar proyectos usando el perfil de baja latencia DASH CMAF permitiendo latencias muy cercanas a las de instalaciones IPTV (MPEG-TS). DASH-CMAF especifica un nuevo formato de subtítulo en IMSC-1 que puede ser utilizado tanto para subtítulos de imagen como de texto. Nuestro empaquetador BkS350 soporta este formato. Por otra parte, nuestra solución soporta subtítulos SMPTE-TT para DASH-CMAF, que es importante porque hemos visto que algunos jugadores del mercado ya están acostumbrados y prefieren usar este formato.

Para asegurar la baja latencia del streaming, es importante definir el tamaño de los fragmentos de subtítulos. Generalmente, usamos fragmentos de 200ms, pero DASH-IF recomienda usar fragmentos de al menos 1s — no más pequeños — para subtítulos. Broadpeak también recomienda usar Multicast ABR para la entrega, que es la única forma de garantizar el ancho de banda y eliminar el riesgo introducido por los buffers más bajos de fragmentos tan pequeños. El Multicast ABR no sólo permitirá un flujo constante de tráfico (independientemente del número de usuarios en simultáneo), sino que también estará más controlado, ya que el tráfico UDP/RTP generalmente puede ser priorizado dentro de la red.

Éxito en el mundo real en Latinoamérica

Nuestro BkS350 ha sido muy exitoso en el mundo real para el subtitulado IP, especialmente para los operadores líderes de Latinoamérica. En un caso, el BkS350 eliminó por completo la necesidad del operador de comprar un módulo adicional para la preparación y gestión del subtitulado.

Otro cliente latinoamericano con el que trabajamos estaba recibiendo subtítulos DVB. Antes de que Broadpeak pudiera soportar OCR, tenía que “quemar” los subtítulos en el video, lo que hacía imposible la selección del idioma o la desactivación de los subtítulos. En otra instancia, uno de nuestros clientes había adquirido un catálogo VOD de broadcasters. Fuera del catálogo, el 30% usaba subtítulos SMPTE-TT. No era posible volver a codificar el catálogo completo. Con la tecnología de Broadpeak, el cliente pudo resolver este inconveniente y apuntar a nuevas plataformas como el navegador Safari Web.

Nos encantaría conversar con ustedes sobre cómo nuestra solución BkS350 puede satisfacer sus necesidades de subtitulado. Pónganse en contacto hoy para más información.

  CONTACTENOS

more blog

IBC 2024 Takeaway:

IBC 2024 Takeaway: Make Money and Save Money!

IBC 2024 COUNTDOWN

IBC 2024 Countdown: 10 Days, 10 Key Milestones from Broadpeak