1.2.9 Solo audio (en vivo)
Criterio de éxito oficial
Se proporciona una alternativa para medios basados en el tiempo que presenta información equivalente para el contenido de solo audio en vivo.
¿Qué es solo audio en vivo?
El contenido de solo audio en vivo incluye cualquier transmisión de audio que ocurre en tiempo real sin componente visual: programas de radio en vivo, podcasts transmitidos en directo, conferencias telefónicas, servicios religiosos de solo audio, o eventos de solo audio. A diferencia del audio pregrabado que se puede transcribir con cuidado antes de publicar, el audio en vivo requiere transcripción simultánea en tiempo real.
Este criterio requiere que haya una alternativa de texto en tiempo real que permita a personas sordas o con dificultades auditivas seguir el contenido conforme ocurre, sin poder pausar o esperar una transcripción posterior.
¿Cuál es la diferencia con 1.2.4?
Ambos criterios tratan con contenido en vivo, pero hay una diferencia importante:
- 1.2.4 — Subtítulos en vivo (Nivel AA): Se aplica a vídeo en vivo. El contenido es principalmente visual con audio sincronizado. Los subtítulos son la solución.
- 1.2.9 — Solo audio en vivo (Nivel AAA): Se aplica a audio en vivo sin componente visual. La alternativa de texto es la única solución (además del audio original).
En términos de esfuerzo, ambos requieren transcripción en tiempo real. La diferencia es el contexto: 1.2.4 es Nivel AA (requisito más común), mientras 1.2.9 es Nivel AAA (requisito más avanzado).
¿Por qué es importante?
El contenido de audio en vivo (especialmente radio, podcasts en directo, y conferencias telefónicas) es fundamental en muchas contextos: educación, información de noticias, servicios religiosos, entretenimiento. Las personas sordas no pueden acceder a nada de esto sin una alternativa de texto.
A diferencia del contenido pregrabado donde se puede crear una transcripción después, el audio en vivo requiere soluciones en tiempo real. Esto es más desafiante, más costoso, pero absolutamente esencial para la inclusión genuina en transmisiones en vivo.
¿Quién se ve afectado?
Personas sordas — No pueden escuchar el audio en vivo. Necesitan el texto en tiempo real para participar en el evento mientras ocurre.
Personas con dificultad auditiva significativa — Pueden tener problemas para comprender audio en vivo, especialmente sin preparación previa.
Personas en entornos donde no pueden usar auriculares — En espacios públicos, ambientes ruidosos, o cuando el audio no es práctico, el texto es una alternativa importante.
Hablantes de idiomas secundarios — Pueden seguir mejor una transmisión en vivo leyendo el texto conforme ocurre.
Personas sordociegas — Pueden acceder al texto mediante pantallas braille, pero requiere que el texto esté disponible en un formato accesible (no solo visible en pantalla).
Cómo implementar alternativas para audio en vivo
CART (Communication Access Realtime Translation)
Un estenotipista profesional usa un dispositivo especial para transcribir en tiempo real. El texto aparece típicamente con un retraso de 1-3 segundos. Es el método más preciso para contenido de calidad alta, pero es costoso.
Reconocimiento automático de voz (ASR)
Software que convierte audio en texto automáticamente. Herramientas como Google Speech-to-Text, Azure Speech Services, o Otter.ai pueden funcionar. El costo es bajo, pero la precisión varía dependiendo de la calidad del audio y del idioma. Es mejor para contenido simple y de buena calidad de audio.
Combinación híbrida
Combinar ASR automático con revisión humana en tiempo real. El ASR proporciona una base rápida, y un operador corrige errores en vivo. Balance entre costo y precisión.
Presentación del texto
La alternativa de texto debe estar:
- Visible en tiempo real en la página o aplicación
- Accesible para lectores de pantalla (no solo visual)
- Fácil de leer con contraste suficiente
- Actualizada en tiempo real conforme ocurre el audio
Técnicas WCAG aplicables
- G150: Proporcionar una solución de transcripción en tiempo real para contenido de solo audio en vivo
- G151: Usar software de reconocimiento automático de voz o un servicio de transcripción en tiempo real para contenido de audio en vivo
Errores comunes
- Proporcionar transcripciones solo después del evento (no cumple, debe ser en tiempo real)
- Usar ASR sin revisión cuando el contenido es especializado o técnico (resulta en errores significativos)
- Mostrar el texto solo visualmente sin hacerlo accesible para lectores de pantalla
- No informar a la audiencia que la transcripción en tiempo real está disponible
- Usar fuente muy pequeña o bajo contraste que es difícil de leer rápidamente
- Permitir que el texto se desplace demasiado rápido sin capacidad de pausar o releer
- No probar la solución de transcripción antes del evento en vivo
- Descuidar la puntuación y mayúsculas que hacen el texto más legible