Perceptible Medios basados en el tiempo Nivel AAA WCAG 2.0, 2.1, 2.2

1.2.9 Solo audio (en vivo)

Meta El audio en vivo puede ser entendido por más personas mediante un equivalente de texto en tiempo real.

Qué hacer Proporciona subtítulos en tiempo real (CART) o transcripciones para contenido de solo audio en vivo.

Por qué importa Las personas que no pueden oír o comprender el audio en tiempo real pueden leer un equivalente en texto.

En esta página:

¿Qué es? · 1.2.4 vs. 1.2.9 · ¿Por qué importa? · ¿Quién se ve afectado? · Cómo implementar · Técnicas · Errores comunes · Criterios relacionados

Criterio de éxito oficial

Nivel AAA · WCAG 2.0, 2.1, 2.2

Se proporciona una alternativa para medios basados en el tiempo que presenta información equivalente para el contenido de solo audio en vivo.

¿Qué es solo audio en vivo?

El contenido de solo audio en vivo incluye cualquier transmisión de audio que ocurre en tiempo real sin componente visual: programas de radio en vivo, podcasts transmitidos en directo, conferencias telefónicas, servicios religiosos de solo audio, o eventos de solo audio. A diferencia del audio pregrabado que se puede transcribir con cuidado antes de publicar, el audio en vivo requiere transcripción simultánea en tiempo real.

Este criterio requiere que haya una alternativa de texto en tiempo real que permita a personas sordas o con dificultades auditivas seguir el contenido conforme ocurre, sin poder pausar o esperar una transcripción posterior.

¿Cuál es la diferencia con 1.2.4?

Ambos criterios tratan con contenido en vivo, pero hay una diferencia importante:

1.2.4 — Subtítulos en vivo (Nivel AA): Se aplica a vídeo en vivo. El contenido es principalmente visual con audio sincronizado. Los subtítulos son la solución.
1.2.9 — Solo audio en vivo (Nivel AAA): Se aplica a audio en vivo sin componente visual. La alternativa de texto es la única solución (además del audio original).

En términos de esfuerzo, ambos requieren transcripción en tiempo real. La diferencia es el contexto: 1.2.4 es Nivel AA (requisito más común), mientras 1.2.9 es Nivel AAA (requisito más avanzado).

¿Por qué es importante?

El contenido de audio en vivo (especialmente radio, podcasts en directo, y conferencias telefónicas) es fundamental en muchas contextos: educación, información de noticias, servicios religiosos, entretenimiento. Las personas sordas no pueden acceder a nada de esto sin una alternativa de texto.

A diferencia del contenido pregrabado donde se puede crear una transcripción después, el audio en vivo requiere soluciones en tiempo real. Esto es más desafiante, más costoso, pero absolutamente esencial para la inclusión genuina en transmisiones en vivo.

¿Quién se ve afectado?

Personas sordas — No pueden escuchar el audio en vivo. Necesitan el texto en tiempo real para participar en el evento mientras ocurre.

Personas con dificultad auditiva significativa — Pueden tener problemas para comprender audio en vivo, especialmente sin preparación previa.

Personas en entornos donde no pueden usar auriculares — En espacios públicos, ambientes ruidosos, o cuando el audio no es práctico, el texto es una alternativa importante.

Hablantes de idiomas secundarios — Pueden seguir mejor una transmisión en vivo leyendo el texto conforme ocurre.

Personas sordociegas — Pueden acceder al texto mediante pantallas braille, pero requiere que el texto esté disponible en un formato accesible (no solo visible en pantalla).

Cómo implementar alternativas para audio en vivo

CART (Communication Access Realtime Translation)

Un estenotipista profesional usa un dispositivo especial para transcribir en tiempo real. El texto aparece típicamente con un retraso de 1-3 segundos. Es el método más preciso para contenido de calidad alta, pero es costoso.

Reconocimiento automático de voz (ASR)

Software que convierte audio en texto automáticamente. Herramientas como Google Speech-to-Text, Azure Speech Services, o Otter.ai pueden funcionar. El costo es bajo, pero la precisión varía dependiendo de la calidad del audio y del idioma. Es mejor para contenido simple y de buena calidad de audio.

Combinación híbrida

Combinar ASR automático con revisión humana en tiempo real. El ASR proporciona una base rápida, y un operador corrige errores en vivo. Balance entre costo y precisión.

Presentación del texto

La alternativa de texto debe estar:

Visible en tiempo real en la página o aplicación
Accesible para lectores de pantalla (no solo visual)
Fácil de leer con contraste suficiente
Actualizada en tiempo real conforme ocurre el audio

Técnicas WCAG aplicables

G150: Proporcionar una solución de transcripción en tiempo real para contenido de solo audio en vivo
G151: Usar software de reconocimiento automático de voz o un servicio de transcripción en tiempo real para contenido de audio en vivo

Errores comunes

Proporcionar transcripciones solo después del evento (no cumple, debe ser en tiempo real)
Usar ASR sin revisión cuando el contenido es especializado o técnico (resulta en errores significativos)
Mostrar el texto solo visualmente sin hacerlo accesible para lectores de pantalla
No informar a la audiencia que la transcripción en tiempo real está disponible
Usar fuente muy pequeña o bajo contraste que es difícil de leer rápidamente
Permitir que el texto se desplace demasiado rápido sin capacidad de pausar o releer
No probar la solución de transcripción antes del evento en vivo
Descuidar la puntuación y mayúsculas que hacen el texto más legible