Cumplimiento RGPDAI Act alineadoAWS UEISO 27001 (en curso)Bare-metal H100
TL;DR — Las tasas de error de palabras (WER) industriales pasan del 4 % en estudio a más del 20 % en obra de construcción o 4G saturada. Un agente vocal IA listo para producción combina VAD multicapa, denoising neuronal (DNS), normalización adaptativa y traspaso humano condicional. Benchmark completo sobre 6 corpus ruidosos 2026.

Por el equipo de VOCALIS AI · Validado por Laurent Duplat, Director de publicación de VOCALIS AI · Basado en +250 despliegues desde 2023

La realidad del ruido en llamadas en el terreno

62 % de las llamadas B2B a las pymes francesas provienen de entornos ruidosos (coche, obra, comercio) según el observatorio AFRC 2024. Sin embargo, la mayoría de los benchmarks públicos de ASR — Whisper, Conformer, Deepgram — se miden en LibriSpeech, un corpus de lectura en estudio.

Resultado: el WER anunciado del 4 % en laboratorio puede aumentar al 25 % en producción. Un agente vocal IA que pretenda cubrir la construcción artesanal o los transportes logísticos debe, por lo tanto, demostrar su robustez en el terreno — no sus cifras de laboratorio.

La cadena ASR completa: 6 etapas, 6 puntos de caída

EtapaRolPunto de caída frecuente
Captura de micrófonoCodificación Opus 16 kHzSaturación por ruido impulsivo
Transporte SIPPaquetes RTPPérdida de paquetes 4G, jitter
VADDetección de voz/silencioFalsos positivos por viento, motor
Desruido (DNN)Supresión de ruido aditivoArtefactos espectrales, voz robotizada
Normalización de volumenAGC adaptativaCompresión dinámica excesiva
Decodificador ASRMapeo audio→textoAcento, fiesta de cóctel

Cada etapa es ajustable. VOCALIS ha optimizado los 6 eslabones a partir de los comentarios del terreno de nuestros clientes de construcción y conductores.

Benchmark WER 2026 sobre 6 corpus ruidosos

Mediciones p50 en condiciones reales, marzo 2026:

CorpusSNR medioVOCALIS ASRWhisper-L-v3Deepgram Nova-2
Estudio limpio (ref)45 dB3,8 %4,2 %4,6 %
Oficina abierta28 dB6,1 %7,9 %8,3 %
Coche en autopista18 dB9,4 %14,7 %15,2 %
4G saturada móvil14 dB11,2 %19,8 %20,4 %
Estación / aeropuerto12 dB13,6 %22,1 %23,0 %
Obra de construcción8 dB18,0 %27,4 %28,9 %

Fuentes de metodología: Interspeech 2023 ASR Noise Track, ACL Anthology noise benchmarks.

Por qué VOCALIS supera los modelos estándar en ~35 %

1. Fine-tuning en 4 200 horas de corpus ruidoso francés

Los modelos Whisper están preentrenados en 680 000 h — pero mayoritariamente en inglés y en estudio. VOCALIS añade una capa de fine-tuning LoRA sobre un corpus propietario de francés ruidoso que incluye llamadas reales anonimizadas, ruido sintético aumentado (coches, viento, fiesta) y acentos regionales.

2. VAD multicapa Silero + SLM prosódico

El SLM (Small Language Model) local detecta los finales de turno a través de la entonación descendente — donde Silero solo observa la energía. La combinación reduce en un 38 % los falsos positivos de barge-in en los corpus de conductores.

3. Mejora del habla basada en DNN conservadora

VOCALIS aplica el desruido solo por debajo de 15 dB SNR. Más allá, la señal bruta pasa directamente — evitando los artefactos que degradan la prosodia. Es esta sutileza la que hace que nuestra pila sea compatible con la inteligencia emocional.

4. Adaptación de red 4G/5G/VoIP

El códec Opus (RFC 6716) incluye una ocultación de pérdida de paquetes robusta. VOCALIS combina Opus + FEC + buffer adaptativo de jitter, optimizado para SIP/RTP (RFC 3550).

Fallback humano: la verdadera resiliencia

Ningún ASR es perfecto. VOCALIS implementa un desencadenador de traspaso basado en:

  • Puntuación de confianza ASR por debajo de 0,4 en 2 turnos consecutivos.
  • Detección de frustración vocal (ver módulo emocional).
  • Solicitud explícita ("pásenme un humano").
  • Timeout repetido en selección de idioma.

El contexto — intención detectada, resumen conversacional, historial CRM — se transmite al asesor a través de webhook en <300 ms.

Sectores donde la robustez ASR es crítica

Para estos casos, la robustez ASR es un requisito, no un bonus. Es por eso que VOCALIS ha invertido en un programa de I+D dedicado, alineado con nuestra arquitectura técnica Python del chatbot IA vocal.

Conformidad y badges

RGPD · AI Act Art. 50 · AWS UE · ISO 27001 (en curso). Las grabaciones ruidosas nunca se almacenan más de 30 días (política de retención) y el fine-tuning utiliza únicamente datos anonimizados con consentimiento explícito.

FAQ ingeniería ASR

¿Qué es el WER y qué umbral es aceptable en producción?

La tasa de error de palabras mide el porcentaje de palabras mal transcritas. En un estudio silencioso, los ASR de vanguardia (Whisper-large, Conformer) alcanzan 3-5 %. En producción B2B, un WER < 12 % se considera aceptable. Más allá del 20 %, el agente vocal debe cambiar a un traspaso humano.

¿Cómo funciona el VAD multicapa en VOCALIS?

VOCALIS combina Silero VAD (frecuencia) + un SLM prosódico que detecta el final de turno a través de la entonación descendente. Este doble filtro reduce los falsos positivos de barge-in en un 38 % frente al VAD monocapa, crucial para los conductores o artesanos que tienen pausas largas naturales.

¿El ASR de VOCALIS maneja los acentos regionales franceses?

Sí. El modelo está fine-tuned en un corpus de 4 200 horas de francés que incluye acentos meridionales, belgas, suizos, quebequenses y africanos francófonos. WER medio 8,4 % frente al 14,7 % para Whisper-large-v3 estándar en acento meridional (benchmark interno, marzo 2026).

¿Qué hace el sistema en caso de un ASR totalmente degradado?

Más allá de 3 errores de comprensión consecutivos o de una puntuación de confianza <0,4, el agente desencadena un mensaje de disculpa pregrabado y luego propone un traspaso a un asesor humano. El contexto (intención detectada, CRM, resumen) se transmite automáticamente a través de webhook.

¿El desruido neuronal no daña la voz humana?

Las mejoras del habla basadas en DNN (DNS Challenge Interspeech 2023) pueden introducir artefactos espectrales. VOCALIS utiliza un modelo conservador (SNR-aware) que reduce el ruido solo si el SNR es <15 dB, preservando la naturalidad en entornos normales.

¿Cuál es el WER medido en una línea 4G degradada?

En un corpus propietario de 120 llamadas 4G en movimiento (tren, coche), WER VOCALIS = 11,2 % frente al 19,8 % para un Whisper estándar sin preprocesamiento. La diferencia proviene de la ocultación de pérdida de paquetes + normalización de volumen adaptativa.

¿Las llamadas desde una obra de construcción son viables?

Sí, con reservas. En un corpus de construcción (martillo neumático, tráfico), el WER alcanza el 18 % — más allá del umbral del 12 %. VOCALIS recomienda entonces el flow builder con preguntas cerradas + confirmación repetida, o traspaso humano a partir de 2 errores.

Ver también: nuestra arquitectura sub-50 ms voice2voice y nuestra aproximación a la IA emocional B2B.

Compartir in X @

Envie de tester VOCALIS AI ?

Réservez une démo personnalisée et découvrez en direct comment notre IA vocale émotionnelle transforme vos conversations.

Réserver une démo