Por el equipo de VOCALIS AI · Validado por Laurent Duplat, Director de publicación de VOCALIS AI · Basado en +250 despliegues desde 2023
La realidad del ruido en llamadas en el terreno
62 % de las llamadas B2B a las pymes francesas provienen de entornos ruidosos (coche, obra, comercio) según el observatorio AFRC 2024. Sin embargo, la mayoría de los benchmarks públicos de ASR — Whisper, Conformer, Deepgram — se miden en LibriSpeech, un corpus de lectura en estudio.
Resultado: el WER anunciado del 4 % en laboratorio puede aumentar al 25 % en producción. Un agente vocal IA que pretenda cubrir la construcción artesanal o los transportes logísticos debe, por lo tanto, demostrar su robustez en el terreno — no sus cifras de laboratorio.
La cadena ASR completa: 6 etapas, 6 puntos de caída
| Etapa | Rol | Punto de caída frecuente |
|---|---|---|
| Captura de micrófono | Codificación Opus 16 kHz | Saturación por ruido impulsivo |
| Transporte SIP | Paquetes RTP | Pérdida de paquetes 4G, jitter |
| VAD | Detección de voz/silencio | Falsos positivos por viento, motor |
| Desruido (DNN) | Supresión de ruido aditivo | Artefactos espectrales, voz robotizada |
| Normalización de volumen | AGC adaptativa | Compresión dinámica excesiva |
| Decodificador ASR | Mapeo audio→texto | Acento, fiesta de cóctel |
Cada etapa es ajustable. VOCALIS ha optimizado los 6 eslabones a partir de los comentarios del terreno de nuestros clientes de construcción y conductores.
Benchmark WER 2026 sobre 6 corpus ruidosos
Mediciones p50 en condiciones reales, marzo 2026:
| Corpus | SNR medio | VOCALIS ASR | Whisper-L-v3 | Deepgram Nova-2 |
|---|---|---|---|---|
| Estudio limpio (ref) | 45 dB | 3,8 % | 4,2 % | 4,6 % |
| Oficina abierta | 28 dB | 6,1 % | 7,9 % | 8,3 % |
| Coche en autopista | 18 dB | 9,4 % | 14,7 % | 15,2 % |
| 4G saturada móvil | 14 dB | 11,2 % | 19,8 % | 20,4 % |
| Estación / aeropuerto | 12 dB | 13,6 % | 22,1 % | 23,0 % |
| Obra de construcción | 8 dB | 18,0 % | 27,4 % | 28,9 % |
Fuentes de metodología: Interspeech 2023 ASR Noise Track, ACL Anthology noise benchmarks.
Por qué VOCALIS supera los modelos estándar en ~35 %
1. Fine-tuning en 4 200 horas de corpus ruidoso francés
Los modelos Whisper están preentrenados en 680 000 h — pero mayoritariamente en inglés y en estudio. VOCALIS añade una capa de fine-tuning LoRA sobre un corpus propietario de francés ruidoso que incluye llamadas reales anonimizadas, ruido sintético aumentado (coches, viento, fiesta) y acentos regionales.
2. VAD multicapa Silero + SLM prosódico
El SLM (Small Language Model) local detecta los finales de turno a través de la entonación descendente — donde Silero solo observa la energía. La combinación reduce en un 38 % los falsos positivos de barge-in en los corpus de conductores.
3. Mejora del habla basada en DNN conservadora
VOCALIS aplica el desruido solo por debajo de 15 dB SNR. Más allá, la señal bruta pasa directamente — evitando los artefactos que degradan la prosodia. Es esta sutileza la que hace que nuestra pila sea compatible con la inteligencia emocional.
4. Adaptación de red 4G/5G/VoIP
El códec Opus (RFC 6716) incluye una ocultación de pérdida de paquetes robusta. VOCALIS combina Opus + FEC + buffer adaptativo de jitter, optimizado para SIP/RTP (RFC 3550).
Fallback humano: la verdadera resiliencia
Ningún ASR es perfecto. VOCALIS implementa un desencadenador de traspaso basado en:
- Puntuación de confianza ASR por debajo de 0,4 en 2 turnos consecutivos.
- Detección de frustración vocal (ver módulo emocional).
- Solicitud explícita ("pásenme un humano").
- Timeout repetido en selección de idioma.
El contexto — intención detectada, resumen conversacional, historial CRM — se transmite al asesor a través de webhook en <300 ms.
Sectores donde la robustez ASR es crítica
- Artesanos y talleres de fabricación — llamadas desde el taller.
- Empresas de construcción BTP — obras ruidosas.
- Taxis y VTC — carretera + pasajeros.
- Talleres mecánicos — compresores, taller.
- Restaurantes y bares — bullicio de sala.
Para estos casos, la robustez ASR es un requisito, no un bonus. Es por eso que VOCALIS ha invertido en un programa de I+D dedicado, alineado con nuestra arquitectura técnica Python del chatbot IA vocal.
Conformidad y badges
RGPD · AI Act Art. 50 · AWS UE · ISO 27001 (en curso). Las grabaciones ruidosas nunca se almacenan más de 30 días (política de retención) y el fine-tuning utiliza únicamente datos anonimizados con consentimiento explícito.
FAQ ingeniería ASR
¿Qué es el WER y qué umbral es aceptable en producción?
La tasa de error de palabras mide el porcentaje de palabras mal transcritas. En un estudio silencioso, los ASR de vanguardia (Whisper-large, Conformer) alcanzan 3-5 %. En producción B2B, un WER < 12 % se considera aceptable. Más allá del 20 %, el agente vocal debe cambiar a un traspaso humano.
¿Cómo funciona el VAD multicapa en VOCALIS?
VOCALIS combina Silero VAD (frecuencia) + un SLM prosódico que detecta el final de turno a través de la entonación descendente. Este doble filtro reduce los falsos positivos de barge-in en un 38 % frente al VAD monocapa, crucial para los conductores o artesanos que tienen pausas largas naturales.
¿El ASR de VOCALIS maneja los acentos regionales franceses?
Sí. El modelo está fine-tuned en un corpus de 4 200 horas de francés que incluye acentos meridionales, belgas, suizos, quebequenses y africanos francófonos. WER medio 8,4 % frente al 14,7 % para Whisper-large-v3 estándar en acento meridional (benchmark interno, marzo 2026).
¿Qué hace el sistema en caso de un ASR totalmente degradado?
Más allá de 3 errores de comprensión consecutivos o de una puntuación de confianza <0,4, el agente desencadena un mensaje de disculpa pregrabado y luego propone un traspaso a un asesor humano. El contexto (intención detectada, CRM, resumen) se transmite automáticamente a través de webhook.
¿El desruido neuronal no daña la voz humana?
Las mejoras del habla basadas en DNN (DNS Challenge Interspeech 2023) pueden introducir artefactos espectrales. VOCALIS utiliza un modelo conservador (SNR-aware) que reduce el ruido solo si el SNR es <15 dB, preservando la naturalidad en entornos normales.
¿Cuál es el WER medido en una línea 4G degradada?
En un corpus propietario de 120 llamadas 4G en movimiento (tren, coche), WER VOCALIS = 11,2 % frente al 19,8 % para un Whisper estándar sin preprocesamiento. La diferencia proviene de la ocultación de pérdida de paquetes + normalización de volumen adaptativa.
¿Las llamadas desde una obra de construcción son viables?
Sí, con reservas. En un corpus de construcción (martillo neumático, tráfico), el WER alcanza el 18 % — más allá del umbral del 12 %. VOCALIS recomienda entonces el flow builder con preguntas cerradas + confirmación repetida, o traspaso humano a partir de 2 errores.
Ver también: nuestra arquitectura sub-50 ms voice2voice y nuestra aproximación a la IA emocional B2B.
Envie de tester VOCALIS AI ?
Réservez une démo personnalisée et découvrez en direct comment notre IA vocale émotionnelle transforme vos conversations.
Réserver une démo


