Por equipe da VOCALIS AI · Validado por Laurent Duplat, Diretor de Publicação da VOCALIS AI · Baseado em mais de 250 implantações desde 2023
A realidade do ruído em chamadas práticas
62 % das chamadas B2B para pequenas e médias empresas francesas vêm de ambientes barulhentos (carro, canteiro de obras, comércio) segundo o observatório AFRC 2024. No entanto, a maioria dos benchmarks públicos de ASR — Whisper, Conformer, Deepgram — são medidos no LibriSpeech, um corpus de leitura em estúdio.
Resultado: o WER anunciado de 4 % em laboratório pode subir para 25 % em produção. Um agente vocal IA que afirma cobrir a construção artesanal ou os transporte logístico deve, portanto, provar sua robustez em campo — não seus números de laboratório.
A cadeia ASR completa: 6 etapas, 6 pontos de falha
| Etapa | Papel | Ponto de falha frequente |
|---|---|---|
| Captura de microfone | Codificação Opus 16 kHz | Saturação em ruído impulsivo |
| Transporte SIP | Pacotes RTP | Perda de pacotes 4G, jitter |
| VAD | Detecção de voz/silêncio | Falsos positivos em vento, motor |
| Desruído (DNN) | Supressão de ruído aditivo | Artefatos espectrais, voz robotizada |
| Normalização de volume | AGC adaptativa | Compressão dinâmica excessiva |
| Decodificador ASR | Mapeamento áudio→texto | Acento, festa de coquetel |
Cada etapa é ajustável. A VOCALIS otimizou os 6 elos a partir de feedbacks de campo de nossos clientes de construção e motoristas.
Benchmark WER 2026 em 6 corpora com ruído
Medidas p50 em condições reais, março de 2026:
| Corpus | SNR médio | VOCALIS ASR | Whisper-L-v3 | Deepgram Nova-2 |
|---|---|---|---|---|
| Estúdio limpo (ref) | 45 dB | 3,8 % | 4,2 % | 4,6 % |
| Escritório aberto | 28 dB | 6,1 % | 7,9 % | 8,3 % |
| Carro na estrada | 18 dB | 9,4 % | 14,7 % | 15,2 % |
| 4G saturada móvel | 14 dB | 11,2 % | 19,8 % | 20,4 % |
| Estação / aeroporto | 12 dB | 13,6 % | 22,1 % | 23,0 % |
| Canteiro de obras BTP | 8 dB | 18,0 % | 27,4 % | 28,9 % |
Fontes da metodologia: Interspeech 2023 ASR Noise Track, ACL Anthology noise benchmarks.
Por que a VOCALIS supera os modelos padrão em ~35 %
1. Ajuste fino em 4.200 horas de corpus barulhento francês
Os modelos Whisper são pré-treinados em 680.000 h — mas majoritariamente em inglês e em estúdio. A VOCALIS adiciona uma camada de ajuste fino LoRA em um corpus proprietário de francês barulhento, incluindo chamadas reais anonimizadas, ruído sintético aumentado (carros, vento, festa) e sotaques regionais.
2. VAD multicamada Silero + SLM prosódico
O SLM (Small Language Model) local detecta o fim de turno por meio de entonação descendente — onde o Silero apenas observa a energia. A combinação reduz em 38 % os falsos positivos de barge-in nos corpora de motoristas.
3. Aprimoramento de fala baseado em DNN conservador
A VOCALIS aplica o desruído apenas abaixo de 15 dB SNR. Além disso, o sinal bruto passa diretamente — evitando artefatos que degradam a prosódia. É essa sutileza que torna nossa pilha compatível com a inteligência emocional.
4. Adaptação de rede 4G/5G/VoIP
O codec Opus (RFC 6716) inclui uma ocultação de perda de pacotes robusta. A VOCALIS combina Opus + FEC + buffer adaptativo de jitter, otimizado para SIP/RTP (RFC 3550).
Fallback humano: a verdadeira resiliência
Nenhum ASR é perfeito. A VOCALIS implementa um gatilho de transferência baseado em:
- Pontuação de confiança ASR abaixo de 0,4 em 2 turnos consecutivos.
- Detecção de frustração vocal (veja módulo emocional).
- Solicitação explícita ("passe-me um humano").
- Timeout repetido na seleção de idioma.
O contexto — intenção detectada, resumo da conversa, histórico do CRM — é transmitido ao conselheiro via webhook em <300 ms.
Setores onde a robustez do ASR é crítica
- Artisans e oficinas de fabricação — chamadas de dentro da oficina.
- Empresas de construção BTP — canteiros de obras barulhentos.
- Taxis e VTC — estrada + passageiros.
- Oficinas de automóveis — compressores, oficina.
- Restaurantes e bares — barulho de sala.
Para esses casos, a robustez do ASR é um pré-requisito, não um bônus. É por isso que a VOCALIS investiu em um programa de P&D dedicado, alinhado com nossa arquitetura técnica Python do chatbot IA vocal.
Conformidade e badges
RGPD · AI Act Art. 50 · AWS UE · ISO 27001 (em andamento). Os registros com ruído nunca são armazenados por mais de 30 dias (política de retenção) e o ajuste fino utiliza apenas dados anonimizados com consentimento explícito.
FAQ engenharia ASR
O que é o WER e qual limite é aceitável em produção?
A Taxa de Erro de Palavras mede a porcentagem de palavras mal transcritas. Em estúdio silencioso, os ASR de ponta (Whisper-large, Conformer) alcançam 3-5 %. Em produção B2B, um WER < 12 % é considerado aceitável. Acima de 20 %, o agente vocal deve mudar para transferência humana.
Como funciona o VAD multicamada na VOCALIS?
A VOCALIS combina Silero VAD (frequência) + um SLM prosódico que detecta o fim de turno por meio de entonação descendente. Este filtro duplo reduz os falsos positivos de barge-in em 38 % em comparação com VAD monocamada, crucial para motoristas ou artesãos que têm pausas longas naturais.
O ASR da VOCALIS lida com sotaques regionais franceses?
Sim. O modelo é ajustado em um corpus de 4.200 horas de francês, incluindo sotaques meridionais, belgas, suíços, quebequenses e africanos francófonos. WER médio de 8,4 % contra 14,7 % para Whisper-large-v3 padrão em sotaque meridional (benchmark interno, março de 2026).
O que o sistema faz em caso de ASR totalmente degradado?
Após 3 erros de compreensão consecutivos ou uma pontuação de confiança <0,4, o agente aciona uma mensagem de desculpas pré-gravada e, em seguida, oferece uma transferência para um conselheiro humano. O contexto (intenção detectada, CRM, resumo) é transmitido automaticamente via webhook.
O desruído neural não prejudica a voz humana?
Os aprimoramentos de fala baseados em DNN (DNS Challenge Interspeech 2023) podem introduzir artefatos espectrais. A VOCALIS utiliza um modelo conservador (SNR-aware) que reduz o ruído apenas se o SNR for <15 dB, preservando a naturalidade em ambientes normais.
Qual é o WER medido em uma linha 4G degradada?
Em um corpus proprietário de 120 chamadas 4G em movimento (trem, carro), WER VOCALIS = 11,2 % contra 19,8 % para um Whisper padrão sem pré-processamento. A diferença vem da ocultação de perda de pacotes + normalização de volume adaptativa.
As chamadas de um canteiro de obras BTP são viáveis?
Sim, com reservas. Em um corpus BTP (martelo pneumático, tráfego), o WER atinge 18 % — acima do limite de 12 %. A VOCALIS recomenda então o flow builder com perguntas fechadas + confirmação repetida, ou transferência humana após 2 erros.
Veja também: nossa arquitetura sub-50 ms voice2voice e nossa abordagem de IA emocional B2B.
Envie de tester VOCALIS AI ?
Réservez une démo personnalisée et découvrez en direct comment notre IA vocale émotionnelle transforme vos conversations.
Réserver une démo


