Conformidade com o RGPDAlinhado com o AI ActAWS UEISO 27001 (em andamento)Bare-metal H100
TL;DR — As taxas de erro de palavras (WER) industriais variam de 4 % em estúdio para mais de 20 % em canteiros de obras ou 4G saturada. Um agente vocal IA pronto para produção combina VAD multicamada, denoising neural (DNS), normalização adaptativa e transferência humana condicional. Benchmark completo em 6 corpora com ruído em 2026.

Por equipe da VOCALIS AI · Validado por Laurent Duplat, Diretor de Publicação da VOCALIS AI · Baseado em mais de 250 implantações desde 2023

A realidade do ruído em chamadas práticas

62 % das chamadas B2B para pequenas e médias empresas francesas vêm de ambientes barulhentos (carro, canteiro de obras, comércio) segundo o observatório AFRC 2024. No entanto, a maioria dos benchmarks públicos de ASR — Whisper, Conformer, Deepgram — são medidos no LibriSpeech, um corpus de leitura em estúdio.

Resultado: o WER anunciado de 4 % em laboratório pode subir para 25 % em produção. Um agente vocal IA que afirma cobrir a construção artesanal ou os transporte logístico deve, portanto, provar sua robustez em campo — não seus números de laboratório.

A cadeia ASR completa: 6 etapas, 6 pontos de falha

EtapaPapelPonto de falha frequente
Captura de microfoneCodificação Opus 16 kHzSaturação em ruído impulsivo
Transporte SIPPacotes RTPPerda de pacotes 4G, jitter
VADDetecção de voz/silêncioFalsos positivos em vento, motor
Desruído (DNN)Supressão de ruído aditivoArtefatos espectrais, voz robotizada
Normalização de volumeAGC adaptativaCompressão dinâmica excessiva
Decodificador ASRMapeamento áudio→textoAcento, festa de coquetel

Cada etapa é ajustável. A VOCALIS otimizou os 6 elos a partir de feedbacks de campo de nossos clientes de construção e motoristas.

Benchmark WER 2026 em 6 corpora com ruído

Medidas p50 em condições reais, março de 2026:

CorpusSNR médioVOCALIS ASRWhisper-L-v3Deepgram Nova-2
Estúdio limpo (ref)45 dB3,8 %4,2 %4,6 %
Escritório aberto28 dB6,1 %7,9 %8,3 %
Carro na estrada18 dB9,4 %14,7 %15,2 %
4G saturada móvel14 dB11,2 %19,8 %20,4 %
Estação / aeroporto12 dB13,6 %22,1 %23,0 %
Canteiro de obras BTP8 dB18,0 %27,4 %28,9 %

Fontes da metodologia: Interspeech 2023 ASR Noise Track, ACL Anthology noise benchmarks.

Por que a VOCALIS supera os modelos padrão em ~35 %

1. Ajuste fino em 4.200 horas de corpus barulhento francês

Os modelos Whisper são pré-treinados em 680.000 h — mas majoritariamente em inglês e em estúdio. A VOCALIS adiciona uma camada de ajuste fino LoRA em um corpus proprietário de francês barulhento, incluindo chamadas reais anonimizadas, ruído sintético aumentado (carros, vento, festa) e sotaques regionais.

2. VAD multicamada Silero + SLM prosódico

O SLM (Small Language Model) local detecta o fim de turno por meio de entonação descendente — onde o Silero apenas observa a energia. A combinação reduz em 38 % os falsos positivos de barge-in nos corpora de motoristas.

3. Aprimoramento de fala baseado em DNN conservador

A VOCALIS aplica o desruído apenas abaixo de 15 dB SNR. Além disso, o sinal bruto passa diretamente — evitando artefatos que degradam a prosódia. É essa sutileza que torna nossa pilha compatível com a inteligência emocional.

4. Adaptação de rede 4G/5G/VoIP

O codec Opus (RFC 6716) inclui uma ocultação de perda de pacotes robusta. A VOCALIS combina Opus + FEC + buffer adaptativo de jitter, otimizado para SIP/RTP (RFC 3550).

Fallback humano: a verdadeira resiliência

Nenhum ASR é perfeito. A VOCALIS implementa um gatilho de transferência baseado em:

  • Pontuação de confiança ASR abaixo de 0,4 em 2 turnos consecutivos.
  • Detecção de frustração vocal (veja módulo emocional).
  • Solicitação explícita ("passe-me um humano").
  • Timeout repetido na seleção de idioma.

O contexto — intenção detectada, resumo da conversa, histórico do CRM — é transmitido ao conselheiro via webhook em <300 ms.

Setores onde a robustez do ASR é crítica

Para esses casos, a robustez do ASR é um pré-requisito, não um bônus. É por isso que a VOCALIS investiu em um programa de P&D dedicado, alinhado com nossa arquitetura técnica Python do chatbot IA vocal.

Conformidade e badges

RGPD · AI Act Art. 50 · AWS UE · ISO 27001 (em andamento). Os registros com ruído nunca são armazenados por mais de 30 dias (política de retenção) e o ajuste fino utiliza apenas dados anonimizados com consentimento explícito.

FAQ engenharia ASR

O que é o WER e qual limite é aceitável em produção?

A Taxa de Erro de Palavras mede a porcentagem de palavras mal transcritas. Em estúdio silencioso, os ASR de ponta (Whisper-large, Conformer) alcançam 3-5 %. Em produção B2B, um WER < 12 % é considerado aceitável. Acima de 20 %, o agente vocal deve mudar para transferência humana.

Como funciona o VAD multicamada na VOCALIS?

A VOCALIS combina Silero VAD (frequência) + um SLM prosódico que detecta o fim de turno por meio de entonação descendente. Este filtro duplo reduz os falsos positivos de barge-in em 38 % em comparação com VAD monocamada, crucial para motoristas ou artesãos que têm pausas longas naturais.

O ASR da VOCALIS lida com sotaques regionais franceses?

Sim. O modelo é ajustado em um corpus de 4.200 horas de francês, incluindo sotaques meridionais, belgas, suíços, quebequenses e africanos francófonos. WER médio de 8,4 % contra 14,7 % para Whisper-large-v3 padrão em sotaque meridional (benchmark interno, março de 2026).

O que o sistema faz em caso de ASR totalmente degradado?

Após 3 erros de compreensão consecutivos ou uma pontuação de confiança <0,4, o agente aciona uma mensagem de desculpas pré-gravada e, em seguida, oferece uma transferência para um conselheiro humano. O contexto (intenção detectada, CRM, resumo) é transmitido automaticamente via webhook.

O desruído neural não prejudica a voz humana?

Os aprimoramentos de fala baseados em DNN (DNS Challenge Interspeech 2023) podem introduzir artefatos espectrais. A VOCALIS utiliza um modelo conservador (SNR-aware) que reduz o ruído apenas se o SNR for <15 dB, preservando a naturalidade em ambientes normais.

Qual é o WER medido em uma linha 4G degradada?

Em um corpus proprietário de 120 chamadas 4G em movimento (trem, carro), WER VOCALIS = 11,2 % contra 19,8 % para um Whisper padrão sem pré-processamento. A diferença vem da ocultação de perda de pacotes + normalização de volume adaptativa.

As chamadas de um canteiro de obras BTP são viáveis?

Sim, com reservas. Em um corpus BTP (martelo pneumático, tráfego), o WER atinge 18 % — acima do limite de 12 %. A VOCALIS recomenda então o flow builder com perguntas fechadas + confirmação repetida, ou transferência humana após 2 erros.

Veja também: nossa arquitetura sub-50 ms voice2voice e nossa abordagem de IA emocional B2B.

Partilhar in X @

Envie de tester VOCALIS AI ?

Réservez une démo personnalisée et découvrez en direct comment notre IA vocale émotionnelle transforme vos conversations.

Réserver une démo