Par l'équipe VOCALIS AI · Validé par Laurent Duplat, Directeur de la publication VOCALIS AI · Basé sur +250 déploiements depuis 2023
La réalité du bruit en appel terrain
62 % des appels B2B aux PME françaises proviennent d'environnements bruyants (voiture, chantier, commerce) selon l'observatoire AFRC 2024. Pourtant, la majorité des benchmarks publics ASR — Whisper, Conformer, Deepgram — sont mesurés sur LibriSpeech, un corpus de lecture en studio.
Résultat : le WER annoncé à 4 % en labo peut grimper à 25 % en production. Un agent vocal IA prétendant couvrir la construction artisanale ou les transports logistiques doit donc prouver sa robustesse terrain — pas ses chiffres labo.
La chaîne ASR complète : 6 étapes, 6 points de chute
| Étape | Rôle | Point de chute fréquent |
|---|---|---|
| Capture micro | Encodage Opus 16 kHz | Saturation sur bruit impulsif |
| Transport SIP | Paquets RTP | Packet loss 4G, jitter |
| VAD | Détection voix/silence | Faux positifs sur vent, moteur |
| Débruitage (DNN) | Suppression bruit additif | Artéfacts spectraux, voix robotisée |
| Normalisation volume | AGC adaptative | Compression dynamique excessive |
| Décodeur ASR | Mapping audio→texte | Accent, cocktail party |
Chaque étape est tunable. VOCALIS a optimisé les 6 maillons à partir de retours terrain de nos clients BTP et chauffeurs.
Benchmark WER 2026 sur 6 corpus bruités
Mesures p50 en condition réelle, mars 2026 :
| Corpus | SNR moyen | VOCALIS ASR | Whisper-L-v3 | Deepgram Nova-2 |
|---|---|---|---|---|
| Studio propre (ref) | 45 dB | 3,8 % | 4,2 % | 4,6 % |
| Bureau ouvert | 28 dB | 6,1 % | 7,9 % | 8,3 % |
| Voiture autoroute | 18 dB | 9,4 % | 14,7 % | 15,2 % |
| 4G saturée mobile | 14 dB | 11,2 % | 19,8 % | 20,4 % |
| Gare / aéroport | 12 dB | 13,6 % | 22,1 % | 23,0 % |
| Chantier BTP | 8 dB | 18,0 % | 27,4 % | 28,9 % |
Sources méthodologie : Interspeech 2023 ASR Noise Track, ACL Anthology noise benchmarks.
Pourquoi VOCALIS bat les modèles stock de ~35 %
1. Fine-tuning sur 4 200 heures de corpus bruité français
Les modèles Whisper sont pré-entraînés sur 680 000 h — mais majoritairement anglais et studio. VOCALIS ajoute une couche de fine-tuning LoRA sur un corpus propriétaire de français noisy incluant appels réels anonymisés, bruit synthétique augmenté (voitures, vent, fête) et accents régionaux.
2. VAD multicouche Silero + SLM prosodique
Le SLM (Small Language Model) local détecte les fins de tour via intonation descendante — là où Silero regarde seulement l'énergie. La combinaison réduit de 38 % les faux positifs de barge-in sur les corpus chauffeur.
3. DNN-based speech enhancement conservateur
VOCALIS n'applique le débruitage qu'en dessous de 15 dB SNR. Au-delà, le signal brut passe directement — évitant les artéfacts qui dégradent la prosodie. C'est cette finesse qui rend compatible notre stack avec l'intelligence émotionnelle.
4. Adaptation réseau 4G/5G/VoIP
Le codec Opus (RFC 6716) inclut un packet-loss concealment robuste. VOCALIS combine Opus + FEC + jitter buffer adaptatif, optimisé pour SIP/RTP (RFC 3550).
Fallback humain : la vraie résilience
Aucune ASR n'est parfaite. VOCALIS implémente un déclencheur handover basé sur :
- Score de confiance ASR sous 0,4 sur 2 tours consécutifs.
- Détection de frustration vocale (voir module émotionnel).
- Demande explicite ("passez-moi un humain").
- Timeout répété sur sélection langue.
Le contexte — intent détecté, résumé conversationnel, historique CRM — est transmis au conseiller via webhook en <300 ms.
Secteurs où la robustesse ASR est critique
- Artisans et ateliers de fabrication — appels depuis atelier.
- Entreprises de construction BTP — chantiers bruyants.
- Taxis et VTC — route + passagers.
- Garages auto — compresseurs, atelier.
- Restaurants et bars — brouhaha de salle.
Pour ces cas, la robustesse ASR est un prérequis, pas un bonus. C'est pour cela que VOCALIS a investi un programme R&D dédié, aligné avec notre architecture technique Python du chatbot IA vocale.
Conformité et badges
RGPD · AI Act Art. 50 · AWS UE · ISO 27001 (en cours). Les enregistrements bruités ne sont jamais stockés au-delà de 30 jours (politique rétention) et le fine-tuning utilise uniquement des données anonymisées avec consentement explicite.
FAQ ingénierie ASR
Qu'est-ce que le WER et quel seuil est acceptable en production ?
Le Word Error Rate mesure le pourcentage de mots mal transcrits. En studio silencieux, les ASR de pointe (Whisper-large, Conformer) atteignent 3-5 %. En production B2B, un WER < 12 % est jugé acceptable. Au-delà de 20 %, l'agent vocal doit basculer en handover humain.
Comment fonctionne le VAD multicouche chez VOCALIS ?
VOCALIS combine Silero VAD (fréquence) + un SLM prosodique qui détecte la fin de tour via intonation descendante. Ce double filtre réduit les faux positifs de barge-in de 38 % vs VAD monocouche, crucial pour les chauffeurs ou artisans qui ont des pauses longues naturelles.
L'ASR VOCALIS gère-t-il les accents régionaux français ?
Oui. Le modèle est fine-tuné sur un corpus de 4 200 heures de français incluant accents méridionaux, belges, suisses, québécois et africains francophones. WER moyen 8,4 % vs 14,7 % pour Whisper-large-v3 standard sur accent méridional (benchmark interne, mars 2026).
Que fait le système en cas d'ASR totalement dégradé ?
Au-delà de 3 erreurs de compréhension consécutives ou d'un score de confiance <0,4, l'agent déclenche un message d'excuse préenregistré puis propose un transfert conseiller humain. Le contexte (intent détecté, CRM, résumé) est transmis automatiquement via webhook.
Le débruitage neuronal n'abîme-t-il pas la voix humaine ?
Les DNN-based speech enhancement (DNS Challenge Interspeech 2023) peuvent introduire des artéfacts spectraux. VOCALIS utilise un modèle conservateur (SNR-aware) qui reduit le bruit uniquement si le SNR est <15 dB, préservant la naturalité dans les environnements normaux.
Quel est le WER mesuré sur une ligne 4G dégradée ?
Sur un corpus propriétaire de 120 appels 4G en mouvement (train, voiture), WER VOCALIS = 11,2 % vs 19,8 % pour un Whisper standard sans préprocessing. La différence vient du packet-loss concealment + normalisation volume adaptative.
Les appels depuis un chantier BTP sont-ils viables ?
Oui, avec réserves. Sur un corpus BTP (marteau-piqueur, circulation), WER atteint 18 % — au-delà du seuil 12 %. VOCALIS recommande alors le flow builder avec questions fermées + confirmation répétée, ou handover humain dès 2 erreurs.
Voir aussi : notre architecture sub-50 ms voice2voice et notre approche de l'IA émotionnelle B2B.
Envie de tester VOCALIS AI ?
Réservez une démo personnalisée et découvrez en direct comment notre IA vocale émotionnelle transforme vos conversations.
Réserver une démo


