Door het team van VOCALIS AI · Gevalideerd door Laurent Duplat, Directeur van de publicatie VOCALIS AI · Gebaseerd op +250 implementaties sinds 2023
De realiteit van geluid tijdens terreinoproepen
62 % van de B2B-oproepen naar Franse KMO's komen uit lawaaierige omgevingen (auto, bouwplaats, winkel) volgens het observatorium AFRC 2024. Toch worden de meeste openbare ASR-benchmarks — Whisper, Conformer, Deepgram — gemeten op LibriSpeech, een corpus van studio-opnames.
Resultaat: de WER die in het laboratorium op 4 % wordt aangekondigd, kan oplopen tot 25 % in productie. Een spraakagent die beweert de ambachtelijke bouw of logistiek transport te dekken, moet dus zijn robuustheid ter plaatse bewijzen — niet zijn laboratoriumcijfers.
De complete ASR-keten: 6 stappen, 6 knelpunten
| Stap | Rol | Veelvoorkomend knelpunt |
|---|---|---|
| Microfoonopname | Opname Opus 16 kHz | Verzadiging door impulsruis |
| SIP-vervoer | RTP-pakketten | Pakketverlies 4G, jitter |
| VAD | Stem/silence detectie | Valse positieven door wind, motor |
| Denoising (DNN) | Verwijdering van additief geluid | Spectrale artefacten, robotachtige stem |
| Volume normalisatie | Adaptieve AGC | Overmatige dynamische compressie |
| ASR-decoder | Audio→tekst mapping | Accent, cocktailparty |
Elke stap is aanpasbaar. VOCALIS heeft de 6 schakels geoptimaliseerd op basis van feedback uit het veld van onze BTP-klanten en chauffeurs.
Benchmark WER 2026 op 6 ruiscorpora
P50-metingen in realistische omstandigheden, maart 2026:
| Corpus | Gemiddelde SNR | VOCALIS ASR | Whisper-L-v3 | Deepgram Nova-2 |
|---|---|---|---|---|
| Schone studio (ref) | 45 dB | 3,8 % | 4,2 % | 4,6 % |
| Open kantoor | 28 dB | 6,1 % | 7,9 % | 8,3 % |
| Auto op de snelweg | 18 dB | 9,4 % | 14,7 % | 15,2 % |
| Verzadigde mobiele 4G | 14 dB | 11,2 % | 19,8 % | 20,4 % |
| Station / luchthaven | 12 dB | 13,6 % | 22,1 % | 23,0 % |
| Bouwplaats BTP | 8 dB | 18,0 % | 27,4 % | 28,9 % |
Bronnen methodologie: Interspeech 2023 ASR Noise Track, ACL Anthology noise benchmarks.
Waarom VOCALIS de standaardmodellen met ~35 % overtreft
1. Fine-tuning op 4.200 uur Franse ruiscorpora
De Whisper-modellen zijn voorgetraind op 680.000 uur — maar voornamelijk in het Engels en in de studio. VOCALIS voegt een fine-tuning LoRA-laag toe op een eigen corpus van ruisachtig Frans, inclusief geanonimiseerde echte oproepen, verhoogd synthetisch geluid (auto's, wind, feest) en regionale accenten.
2. Multilayer VAD Silero + prosodisch SLM
Het SLM (Small Language Model) detecteert het einde van een beurt via een dalende intonatie — terwijl Silero alleen naar de energie kijkt. De combinatie vermindert valse positieven van barge-in met 38 % op de chauffeurscorpora.
3. Conservatieve DNN-gebaseerde spraakverbetering
VOCALIS past denoising alleen toe bij een SNR onder de 15 dB. Daarboven gaat het ruwe signaal direct door — waardoor artefacten die de prosodie aantasten, worden vermeden. Deze finesse maakt onze stack compatibel met de emotionele intelligentie.
4. Aanpassing aan 4G/5G/VoIP-netwerken
De Opus codec (RFC 6716) bevat een robuuste concealment van pakketverlies. VOCALIS combineert Opus + FEC + adaptieve jitterbuffer, geoptimaliseerd voor SIP/RTP (RFC 3550).
Menselijke fallback: de echte veerkracht
Geen enkele ASR is perfect. VOCALIS implementeert een handover-trigger gebaseerd op:
- ASR vertrouwensscore onder 0,4 op 2 opeenvolgende beurten.
- Detectie van vocale frustratie (zie emotionele module).
- Expliciete aanvraag ("geef me een mens").
- Herhaalde time-out op taalselectie.
De context — gedetecteerde intentie, conversatie samenvatting, CRM-historie — wordt via webhook binnen <300 ms naar de adviseur verzonden.
Sectoren waar ASR-robustheid cruciaal is
- Ambachtslieden en werkplaatsen — oproepen vanuit de werkplaats.
- Bouwbedrijven BTP — lawaaierige bouwplaatsen.
- Taxi's en VTC — op de weg + passagiers.
- Autogarages — compressoren, werkplaats.
- Restaurants en bars — rumoer in de zaal.
Voor deze gevallen is ASR-robustheid een vereiste, geen bonus. Daarom heeft VOCALIS geïnvesteerd in een speciaal R&D-programma, afgestemd op onze technische architectuur van de spraak-AI chatbot.
Compliance en badges
GDPR · AI Act Art. 50 · AWS EU · ISO 27001 (in uitvoering). Geluidsopnames worden nooit langer dan 30 dagen opgeslagen (retentiebeleid) en de fine-tuning gebruikt alleen geanonimiseerde gegevens met expliciete toestemming.
FAQ ASR-engineering
Wat is de WER en welke drempel is acceptabel in productie?
De Word Error Rate meet het percentage verkeerd getranscribeerde woorden. In een stille studio bereiken de toonaangevende ASR's (Whisper-large, Conformer) 3-5 %. In B2B-productie wordt een WER < 12 % als acceptabel beschouwd. Boven de 20 % moet de spraakagent overschakelen naar menselijke overdracht.
Hoe werkt de multilayer VAD bij VOCALIS?
VOCALIS combineert Silero VAD (frequentie) + een prosodisch SLM dat het einde van een beurt detecteert via dalende intonatie. Dit dubbele filter vermindert de valse positieven van barge-in met 38 % ten opzichte van monocouche VAD, cruciaal voor chauffeurs of ambachtslieden die lange natuurlijke pauzes hebben.
Beheert de VOCALIS ASR regionale Franse accenten?
Ja. Het model is fine-tuned op een corpus van 4.200 uur Frans, inclusief zuidelijke, Belgische, Zwitserse, Québécois en Afrikaanse Franstalige accenten. Gemiddelde WER 8,4 % vs 14,7 % voor de standaard Whisper-large-v3 op zuidelijk accent (interne benchmark, maart 2026).
Wat doet het systeem in het geval van volledig verstoorde ASR?
Bij meer dan 3 opeenvolgende misverstanden of een vertrouwensscore <0,4, activeert de agent een vooraf opgenomen excusesbericht en biedt vervolgens een overdracht naar een menselijke adviseur aan. De context (gedetecteerde intentie, CRM, samenvatting) wordt automatisch via webhook verzonden.
Vernieuwende denoising schaadt de menselijke stem niet?
DNN-gebaseerde spraakverbeteringen (DNS Challenge Interspeech 2023) kunnen spectrale artefacten introduceren. VOCALIS gebruikt een conservatief model (SNR-aware) dat ruis alleen vermindert als de SNR <15 dB is, waardoor de natuurlijkheid in normale omgevingen behouden blijft.
Wat is de WER gemeten op een verzwakte 4G-lijn?
Op een eigen corpus van 120 4G-oproepen in beweging (trein, auto), is de WER van VOCALIS = 11,2 % vs 19,8 % voor een standaard Whisper zonder preprocessing. Het verschil komt van de concealment van pakketverlies + adaptieve volume normalisatie.
Zijn oproepen vanaf een bouwplaats BTP haalbaar?
Ja, met voorbehoud. Op een BTP-corpus (hamer, verkeer) bereikt de WER 18 % — boven de drempel van 12 %. VOCALIS raadt dan de flow builder aan met gesloten vragen + herhaalde bevestiging, of menselijke overdracht bij 2 fouten.
Zie ook: onze architectuur sub-50 ms voice2voice en onze benadering van B2B-emotionele AI.
Envie de tester VOCALIS AI ?
Réservez une démo personnalisée et découvrez en direct comment notre IA vocale émotionnelle transforme vos conversations.
Réserver une démo


