ASR in een lawaaierige omgeving: benchmark en oplossingen ter plaatse

GDPR compliantAI Act in lijnAWS EUISO 27001 (in uitvoering)Bare-metal H100

TL;DR — De WER (word error rate) in de industrie gaat van 4 % in de studio naar meer dan 20 % op de bouwplaats of bij verzadigde 4G. Een productieklare spraakagent combineert multilayer VAD, neuronale denoising (DNS), adaptieve normalisatie en voorwaardelijke menselijke overdracht. Volledige benchmark op 6 ruiscorpora 2026.

Door het team van VOCALIS AI · Gevalideerd door Laurent Duplat, Directeur van de publicatie VOCALIS AI · Gebaseerd op +250 implementaties sinds 2023

De realiteit van geluid tijdens terreinoproepen

62 % van de B2B-oproepen naar Franse KMO's komen uit lawaaierige omgevingen (auto, bouwplaats, winkel) volgens het observatorium AFRC 2024. Toch worden de meeste openbare ASR-benchmarks — Whisper, Conformer, Deepgram — gemeten op LibriSpeech, een corpus van studio-opnames.

Resultaat: de WER die in het laboratorium op 4 % wordt aangekondigd, kan oplopen tot 25 % in productie. Een spraakagent die beweert de ambachtelijke bouw of logistiek transport te dekken, moet dus zijn robuustheid ter plaatse bewijzen — niet zijn laboratoriumcijfers.

De complete ASR-keten: 6 stappen, 6 knelpunten

Stap	Rol	Veelvoorkomend knelpunt
Microfoonopname	Opname Opus 16 kHz	Verzadiging door impulsruis
SIP-vervoer	RTP-pakketten	Pakketverlies 4G, jitter
VAD	Stem/silence detectie	Valse positieven door wind, motor
Denoising (DNN)	Verwijdering van additief geluid	Spectrale artefacten, robotachtige stem
Volume normalisatie	Adaptieve AGC	Overmatige dynamische compressie
ASR-decoder	Audio→tekst mapping	Accent, cocktailparty

Elke stap is aanpasbaar. VOCALIS heeft de 6 schakels geoptimaliseerd op basis van feedback uit het veld van onze BTP-klanten en chauffeurs.

Benchmark WER 2026 op 6 ruiscorpora

P50-metingen in realistische omstandigheden, maart 2026:

Corpus	Gemiddelde SNR	VOCALIS ASR	Whisper-L-v3	Deepgram Nova-2
Schone studio (ref)	45 dB	3,8 %	4,2 %	4,6 %
Open kantoor	28 dB	6,1 %	7,9 %	8,3 %
Auto op de snelweg	18 dB	9,4 %	14,7 %	15,2 %
Verzadigde mobiele 4G	14 dB	11,2 %	19,8 %	20,4 %
Station / luchthaven	12 dB	13,6 %	22,1 %	23,0 %
Bouwplaats BTP	8 dB	18,0 %	27,4 %	28,9 %

Bronnen methodologie: Interspeech 2023 ASR Noise Track, ACL Anthology noise benchmarks.

Waarom VOCALIS de standaardmodellen met ~35 % overtreft

1. Fine-tuning op 4.200 uur Franse ruiscorpora

De Whisper-modellen zijn voorgetraind op 680.000 uur — maar voornamelijk in het Engels en in de studio. VOCALIS voegt een fine-tuning LoRA-laag toe op een eigen corpus van ruisachtig Frans, inclusief geanonimiseerde echte oproepen, verhoogd synthetisch geluid (auto's, wind, feest) en regionale accenten.

2. Multilayer VAD Silero + prosodisch SLM

Het SLM (Small Language Model) detecteert het einde van een beurt via een dalende intonatie — terwijl Silero alleen naar de energie kijkt. De combinatie vermindert valse positieven van barge-in met 38 % op de chauffeurscorpora.

3. Conservatieve DNN-gebaseerde spraakverbetering

VOCALIS past denoising alleen toe bij een SNR onder de 15 dB. Daarboven gaat het ruwe signaal direct door — waardoor artefacten die de prosodie aantasten, worden vermeden. Deze finesse maakt onze stack compatibel met de emotionele intelligentie.

4. Aanpassing aan 4G/5G/VoIP-netwerken

De Opus codec (RFC 6716) bevat een robuuste concealment van pakketverlies. VOCALIS combineert Opus + FEC + adaptieve jitterbuffer, geoptimaliseerd voor SIP/RTP (RFC 3550).

Menselijke fallback: de echte veerkracht

Geen enkele ASR is perfect. VOCALIS implementeert een handover-trigger gebaseerd op:

ASR vertrouwensscore onder 0,4 op 2 opeenvolgende beurten.
Detectie van vocale frustratie (zie emotionele module).
Expliciete aanvraag ("geef me een mens").
Herhaalde time-out op taalselectie.

De context — gedetecteerde intentie, conversatie samenvatting, CRM-historie — wordt via webhook binnen <300 ms naar de adviseur verzonden.

Sectoren waar ASR-robustheid cruciaal is

Ambachtslieden en werkplaatsen — oproepen vanuit de werkplaats.
Bouwbedrijven BTP — lawaaierige bouwplaatsen.
Taxi's en VTC — op de weg + passagiers.
Autogarages — compressoren, werkplaats.
Restaurants en bars — rumoer in de zaal.

Voor deze gevallen is ASR-robustheid een vereiste, geen bonus. Daarom heeft VOCALIS geïnvesteerd in een speciaal R&D-programma, afgestemd op onze technische architectuur van de spraak-AI chatbot.

Compliance en badges

GDPR · AI Act Art. 50 · AWS EU · ISO 27001 (in uitvoering). Geluidsopnames worden nooit langer dan 30 dagen opgeslagen (retentiebeleid) en de fine-tuning gebruikt alleen geanonimiseerde gegevens met expliciete toestemming.

FAQ ASR-engineering

Wat is de WER en welke drempel is acceptabel in productie?

De Word Error Rate meet het percentage verkeerd getranscribeerde woorden. In een stille studio bereiken de toonaangevende ASR's (Whisper-large, Conformer) 3-5 %. In B2B-productie wordt een WER < 12 % als acceptabel beschouwd. Boven de 20 % moet de spraakagent overschakelen naar menselijke overdracht.

Hoe werkt de multilayer VAD bij VOCALIS?

VOCALIS combineert Silero VAD (frequentie) + een prosodisch SLM dat het einde van een beurt detecteert via dalende intonatie. Dit dubbele filter vermindert de valse positieven van barge-in met 38 % ten opzichte van monocouche VAD, cruciaal voor chauffeurs of ambachtslieden die lange natuurlijke pauzes hebben.

Beheert de VOCALIS ASR regionale Franse accenten?

Ja. Het model is fine-tuned op een corpus van 4.200 uur Frans, inclusief zuidelijke, Belgische, Zwitserse, Québécois en Afrikaanse Franstalige accenten. Gemiddelde WER 8,4 % vs 14,7 % voor de standaard Whisper-large-v3 op zuidelijk accent (interne benchmark, maart 2026).

Wat doet het systeem in het geval van volledig verstoorde ASR?

Bij meer dan 3 opeenvolgende misverstanden of een vertrouwensscore <0,4, activeert de agent een vooraf opgenomen excusesbericht en biedt vervolgens een overdracht naar een menselijke adviseur aan. De context (gedetecteerde intentie, CRM, samenvatting) wordt automatisch via webhook verzonden.

Vernieuwende denoising schaadt de menselijke stem niet?

DNN-gebaseerde spraakverbeteringen (DNS Challenge Interspeech 2023) kunnen spectrale artefacten introduceren. VOCALIS gebruikt een conservatief model (SNR-aware) dat ruis alleen vermindert als de SNR <15 dB is, waardoor de natuurlijkheid in normale omgevingen behouden blijft.

Wat is de WER gemeten op een verzwakte 4G-lijn?

Op een eigen corpus van 120 4G-oproepen in beweging (trein, auto), is de WER van VOCALIS = 11,2 % vs 19,8 % voor een standaard Whisper zonder preprocessing. Het verschil komt van de concealment van pakketverlies + adaptieve volume normalisatie.

Zijn oproepen vanaf een bouwplaats BTP haalbaar?

Ja, met voorbehoud. Op een BTP-corpus (hamer, verkeer) bereikt de WER 18 % — boven de drempel van 12 %. VOCALIS raadt dan de flow builder aan met gesloten vragen + herhaalde bevestiging, of menselijke overdracht bij 2 fouten.

Zie ook: onze architectuur sub-50 ms voice2voice en onze benadering van B2B-emotionele AI.

Envie de tester VOCALIS AI ?

Réservez une démo personnalisée et découvrez en direct comment notre IA vocale émotionnelle transforme vos conversations.

Demo boeken