Av VOCALIS AI-teamet · Validert av Laurent Duplat, Publiseringsdirektør i VOCALIS AI · Basert på +250 distribusjoner siden 2023
Virkeligheten av støy i feltanrop
62 % av B2B-anropene til franske SMB-er kommer fra støyende miljøer (bil, byggeplass, butikk) ifølge observatoriet AFRC 2024. Likevel er flertallet av de offentlige ASR-benchmarkene — Whisper, Conformer, Deepgram — målt på LibriSpeech, et korpus av innspilt lesing i studio.
Resultatet: WER annonsert til 4 % i laboratorium kan stige til 25 % i produksjon. En stemmeagent som påstår å dekke håndverksbygging eller logistikktransport må derfor bevise sin robusthet i felt — ikke sine laboratorietall.
Den komplette ASR-kjeden: 6 trinn, 6 fallpunkter
| Trinn | Rolle | Vanlig fallpunkt |
|---|---|---|
| Microfonopptak | Opus 16 kHz koding | Mettet på impulsiv støy |
| SIP-transport | RTP-pakker | Pakkeforringelse 4G, jitter |
| VAD | Stemme/stille deteksjon | Falske positiver på vind, motor |
| Støyreduksjon (DNN) | Fjerning av additiv støy | Spektre artefakter, robotisert stemme |
| Volumnormalisering | Adaptiv AGC | Overdreven dynamisk komprimering |
| ASR-dekoder | Mapping av lyd→tekst | Akent, cocktailparty |
Hvert trinn kan justeres. VOCALIS har optimalisert de 6 leddene basert på tilbakemeldinger fra våre BTP-kunder og sjåfører.
Benchmark WER 2026 på 6 støyende korpus
Målinger p50 i reelle forhold, mars 2026:
| Korpus | Gjennomsnittlig SNR | VOCALIS ASR | Whisper-L-v3 | Deepgram Nova-2 |
|---|---|---|---|---|
| Rent studio (ref) | 45 dB | 3,8 % | 4,2 % | 4,6 % |
| Åpent kontor | 28 dB | 6,1 % | 7,9 % | 8,3 % |
| Bil motorvei | 18 dB | 9,4 % | 14,7 % | 15,2 % |
| Mettet 4G mobil | 14 dB | 11,2 % | 19,8 % | 20,4 % |
| Stasjon / flyplass | 12 dB | 13,6 % | 22,1 % | 23,0 % |
| Byggeplass BTP | 8 dB | 18,0 % | 27,4 % | 28,9 % |
Kilder metodologi: Interspeech 2023 ASR Noise Track, ACL Anthology støybenchmarker.
Hvorfor VOCALIS slår standardmodeller med ~35 %
1. Finjustering på 4 200 timer av fransk støyende korpus
Whisper-modellene er forhåndstrent på 680 000 timer — men hovedsakelig på engelsk og i studio. VOCALIS legger til et lag med finjustering LoRA på et proprietært korpus av fransk støy som inkluderer anonymiserte reelle anrop, økt syntetisk støy (biler, vind, fest) og regionale aksenter.
2. Flerlags VAD Silero + prosodisk SLM
SLM (Small Language Model) lokaliserer slutten av turen via nedadgående intonasjon — der Silero kun ser på energinivået. Kombinasjonen reduserer falske positiver av barge-in med 38 % på sjåførkorpus.
3. DNN-basert taleforbedring konservativ
VOCALIS anvender støyreduksjon kun under 15 dB SNR. Over dette går det rå signalet direkte — og unngår artefakter som forringer prosodien. Det er denne finheten som gjør at vår stack er kompatibel med emosjonell intelligens.
4. Tilpasning av 4G/5G/VoIP-nettverk
Opus codec (RFC 6716) inkluderer robust pakke-tap skjuling. VOCALIS kombinerer Opus + FEC + adaptiv jitter buffer, optimalisert for SIP/RTP (RFC 3550).
Menneskelig fallback: den virkelige motstandskraften
Ingen ASR er perfekt. VOCALIS implementerer en overleveringsutløser basert på:
- ASR tillitsvurdering under 0,4 på 2 påfølgende turer.
- Deteksjon av stemmefrustrasjon (se emosjonelt modul).
- Eksplisitt forespørsel ("sett meg i kontakt med et menneske").
- Gjentatt timeout på språkvalg.
Konteksten — oppdaget intensjon, samtalesammendrag, CRM-historikk — overføres til rådgiveren via webhook på <300 ms.
Sektorer der ASR-robusthet er kritisk
- Håndverkere og produksjonsverksteder — anrop fra verksted.
- Bygge- og anleggsbedrifter — støyende byggeplasser.
- Taxier og VTC — vei + passasjerer.
- Bilverksteder — kompressorer, verksted.
- Restauranter og barer — støy fra lokalet.
For disse tilfellene er ASR-robusthet et krav, ikke et bonus. Det er derfor VOCALIS har investert i et dedikert FoU-program, tilpasset vår tekniske arkitektur for Python stemmeagent chatbot.
Overholdelse og merker
GDPR · AI Act Art. 50 · AWS EU · ISO 27001 (under behandling). Støyopptak lagres aldri lenger enn 30 dager (oppbevaringspolitikk) og finjusteringen bruker kun anonymiserte data med eksplisitt samtykke.
FAQ om ASR-ingeniørkunst
Hva er WER og hvilken terskel er akseptabel i produksjon?
Word Error Rate måler prosentandelen av feil transkriberte ord. I stille studio når topp ASR (Whisper-large, Conformer) 3-5 %. I B2B-produksjon anses en WER < 12 % som akseptabel. Over 20 % må stemmeagenten gå over til menneskelig overlevering.
Hvordan fungerer flerlags VAD hos VOCALIS?
VOCALIS kombinerer Silero VAD (frekvens) + en prosodisk SLM som oppdager slutten av turen via nedadgående intonasjon. Dette doble filteret reduserer falske positiver av barge-in med 38 % sammenlignet med enlags VAD, noe som er avgjørende for sjåfører eller håndverkere som har naturlige lange pauser.
Håndterer VOCALIS ASR regionale franske aksenter?
Ja. Modellen er finjustert på et korpus av 4 200 timer fransk som inkluderer sørlige, belgiske, sveitsiske, Quebec-franske og afrikanske fransktalende aksenter. Gjennomsnittlig WER 8,4 % vs 14,7 % for standard Whisper-large-v3 på sørlig aksent (intern benchmark, mars 2026).
Hva skjer med systemet i tilfelle av totalt degradert ASR?
Ved mer enn 3 påfølgende forståelsesfeil eller en tillitsvurdering <0,4, utløser agenten en forhåndsinnspilt unnskyldningsmelding og tilbyr deretter overføring til en menneskelig rådgiver. Konteksten (oppdaget intensjon, CRM, sammendrag) overføres automatisk via webhook.
Skader nevrale støyreduksjoner den menneskelige stemmen?
DNN-baserte taleforbedringer (DNS Challenge Interspeech 2023) kan introdusere spektrale artefakter. VOCALIS bruker en konservativ modell (SNR-bevisst) som reduserer støy kun hvis SNR er <15 dB, og bevarer naturligheten i normale miljøer.
Hva er WER målt på en degradert 4G-linje?
På et proprietært korpus av 120 4G-anrop i bevegelse (tog, bil), er WER VOCALIS = 11,2 % vs 19,8 % for en standard Whisper uten forhåndsbehandling. Forskjellen kommer fra pakke-tap skjuling + adaptiv volumnormalisering.
Er anrop fra en byggeplass BTP levedyktige?
Ja, med forbehold. På et BTP-korpus (bryter, trafikk) når WER 18 % — over terskelen 12 %. VOCALIS anbefaler da flow builder med lukkede spørsmål + gjentatt bekreftelse, eller menneskelig overlevering ved 2 feil.
Se også: vår arkitektur sub-50 ms voice2voice og vår tilnærming til B2B emosjonell AI.
Envie de tester VOCALIS AI ?
Réservez une démo personnalisée et découvrez en direct comment notre IA vocale émotionnelle transforme vos conversations.
Réserver une démo


