GDPR-kompatibelAI Act tilpassetAWS EUISO 27001 (under behandling)Bare-metal H100
TL;DR — De industrielle WER (word error rate) går fra 4 % i studio til over 20 % på byggeplasser eller ved mettet 4G. En produksjonsklar stemmeagent kombinerer flerlags VAD, nevrale støyreduksjon (DNS), adaptiv normalisering og betinget menneskelig overlevering. Fullstendig benchmark på 6 støyende korpus i 2026.

Av VOCALIS AI-teamet · Validert av Laurent Duplat, Publiseringsdirektør i VOCALIS AI · Basert på +250 distribusjoner siden 2023

Virkeligheten av støy i feltanrop

62 % av B2B-anropene til franske SMB-er kommer fra støyende miljøer (bil, byggeplass, butikk) ifølge observatoriet AFRC 2024. Likevel er flertallet av de offentlige ASR-benchmarkene — Whisper, Conformer, Deepgram — målt på LibriSpeech, et korpus av innspilt lesing i studio.

Resultatet: WER annonsert til 4 % i laboratorium kan stige til 25 % i produksjon. En stemmeagent som påstår å dekke håndverksbygging eller logistikktransport må derfor bevise sin robusthet i felt — ikke sine laboratorietall.

Den komplette ASR-kjeden: 6 trinn, 6 fallpunkter

TrinnRolleVanlig fallpunkt
MicrofonopptakOpus 16 kHz kodingMettet på impulsiv støy
SIP-transportRTP-pakkerPakkeforringelse 4G, jitter
VADStemme/stille deteksjonFalske positiver på vind, motor
Støyreduksjon (DNN)Fjerning av additiv støySpektre artefakter, robotisert stemme
VolumnormaliseringAdaptiv AGCOverdreven dynamisk komprimering
ASR-dekoderMapping av lyd→tekstAkent, cocktailparty

Hvert trinn kan justeres. VOCALIS har optimalisert de 6 leddene basert på tilbakemeldinger fra våre BTP-kunder og sjåfører.

Benchmark WER 2026 på 6 støyende korpus

Målinger p50 i reelle forhold, mars 2026:

KorpusGjennomsnittlig SNRVOCALIS ASRWhisper-L-v3Deepgram Nova-2
Rent studio (ref)45 dB3,8 %4,2 %4,6 %
Åpent kontor28 dB6,1 %7,9 %8,3 %
Bil motorvei18 dB9,4 %14,7 %15,2 %
Mettet 4G mobil14 dB11,2 %19,8 %20,4 %
Stasjon / flyplass12 dB13,6 %22,1 %23,0 %
Byggeplass BTP8 dB18,0 %27,4 %28,9 %

Kilder metodologi: Interspeech 2023 ASR Noise Track, ACL Anthology støybenchmarker.

Hvorfor VOCALIS slår standardmodeller med ~35 %

1. Finjustering på 4 200 timer av fransk støyende korpus

Whisper-modellene er forhåndstrent på 680 000 timer — men hovedsakelig på engelsk og i studio. VOCALIS legger til et lag med finjustering LoRA på et proprietært korpus av fransk støy som inkluderer anonymiserte reelle anrop, økt syntetisk støy (biler, vind, fest) og regionale aksenter.

2. Flerlags VAD Silero + prosodisk SLM

SLM (Small Language Model) lokaliserer slutten av turen via nedadgående intonasjon — der Silero kun ser på energinivået. Kombinasjonen reduserer falske positiver av barge-in med 38 % på sjåførkorpus.

3. DNN-basert taleforbedring konservativ

VOCALIS anvender støyreduksjon kun under 15 dB SNR. Over dette går det rå signalet direkte — og unngår artefakter som forringer prosodien. Det er denne finheten som gjør at vår stack er kompatibel med emosjonell intelligens.

4. Tilpasning av 4G/5G/VoIP-nettverk

Opus codec (RFC 6716) inkluderer robust pakke-tap skjuling. VOCALIS kombinerer Opus + FEC + adaptiv jitter buffer, optimalisert for SIP/RTP (RFC 3550).

Menneskelig fallback: den virkelige motstandskraften

Ingen ASR er perfekt. VOCALIS implementerer en overleveringsutløser basert på:

  • ASR tillitsvurdering under 0,4 på 2 påfølgende turer.
  • Deteksjon av stemmefrustrasjon (se emosjonelt modul).
  • Eksplisitt forespørsel ("sett meg i kontakt med et menneske").
  • Gjentatt timeout på språkvalg.

Konteksten — oppdaget intensjon, samtalesammendrag, CRM-historikk — overføres til rådgiveren via webhook på <300 ms.

Sektorer der ASR-robusthet er kritisk

For disse tilfellene er ASR-robusthet et krav, ikke et bonus. Det er derfor VOCALIS har investert i et dedikert FoU-program, tilpasset vår tekniske arkitektur for Python stemmeagent chatbot.

Overholdelse og merker

GDPR · AI Act Art. 50 · AWS EU · ISO 27001 (under behandling). Støyopptak lagres aldri lenger enn 30 dager (oppbevaringspolitikk) og finjusteringen bruker kun anonymiserte data med eksplisitt samtykke.

FAQ om ASR-ingeniørkunst

Hva er WER og hvilken terskel er akseptabel i produksjon?

Word Error Rate måler prosentandelen av feil transkriberte ord. I stille studio når topp ASR (Whisper-large, Conformer) 3-5 %. I B2B-produksjon anses en WER < 12 % som akseptabel. Over 20 % må stemmeagenten gå over til menneskelig overlevering.

Hvordan fungerer flerlags VAD hos VOCALIS?

VOCALIS kombinerer Silero VAD (frekvens) + en prosodisk SLM som oppdager slutten av turen via nedadgående intonasjon. Dette doble filteret reduserer falske positiver av barge-in med 38 % sammenlignet med enlags VAD, noe som er avgjørende for sjåfører eller håndverkere som har naturlige lange pauser.

Håndterer VOCALIS ASR regionale franske aksenter?

Ja. Modellen er finjustert på et korpus av 4 200 timer fransk som inkluderer sørlige, belgiske, sveitsiske, Quebec-franske og afrikanske fransktalende aksenter. Gjennomsnittlig WER 8,4 % vs 14,7 % for standard Whisper-large-v3 på sørlig aksent (intern benchmark, mars 2026).

Hva skjer med systemet i tilfelle av totalt degradert ASR?

Ved mer enn 3 påfølgende forståelsesfeil eller en tillitsvurdering <0,4, utløser agenten en forhåndsinnspilt unnskyldningsmelding og tilbyr deretter overføring til en menneskelig rådgiver. Konteksten (oppdaget intensjon, CRM, sammendrag) overføres automatisk via webhook.

Skader nevrale støyreduksjoner den menneskelige stemmen?

DNN-baserte taleforbedringer (DNS Challenge Interspeech 2023) kan introdusere spektrale artefakter. VOCALIS bruker en konservativ modell (SNR-bevisst) som reduserer støy kun hvis SNR er <15 dB, og bevarer naturligheten i normale miljøer.

Hva er WER målt på en degradert 4G-linje?

På et proprietært korpus av 120 4G-anrop i bevegelse (tog, bil), er WER VOCALIS = 11,2 % vs 19,8 % for en standard Whisper uten forhåndsbehandling. Forskjellen kommer fra pakke-tap skjuling + adaptiv volumnormalisering.

Er anrop fra en byggeplass BTP levedyktige?

Ja, med forbehold. På et BTP-korpus (bryter, trafikk) når WER 18 % — over terskelen 12 %. VOCALIS anbefaler da flow builder med lukkede spørsmål + gjentatt bekreftelse, eller menneskelig overlevering ved 2 feil.

Se også: vår arkitektur sub-50 ms voice2voice og vår tilnærming til B2B emosjonell AI.

Del in X @

Envie de tester VOCALIS AI ?

Réservez une démo personnalisée et découvrez en direct comment notre IA vocale émotionnelle transforme vos conversations.

Réserver une démo