Av VOCALIS AI-teamet · Validerad av Laurent Duplat, Publiceringschef på VOCALIS AI · Baserad på över 250 implementeringar sedan 2023
Verkligheten av buller i samtal på plats
62 % av B2B-samtalen till franska SME:er kommer från bullriga miljöer (bil, byggarbetsplats, handel) enligt observatoriet AFRC 2024. Ändå mäts majoriteten av de offentliga ASR-benchmarkarna — Whisper, Conformer, Deepgram — på LibriSpeech, en korpus av läsning i studio.
Resultatet: WER som anges till 4 % i labbet kan stiga till 25 % i produktion. En röstagent som påstår sig täcka hantverksbyggande eller logistiktransporter måste därför bevisa sin robusthet på plats — inte sina labbsiffror.
Den kompletta ASR-kedjan: 6 steg, 6 nedslagspunkter
| Steg | Roll | Vanlig nedslagspunkt |
|---|---|---|
| Microfoninspelning | Opus 16 kHz kodning | Överbelastning på impulsivt ljud |
| SIP-transport | RTP-paket | Paketförlust 4G, jitter |
| VAD | Röst/tystnad detektion | Falska positiva på vind, motor |
| Denoising (DNN) | Avlägsnande av additivt ljud | Spektrala artefakter, robotiserad röst |
| Volymnormalisering | Adaptiv AGC | Överdriven dynamisk kompression |
| ASR-dekoder | Mapping ljud→text | Accent, cocktailparty |
Varje steg är justerbart. VOCALIS har optimerat de 6 länkarna baserat på feedback från våra BTP-kunder och chaufförer.
Benchmark WER 2026 på 6 bullriga korpusar
p50-mätningar under verkliga förhållanden, mars 2026:
| Korpus | Genomsnittlig SNR | VOCALIS ASR | Whisper-L-v3 | Deepgram Nova-2 |
|---|---|---|---|---|
| Ren studio (ref) | 45 dB | 3,8 % | 4,2 % | 4,6 % |
| Öppet kontor | 28 dB | 6,1 % | 7,9 % | 8,3 % |
| Bil motorväg | 18 dB | 9,4 % | 14,7 % | 15,2 % |
| 4G mättad mobil | 14 dB | 11,2 % | 19,8 % | 20,4 % |
| Tågstation / flygplats | 12 dB | 13,6 % | 22,1 % | 23,0 % |
| Byggarbetsplats BTP | 8 dB | 18,0 % | 27,4 % | 28,9 % |
Källor metodologi: Interspeech 2023 ASR Noise Track, ACL Anthology noise benchmarks.
Varför VOCALIS överträffar standardmodeller med ~35 %
1. Finjustering på 4 200 timmar av fransk bullrig korpus
Whisper-modellerna är förtränade på 680 000 h — men mestadels engelska och i studio. VOCALIS lägger till ett lager av finjustering LoRA på en egen korpus av bullrigt franska som inkluderar anonymiserade verkliga samtal, förstärkt syntetiskt ljud (bilar, vind, fest) och regionala accenter.
2. Flerskikts VAD Silero + prosodisk SLM
SLM (Small Language Model) lokaliserar slutet av turen via nedåtgående intonation — där Silero endast ser på energin. Kombinationen minskar falska positiva med 38 % för barge-in på chaufförskorpus.
3. DNN-baserad talförbättring konservativ
VOCALIS tillämpar denoising endast under 15 dB SNR. Över det går det råa ljudet direkt — vilket undviker artefakter som försämrar prosodin. Det är denna finess som gör vår stack kompatibel med emotionell intelligens.
4. Anpassning av nätverk 4G/5G/VoIP
Opus codec (RFC 6716) inkluderar en robust paketförlustdölja. VOCALIS kombinerar Opus + FEC + adaptiv jitter buffer, optimerad för SIP/RTP (RFC 3550).
Mänsklig fallback: den verkliga motståndskraften
Ingen ASR är perfekt. VOCALIS implementerar en överlämningsutlösare baserat på:
- ASR-förtroendepoäng under 0,4 på 2 på varandra följande turer.
- Detektion av röstfrustration (se emotionell modul).
- Explicit begäran ("koppla mig till en människa").
- Upprepad timeout på språkväljare.
Kontexten — detekterad avsikt, samtalsresumé, CRM-historik — överförs till rådgivaren via webhook på <300 ms.
Sektorer där ASR:s robusthet är kritisk
- Hantverkare och tillverkningsverkstäder — samtal från verkstad.
- Byggföretag BTP — bullriga byggarbetsplatser.
- Taxibilar och VTC — väg + passagerare.
- Bilverkstäder — kompressorer, verkstad.
- Restauranger och barer — sorl i rummet.
För dessa fall är ASR:s robusthet ett krav, inte en bonus. Det är därför VOCALIS har investerat i ett dedikerat FoU-program, anpassat till vår tekniska arkitektur för AI-röstchatboten.
Efterlevnad och märken
GDPR · AI Act Art. 50 · AWS EU · ISO 27001 (pågående). Bullriga inspelningar lagras aldrig längre än 30 dagar (bevarande policy) och finjusteringen använder endast anonymiserade data med uttryckligt samtycke.
FAQ ASR-ingenjörskonst
Vad är WER och vilken tröskel är acceptabel i produktion?
Word Error Rate mäter procentandelen felaktigt transkriberade ord. I en tyst studio når topp ASR (Whisper-large, Conformer) 3-5 %. I B2B-produktion anses en WER < 12 % vara acceptabel. Över 20 % måste röstagenten växla till mänsklig överlämning.
Hur fungerar flerskikts VAD hos VOCALIS?
VOCALIS kombinerar Silero VAD (frekvens) + en prosodisk SLM som detekterar slutet av turen via nedåtgående intonation. Detta dubbla filter minskar falska positiva för barge-in med 38 % jämfört med enskikts VAD, vilket är avgörande för chaufförer eller hantverkare som har naturliga långa pauser.
Hantera VOCALIS ASR regionala franska accenter?
Ja. Modellen är finjusterad på en korpus av 4 200 timmar franska som inkluderar sydliga, belgiska, schweiziska, quebeciska och afrikanska fransktalande accenter. Genomsnittlig WER 8,4 % jämfört med 14,7 % för standard Whisper-large-v3 på sydlig accent (intern benchmark, mars 2026).
Vad gör systemet vid en helt degraderad ASR?
Vid mer än 3 på varandra följande förståelsefel eller en förtroendepoäng <0,4, utlöser agenten ett förinspelat ursäktmeddelande och erbjuder sedan en överlämning till mänsklig rådgivare. Kontexten (detekterad avsikt, CRM, sammanfattning) överförs automatiskt via webhook.
Skadar neuralt denoising inte den mänskliga rösten?
DNN-baserad talförbättring (DNS Challenge Interspeech 2023) kan introducera spektrala artefakter. VOCALIS använder en konservativ modell (SNR-aware) som reducerar ljudet endast om SNR är <15 dB, vilket bevarar naturligheten i normala miljöer.
Vad är WER som mäts på en degraderad 4G-linje?
På en egen korpus av 120 4G-samtal i rörelse (tåg, bil), WER VOCALIS = 11,2 % jämfört med 19,8 % för en standard Whisper utan förbehandling. Skillnaden kommer från paketförlustdölja + adaptiv volymnormalisering.
Är samtal från en byggarbetsplats BTP genomförbara?
Ja, med förbehåll. På en BTP-korpus (borrmaskin, trafik), når WER 18 % — över tröskeln 12 %. VOCALIS rekommenderar då flow builder med stängda frågor + upprepad bekräftelse, eller mänsklig överlämning vid 2 fel.
Se även: vår sub-50 ms voice2voice-arkitektur och vår B2B-emotionella AI-ansats.
Envie de tester VOCALIS AI ?
Réservez une démo personnalisée et découvrez en direct comment notre IA vocale émotionnelle transforme vos conversations.
Réserver une démo


