VOCALIS AI -tiimiltä · Vahvistettu Laurent Duplat, VOCALIS AI:n julkaisupäällikkö · Perustuu yli 250 käyttöönottoon vuodesta 2023
Melun todellisuus kenttäpuheluissa
62 % B2B-puheluista Ranskan pk-yrityksille tulee meluisista ympäristöistä (auto, työmaa, kauppa) AFRC 2024:n mukaan. Silti suurin osa julkisista ASR-vertailuista — Whisper, Conformer, Deepgram — mitataan LibriSpeechissä, joka on studio-olosuhteissa luettu corpus.
Tulos: laboratoriossa ilmoitettu WER 4 % voi nousta 25 %:iin tuotannossa. Ääniagentin, joka väittää kattavansa käsityöalan tai logistiikkakuljetukset, on todistettava kenttälujuutensa — ei laboratoriolukujaan.
Koko ASR-prosessi: 6 vaihetta, 6 pudotuspistettä
| Vaihe | Rooli | Yleinen pudotuspiste |
|---|---|---|
| Mikrofonin tallennus | Opus 16 kHz -koodaus | Ylikuormitus impulsivisessa melussa |
| SIP-siirto | RTP-paketit | 4G-pakettihävikki, jitter |
| VAD | Äänen/hiljaisuuden tunnistus | Vääriä positiivisia tuulen, moottorin vuoksi |
| Melunpoisto (DNN) | Lisämelun poistaminen | Spektraalit ja robottimainen ääni |
| Äänen normalisointi | Mukautuva AGC | Liiallinen dynaaminen pakkaus |
| ASR-purku | Ääni→teksti -kartoitus | Korostus, cocktail-juhlat |
Jokainen vaihe on säädettävissä. VOCALIS on optimoitu 6 linkkiä kenttäpalautteen perusteella asiakkailtamme rakennusalalta ja kuljettajilta.
WER-vertailu 2026 kuudella meluisalla corpusilla
Reaaliaikaiset p50-mittaukset, maaliskuu 2026:
| Corpus | Keskimääräinen SNR | VOCALIS ASR | Whisper-L-v3 | Deepgram Nova-2 |
|---|---|---|---|---|
| Puhdas studio (ref) | 45 dB | 3,8 % | 4,2 % | 4,6 % |
| Avoin toimisto | 28 dB | 6,1 % | 7,9 % | 8,3 % |
| Auto moottoritiellä | 18 dB | 9,4 % | 14,7 % | 15,2 % |
| Ylikuormitettu 4G-mobiili | 14 dB | 11,2 % | 19,8 % | 20,4 % |
| Asema / lentokenttä | 12 dB | 13,6 % | 22,1 % | 23,0 % |
| Työmaa BTP | 8 dB | 18,0 % | 27,4 % | 28,9 % |
Menetelmien lähteet: Interspeech 2023 ASR Noise Track, ACL Anthology meluvertailut.
Miksi VOCALIS voittaa varastomallit ~35 %:lla
1. Fine-tuning 4 200 tuntia ranskalaista meluista corpusia
Whisper-mallit on esikoulutettu 680 000 tunnin ajan — mutta pääasiassa englanniksi ja studio-olosuhteissa. VOCALIS lisää LoRA-fine-tuning -kerroksen omistettuun ranskalaiseen meluiseen corpusiin, joka sisältää anonymisoituja todellisia puheluja, lisättyä synteettistä melua (autot, tuuli, juhlat) ja alueellisia aksentteja.
2. Monikerroksinen VAD Silero + prosodinen SLM
SLM (Pieni kielimalli) paikallisesti tunnistaa vuoron loput laskevan intonaation avulla — kun taas Silero tarkastelee vain energiaa. Yhdistelmä vähentää 38 % vääriä positiivisia barge-in -tapahtumia kuljettajacorpuksissa.
3. DNN-pohjainen äänen parannus
VOCALIS soveltaa melunpoistoa vain, jos SNR on alle 15 dB. Yli tämän, raakasignaali siirtyy suoraan — välttäen artefakteja, jotka heikentävät prosodiaa. Tämä hienovaraisuus tekee pinostamme yhteensopivan tunneälyn kanssa.
4. 4G/5G/VoIP-verkon mukauttaminen
Opus-kooderi (RFC 6716) sisältää vahvan pakettihävikkipeiton. VOCALIS yhdistää Opus + FEC + mukautuvan jitter-puskurin, joka on optimoitu SIP/RTP (RFC 3550):lle.
Ihmisen varajärjestelmä: todellinen kestävyys
Yksikään ASR ei ole täydellinen. VOCALIS toteuttaa siirron laukaisimen, joka perustuu:
- ASR:n luottamusaste alle 0,4 kahdella peräkkäisellä vuorolla.
- Äänifrustraation tunnistus (katso tunne-moduuli).
- Ilmaiseen pyyntöön ("anna minulle ihminen").
- Toistuva aikakatkaisu kielivalinnassa.
Yhteys — havaittu aikomus, keskustelun yhteenveto, CRM-historia — siirretään neuvonantajalle webhookin kautta <300 ms:ssa.
Toimialat, joissa ASR:n kestävyys on kriittistä
- Käsityöläiset ja valmistustyöpajat — puhelut työpajasta.
- Rakennusyritykset BTP — meluisat työmaat.
- Taksit ja VTC — tie + matkustajat.
- Autokorjaamot — kompressorit, työpaja.
- Ravintolat ja baarit — salin hälinä.
Näissä tapauksissa ASR:n kestävyys on edellytys, ei bonus. Siksi VOCALIS on investoinut omistettuun T&K-ohjelmaan, joka on linjassa ääniagentin Python-teknisen arkkitehtuurin kanssa.
Yhteensopivuus ja merkit
GDPR · AI Act Art. 50 · AWS EU · ISO 27001 (käynnissä). Meluisia tallenteita ei koskaan säilytetä yli 30 päivää (säilytyskäytäntö) ja fine-tuning käyttää vain anonymisoituja tietoja, joihin on saatu nimenomainen suostumus.
ASR-insinöörin FAQ
Mikä on WER ja mikä kynnys on hyväksyttävä tuotannossa?
Word Error Rate mittaa väärin transkriptoitujen sanojen prosenttiosuuden. Hiljaisessa studiossa huipputason ASR:t (Whisper-large, Conformer) saavuttavat 3-5 %. B2B-tuotannossa WER < 12 % on hyväksyttävä. Yli 20 %:n kohdalla ääniagentin on siirryttävä ihmisen varajärjestelmään.
Kuinka VOCALIS:n monikerroksinen VAD toimii?
VOCALIS yhdistää Silero VAD:n (taajuus) + prosodisen SLM:n, joka tunnistaa vuoron loput laskevan intonaation avulla. Tämä kaksinkertainen suodatin vähentää vääriä positiivisia barge-in -tapahtumia 38 % verrattuna yksikerroksiseen VAD:iin, mikä on ratkaisevaa kuljettajille tai käsityöläisille, joilla on luonnollisia pitkiä taukoja.
Hallitaanko VOCALIS ASR:ssa ranskalaisia alueellisia aksentteja?
Kyllä. Malli on fine-tunattu 4 200 tunnin ranskankieliselle corpusille, joka sisältää eteläisiä, belgialaisia, sveitsiläisiä, quebecilaisia ja afrikkalaisia ranskankielisiä aksentteja. Keskimääräinen WER on 8,4 % verrattuna 14,7 %:iin standardin Whisper-large-v3 eteläisellä aksentilla (sisäinen vertailu, maaliskuu 2026).
Mitä järjestelmä tekee, jos ASR on täysin heikentynyt?
Yli 3 peräkkäisen ymmärtämisvirheen tai luottamusasteen <0,4 kohdalla agentti laukaisee ennakkoon tallennetun anteeksipyynnön ja ehdottaa siirtoa ihmisen neuvonantajalle. Yhteys (havaittu aikomus, CRM, yhteenveto) siirretään automaattisesti webhookin kautta.
Vaikuttaako neuroverkkopohjainen melunpoisto ihmisen ääneen?
DNN-pohjaiset äänen parannukset (DNS Challenge Interspeech 2023) voivat tuoda esiin spektraalisia artefakteja. VOCALIS käyttää konservatiivista mallia (SNR-aware), joka vähentää melua vain, jos SNR on <15 dB, säilyttäen luonnollisuuden normaaleissa ympäristöissä.
Mikä on WER, joka mitataan heikentyneellä 4G-yhteydellä?
Omistettuun corpus 120 liikkuvasta 4G-puhelusta (juna, auto) WER VOCALIS = 11,2 % verrattuna 19,8 %:iin standardin Whisper ilman esikäsittelyä. Ero johtuu pakettihävikkipeitosta + mukautuvasta äänen normalisoinnista.
Onko työmaalta BTP:ltä tulevat puhelut mahdollisia?
Kyllä, varauksin. BTP-corpuksessa (vasara-pora, liikenne) WER saavuttaa 18 % — yli 12 %:n kynnyksen. VOCALIS suosittelee silloin flow builderia suljetuilla kysymyksillä + toistuvalla vahvistuksella tai ihmisen varajärjestelmää heti 2 virheen kohdalla.
Katso myös: arkkitehtuurimme sub-50 ms voice2voice ja B2B-tunneälyn lähestymistapamme.
Envie de tester VOCALIS AI ?
Réservez une démo personnalisée et découvrez en direct comment notre IA vocale émotionnelle transforme vos conversations.
Réserver une démo


