ASR meluisassa ympäristössä: vertailu ja kenttäratkaisut

GDPR-yhteensopivaAI Act -säädöksen mukainenAWS EUISO 27001 (käynnissä)Bare-metal H100

TL;DR — Teollisuuden WER (sanavirheprosentti) vaihtelee 4 %:sta studiossa yli 20 %:iin työmaalla tai 4G:ssä, joka on ylikuormitettu. Tuotantovalmiin ääniagentin yhdistelmä sisältää monikerroksisen VAD:n, neuroverkkopohjaisen melunpoiston (DNS), mukautuvan normalisoinnin ja ehdollisen ihmisen siirron. Täydellinen vertailu 6 meluisalla corpus 2026.

VOCALIS AI -tiimiltä · Vahvistettu Laurent Duplat, VOCALIS AI:n julkaisupäällikkö · Perustuu yli 250 käyttöönottoon vuodesta 2023

Melun todellisuus kenttäpuheluissa

62 % B2B-puheluista Ranskan pk-yrityksille tulee meluisista ympäristöistä (auto, työmaa, kauppa) AFRC 2024:n mukaan. Silti suurin osa julkisista ASR-vertailuista — Whisper, Conformer, Deepgram — mitataan LibriSpeechissä, joka on studio-olosuhteissa luettu corpus.

Tulos: laboratoriossa ilmoitettu WER 4 % voi nousta 25 %:iin tuotannossa. Ääniagentin, joka väittää kattavansa käsityöalan tai logistiikkakuljetukset, on todistettava kenttälujuutensa — ei laboratoriolukujaan.

Koko ASR-prosessi: 6 vaihetta, 6 pudotuspistettä

Vaihe	Rooli	Yleinen pudotuspiste
Mikrofonin tallennus	Opus 16 kHz -koodaus	Ylikuormitus impulsivisessa melussa
SIP-siirto	RTP-paketit	4G-pakettihävikki, jitter
VAD	Äänen/hiljaisuuden tunnistus	Vääriä positiivisia tuulen, moottorin vuoksi
Melunpoisto (DNN)	Lisämelun poistaminen	Spektraalit ja robottimainen ääni
Äänen normalisointi	Mukautuva AGC	Liiallinen dynaaminen pakkaus
ASR-purku	Ääni→teksti -kartoitus	Korostus, cocktail-juhlat

Jokainen vaihe on säädettävissä. VOCALIS on optimoitu 6 linkkiä kenttäpalautteen perusteella asiakkailtamme rakennusalalta ja kuljettajilta.

WER-vertailu 2026 kuudella meluisalla corpusilla

Reaaliaikaiset p50-mittaukset, maaliskuu 2026:

Corpus	Keskimääräinen SNR	VOCALIS ASR	Whisper-L-v3	Deepgram Nova-2
Puhdas studio (ref)	45 dB	3,8 %	4,2 %	4,6 %
Avoin toimisto	28 dB	6,1 %	7,9 %	8,3 %
Auto moottoritiellä	18 dB	9,4 %	14,7 %	15,2 %
Ylikuormitettu 4G-mobiili	14 dB	11,2 %	19,8 %	20,4 %
Asema / lentokenttä	12 dB	13,6 %	22,1 %	23,0 %
Työmaa BTP	8 dB	18,0 %	27,4 %	28,9 %

Menetelmien lähteet: Interspeech 2023 ASR Noise Track, ACL Anthology meluvertailut.

Miksi VOCALIS voittaa varastomallit ~35 %:lla

1. Fine-tuning 4 200 tuntia ranskalaista meluista corpusia

Whisper-mallit on esikoulutettu 680 000 tunnin ajan — mutta pääasiassa englanniksi ja studio-olosuhteissa. VOCALIS lisää LoRA-fine-tuning -kerroksen omistettuun ranskalaiseen meluiseen corpusiin, joka sisältää anonymisoituja todellisia puheluja, lisättyä synteettistä melua (autot, tuuli, juhlat) ja alueellisia aksentteja.

2. Monikerroksinen VAD Silero + prosodinen SLM

SLM (Pieni kielimalli) paikallisesti tunnistaa vuoron loput laskevan intonaation avulla — kun taas Silero tarkastelee vain energiaa. Yhdistelmä vähentää 38 % vääriä positiivisia barge-in -tapahtumia kuljettajacorpuksissa.

3. DNN-pohjainen äänen parannus

VOCALIS soveltaa melunpoistoa vain, jos SNR on alle 15 dB. Yli tämän, raakasignaali siirtyy suoraan — välttäen artefakteja, jotka heikentävät prosodiaa. Tämä hienovaraisuus tekee pinostamme yhteensopivan tunneälyn kanssa.

4. 4G/5G/VoIP-verkon mukauttaminen

Opus-kooderi (RFC 6716) sisältää vahvan pakettihävikkipeiton. VOCALIS yhdistää Opus + FEC + mukautuvan jitter-puskurin, joka on optimoitu SIP/RTP (RFC 3550):lle.

Ihmisen varajärjestelmä: todellinen kestävyys

Yksikään ASR ei ole täydellinen. VOCALIS toteuttaa siirron laukaisimen, joka perustuu:

ASR:n luottamusaste alle 0,4 kahdella peräkkäisellä vuorolla.
Äänifrustraation tunnistus (katso tunne-moduuli).
Ilmaiseen pyyntöön ("anna minulle ihminen").
Toistuva aikakatkaisu kielivalinnassa.

Yhteys — havaittu aikomus, keskustelun yhteenveto, CRM-historia — siirretään neuvonantajalle webhookin kautta <300 ms:ssa.

Toimialat, joissa ASR:n kestävyys on kriittistä

Käsityöläiset ja valmistustyöpajat — puhelut työpajasta.
Rakennusyritykset BTP — meluisat työmaat.
Taksit ja VTC — tie + matkustajat.
Autokorjaamot — kompressorit, työpaja.
Ravintolat ja baarit — salin hälinä.

Näissä tapauksissa ASR:n kestävyys on edellytys, ei bonus. Siksi VOCALIS on investoinut omistettuun T&K-ohjelmaan, joka on linjassa ääniagentin Python-teknisen arkkitehtuurin kanssa.

Yhteensopivuus ja merkit

GDPR · AI Act Art. 50 · AWS EU · ISO 27001 (käynnissä). Meluisia tallenteita ei koskaan säilytetä yli 30 päivää (säilytyskäytäntö) ja fine-tuning käyttää vain anonymisoituja tietoja, joihin on saatu nimenomainen suostumus.

ASR-insinöörin FAQ

Mikä on WER ja mikä kynnys on hyväksyttävä tuotannossa?

Word Error Rate mittaa väärin transkriptoitujen sanojen prosenttiosuuden. Hiljaisessa studiossa huipputason ASR:t (Whisper-large, Conformer) saavuttavat 3-5 %. B2B-tuotannossa WER < 12 % on hyväksyttävä. Yli 20 %:n kohdalla ääniagentin on siirryttävä ihmisen varajärjestelmään.

Kuinka VOCALIS:n monikerroksinen VAD toimii?

VOCALIS yhdistää Silero VAD:n (taajuus) + prosodisen SLM:n, joka tunnistaa vuoron loput laskevan intonaation avulla. Tämä kaksinkertainen suodatin vähentää vääriä positiivisia barge-in -tapahtumia 38 % verrattuna yksikerroksiseen VAD:iin, mikä on ratkaisevaa kuljettajille tai käsityöläisille, joilla on luonnollisia pitkiä taukoja.

Hallitaanko VOCALIS ASR:ssa ranskalaisia alueellisia aksentteja?

Kyllä. Malli on fine-tunattu 4 200 tunnin ranskankieliselle corpusille, joka sisältää eteläisiä, belgialaisia, sveitsiläisiä, quebecilaisia ja afrikkalaisia ranskankielisiä aksentteja. Keskimääräinen WER on 8,4 % verrattuna 14,7 %:iin standardin Whisper-large-v3 eteläisellä aksentilla (sisäinen vertailu, maaliskuu 2026).

Mitä järjestelmä tekee, jos ASR on täysin heikentynyt?

Yli 3 peräkkäisen ymmärtämisvirheen tai luottamusasteen <0,4 kohdalla agentti laukaisee ennakkoon tallennetun anteeksipyynnön ja ehdottaa siirtoa ihmisen neuvonantajalle. Yhteys (havaittu aikomus, CRM, yhteenveto) siirretään automaattisesti webhookin kautta.

Vaikuttaako neuroverkkopohjainen melunpoisto ihmisen ääneen?

DNN-pohjaiset äänen parannukset (DNS Challenge Interspeech 2023) voivat tuoda esiin spektraalisia artefakteja. VOCALIS käyttää konservatiivista mallia (SNR-aware), joka vähentää melua vain, jos SNR on <15 dB, säilyttäen luonnollisuuden normaaleissa ympäristöissä.

Mikä on WER, joka mitataan heikentyneellä 4G-yhteydellä?

Omistettuun corpus 120 liikkuvasta 4G-puhelusta (juna, auto) WER VOCALIS = 11,2 % verrattuna 19,8 %:iin standardin Whisper ilman esikäsittelyä. Ero johtuu pakettihävikkipeitosta + mukautuvasta äänen normalisoinnista.

Onko työmaalta BTP:ltä tulevat puhelut mahdollisia?

Kyllä, varauksin. BTP-corpuksessa (vasara-pora, liikenne) WER saavuttaa 18 % — yli 12 %:n kynnyksen. VOCALIS suosittelee silloin flow builderia suljetuilla kysymyksillä + toistuvalla vahvistuksella tai ihmisen varajärjestelmää heti 2 virheen kohdalla.

Katso myös: arkkitehtuurimme sub-50 ms voice2voice ja B2B-tunneälyn lähestymistapamme.

Envie de tester VOCALIS AI ?

Réservez une démo personnalisée et découvrez en direct comment notre IA vocale émotionnelle transforme vos conversations.

Réserver une démo