Von dem Team von VOCALIS AI · Validiert von Laurent Duplat, Direktor der Veröffentlichung von VOCALIS AI · Basierend auf über 250 Einsätzen seit 2023
Die Realität des Lärms bei Vor-Ort-Anrufen
62 % der B2B-Anrufe an französische KMUs stammen aus lauten Umgebungen (Auto, Baustelle, Geschäft) laut der Beobachtungsstelle AFRC 2024. Dennoch werden die meisten öffentlichen ASR-Benchmarks — Whisper, Conformer, Deepgram — auf LibriSpeech gemessen, einem Korpus aus Studioaufnahmen.
Ergebnis: Der im Labor angegebene WER von 4 % kann in der Produktion auf 25 % steigen. Ein Sprachagent, der behauptet, die Handwerksproduktion oder Logistiktransporte abzudecken, muss daher seine Robustheit vor Ort beweisen — nicht seine Laborzahlen.
Die komplette ASR-Kette: 6 Schritte, 6 häufige Probleme
| Schritt | Rolle | Häufiges Problem |
|---|---|---|
| Mikrofonaufnahme | Opus 16 kHz Kodierung | Sättigung bei impulsivem Lärm |
| SIP-Transport | RTP-Pakete | Paketverlust 4G, Jitter |
| VAD | Sprach-/Stilleerkennung | Falsch-positive bei Wind, Motor |
| Denoising (DNN) | Entfernung von Zusatzgeräuschen | Spektrale Artefakte, robotisierte Stimme |
| Volumenanpassung | Adaptive AGC | Übermäßige dynamische Kompression |
| ASR-Dekoder | Mapping Audio→Text | Akzent, Cocktailparty |
Jeder Schritt ist anpassbar. VOCALIS hat die 6 Glieder basierend auf Rückmeldungen von unseren Bau-Kunden und Fahrern optimiert.
Benchmark WER 2026 auf 6 verrauschten Korpora
Messungen p50 unter realen Bedingungen, März 2026:
| Korpus | Durchschnittliches SNR | VOCALIS ASR | Whisper-L-v3 | Deepgram Nova-2 |
|---|---|---|---|---|
| Sauberes Studio (ref) | 45 dB | 3,8 % | 4,2 % | 4,6 % |
| Offenes Büro | 28 dB | 6,1 % | 7,9 % | 8,3 % |
| Auto auf der Autobahn | 18 dB | 9,4 % | 14,7 % | 15,2 % |
| Überlastetes mobiles 4G | 14 dB | 11,2 % | 19,8 % | 20,4 % |
| Bahnhof / Flughafen | 12 dB | 13,6 % | 22,1 % | 23,0 % |
| Baustelle BTP | 8 dB | 18,0 % | 27,4 % | 28,9 % |
Methodologiequellen: Interspeech 2023 ASR Noise Track, ACL Anthology Noise Benchmarks.
Warum VOCALIS die Standardmodelle um ~35 % übertrifft
1. Feinabstimmung auf 4.200 Stunden verrauschten französischen Korpus
Die Modelle von Whisper sind auf 680.000 Stunden vortrainiert — aber hauptsächlich auf Englisch und im Studio. VOCALIS fügt eine Feinabstimmungsschicht LoRA auf einem proprietären Korpus von verrauschten französischen Daten hinzu, einschließlich anonymisierter echter Anrufe, augmentiertem synthetischen Lärm (Autos, Wind, Feiern) und regionalen Akzenten.
2. Mehrschichtiges VAD Silero + prosodisches SLM
Das SLM (Small Language Model) erkennt das Ende eines Gesprächs durch abfallende Intonation — während Silero nur die Energie betrachtet. Die Kombination reduziert die falsch-positiven Barge-ins um 38 % auf den Korpora von Fahrern.
3. Konservative DNN-basierte Sprachverbesserung
VOCALIS wendet das Denoising nur bei einem SNR unter 15 dB an. Darüber hinaus wird das Rohsignal direkt weitergeleitet — um Artefakte zu vermeiden, die die Prosodie beeinträchtigen. Diese Feinheit macht unseren Stack kompatibel mit der emotionalen Intelligenz.
4. Anpassung an 4G/5G/VoIP-Netzwerke
Der Opus-Codec (RFC 6716) beinhaltet eine robuste Paketverlustverdeckung. VOCALIS kombiniert Opus + FEC + adaptiven Jitter-Puffer, optimiert für SIP/RTP (RFC 3550).
Menschlicher Fallback: die wahre Resilienz
Keine ASR ist perfekt. VOCALIS implementiert einen Übergangsmechanismus basierend auf:
- ASR-Vertrauensscore unter 0,4 bei 2 aufeinanderfolgenden Runden.
- Erkennung von sprachlicher Frustration (siehe emotionales Modul).
- Explizite Anfrage ("Bitte verbinden Sie mich mit einem Menschen").
- Wiederholte Zeitüberschreitung bei Sprachauswahl.
Der Kontext — erkannte Absicht, konversationelle Zusammenfassung, CRM-Historie — wird innerhalb von <300 ms an den Berater über einen Webhook übermittelt.
Sektoren, in denen die Robustheit der ASR entscheidend ist
- Handwerker und Werkstätten — Anrufe aus der Werkstatt.
- Bauunternehmen — laute Baustellen.
- Taxis und VTC — Straße + Passagiere.
- Autowerkstätten — Kompressoren, Werkstatt.
- Restaurants und Bars — Geräuschkulisse im Raum.
Für diese Fälle ist die Robustheit der ASR eine Voraussetzung, kein Bonus. Deshalb hat VOCALIS in ein dediziertes F&E-Programm investiert, das mit unserer technischen Architektur des Sprach-IA-Chatbots in Python übereinstimmt.
Compliance und Abzeichen
GDPR · AI Act Art. 50 · AWS EU · ISO 27001 (in Bearbeitung). Die verrauschten Aufzeichnungen werden niemals länger als 30 Tage gespeichert (Aufbewahrungsrichtlinie) und die Feinabstimmung verwendet ausschließlich anonymisierte Daten mit ausdrücklicher Zustimmung.
FAQ zur ASR-Engineering
Was ist der WER und welcher Schwellenwert ist in der Produktion akzeptabel?
Die Word Error Rate misst den Prozentsatz falsch transkribierter Wörter. In einem ruhigen Studio erreichen die führenden ASR (Whisper-large, Conformer) 3-5 %. In der B2B-Produktion wird ein WER < 12 % als akzeptabel angesehen. Über 20 % muss der Sprachagent auf menschlichen Fallback umschalten.
Wie funktioniert das mehrschichtige VAD bei VOCALIS?
VOCALIS kombiniert Silero VAD (Frequenz) + ein prosodisches SLM, das das Ende eines Gesprächs durch abfallende Intonation erkennt. Dieser doppelte Filter reduziert die falsch-positiven Barge-ins um 38 % im Vergleich zu einem einlagigen VAD, was entscheidend für Fahrer oder Handwerker ist, die natürliche lange Pausen haben.
Verarbeitet die VOCALIS ASR regionale französische Akzente?
Ja. Das Modell ist auf einem Korpus von 4.200 Stunden Französisch feinabgestimmt, einschließlich südeuropäischer, belgischer, schweizerischer, quebecer und afrikanischer französischer Akzente. Durchschnittlicher WER 8,4 % im Vergleich zu 14,7 % für das Standardmodell Whisper-large-v3 bei südeuropäischem Akzent (interner Benchmark, März 2026).
Was passiert im Falle einer vollständig degradierten ASR?
Nach 3 aufeinanderfolgenden Missverständnissen oder einem Vertrauensscore <0,4 löst der Agent eine vorab aufgezeichnete Entschuldigung aus und bietet dann einen Transfer zu einem menschlichen Berater an. Der Kontext (erkannte Absicht, CRM, Zusammenfassung) wird automatisch über einen Webhook übermittelt.
Schädigt das neuronale Denoising die menschliche Stimme?
DNN-basierte Sprachverbesserungen (DNS Challenge Interspeech 2023) können spektrale Artefakte einführen. VOCALIS verwendet ein konservatives Modell (SNR-aware), das Lärm nur dann reduziert, wenn das SNR <15 dB beträgt, und die Natürlichkeit in normalen Umgebungen bewahrt.
Wie hoch ist der WER, der auf einer verschlechterten 4G-Leitung gemessen wird?
Auf einem proprietären Korpus von 120 4G-Anrufen in Bewegung (Zug, Auto) beträgt der WER von VOCALIS = 11,2 % im Vergleich zu 19,8 % für ein Standard-Wisper ohne Vorverarbeitung. Der Unterschied ergibt sich aus der Paketverlustverdeckung + adaptiven Volumenanpassung.
Sind Anrufe von einer Baustelle BTP machbar?
Ja, mit Vorbehalten. Auf einem BTP-Korpus (Presslufthammer, Verkehr) erreicht der WER 18 % — über dem Schwellenwert von 12 %. VOCALIS empfiehlt dann den Flow Builder mit geschlossenen Fragen + wiederholter Bestätigung oder menschlichem Fallback bei 2 Fehlern.
Siehe auch: unsere Architektur für sub-50 ms voice2voice und unseren Ansatz zur emotionalen B2B-KI.
Envie de tester VOCALIS AI ?
Réservez une démo personnalisée et découvrez en direct comment notre IA vocale émotionnelle transforme vos conversations.
Réserver une démo


