GDPR-konformAI Act konformAWS EUISO 27001 (in Bearbeitung)Bare-metal H100
TL;DR — Die WER (Word Error Rate) in der Industrie steigt von 4 % im Studio auf über 20 % auf Baustellen oder bei überlastetem 4G. Ein produktionsbereiter Sprachagent kombiniert mehrschichtiges VAD, neuronales Denoising (DNS), adaptive Normalisierung und bedingten menschlichen Übergang. Umfassender Benchmark auf 6 verrauschten Korpora 2026.

Von dem Team von VOCALIS AI · Validiert von Laurent Duplat, Direktor der Veröffentlichung von VOCALIS AI · Basierend auf über 250 Einsätzen seit 2023

Die Realität des Lärms bei Vor-Ort-Anrufen

62 % der B2B-Anrufe an französische KMUs stammen aus lauten Umgebungen (Auto, Baustelle, Geschäft) laut der Beobachtungsstelle AFRC 2024. Dennoch werden die meisten öffentlichen ASR-Benchmarks — Whisper, Conformer, Deepgram — auf LibriSpeech gemessen, einem Korpus aus Studioaufnahmen.

Ergebnis: Der im Labor angegebene WER von 4 % kann in der Produktion auf 25 % steigen. Ein Sprachagent, der behauptet, die Handwerksproduktion oder Logistiktransporte abzudecken, muss daher seine Robustheit vor Ort beweisen — nicht seine Laborzahlen.

Die komplette ASR-Kette: 6 Schritte, 6 häufige Probleme

SchrittRolleHäufiges Problem
MikrofonaufnahmeOpus 16 kHz KodierungSättigung bei impulsivem Lärm
SIP-TransportRTP-PaketePaketverlust 4G, Jitter
VADSprach-/StilleerkennungFalsch-positive bei Wind, Motor
Denoising (DNN)Entfernung von ZusatzgeräuschenSpektrale Artefakte, robotisierte Stimme
VolumenanpassungAdaptive AGCÜbermäßige dynamische Kompression
ASR-DekoderMapping Audio→TextAkzent, Cocktailparty

Jeder Schritt ist anpassbar. VOCALIS hat die 6 Glieder basierend auf Rückmeldungen von unseren Bau-Kunden und Fahrern optimiert.

Benchmark WER 2026 auf 6 verrauschten Korpora

Messungen p50 unter realen Bedingungen, März 2026:

KorpusDurchschnittliches SNRVOCALIS ASRWhisper-L-v3Deepgram Nova-2
Sauberes Studio (ref)45 dB3,8 %4,2 %4,6 %
Offenes Büro28 dB6,1 %7,9 %8,3 %
Auto auf der Autobahn18 dB9,4 %14,7 %15,2 %
Überlastetes mobiles 4G14 dB11,2 %19,8 %20,4 %
Bahnhof / Flughafen12 dB13,6 %22,1 %23,0 %
Baustelle BTP8 dB18,0 %27,4 %28,9 %

Methodologiequellen: Interspeech 2023 ASR Noise Track, ACL Anthology Noise Benchmarks.

Warum VOCALIS die Standardmodelle um ~35 % übertrifft

1. Feinabstimmung auf 4.200 Stunden verrauschten französischen Korpus

Die Modelle von Whisper sind auf 680.000 Stunden vortrainiert — aber hauptsächlich auf Englisch und im Studio. VOCALIS fügt eine Feinabstimmungsschicht LoRA auf einem proprietären Korpus von verrauschten französischen Daten hinzu, einschließlich anonymisierter echter Anrufe, augmentiertem synthetischen Lärm (Autos, Wind, Feiern) und regionalen Akzenten.

2. Mehrschichtiges VAD Silero + prosodisches SLM

Das SLM (Small Language Model) erkennt das Ende eines Gesprächs durch abfallende Intonation — während Silero nur die Energie betrachtet. Die Kombination reduziert die falsch-positiven Barge-ins um 38 % auf den Korpora von Fahrern.

3. Konservative DNN-basierte Sprachverbesserung

VOCALIS wendet das Denoising nur bei einem SNR unter 15 dB an. Darüber hinaus wird das Rohsignal direkt weitergeleitet — um Artefakte zu vermeiden, die die Prosodie beeinträchtigen. Diese Feinheit macht unseren Stack kompatibel mit der emotionalen Intelligenz.

4. Anpassung an 4G/5G/VoIP-Netzwerke

Der Opus-Codec (RFC 6716) beinhaltet eine robuste Paketverlustverdeckung. VOCALIS kombiniert Opus + FEC + adaptiven Jitter-Puffer, optimiert für SIP/RTP (RFC 3550).

Menschlicher Fallback: die wahre Resilienz

Keine ASR ist perfekt. VOCALIS implementiert einen Übergangsmechanismus basierend auf:

  • ASR-Vertrauensscore unter 0,4 bei 2 aufeinanderfolgenden Runden.
  • Erkennung von sprachlicher Frustration (siehe emotionales Modul).
  • Explizite Anfrage ("Bitte verbinden Sie mich mit einem Menschen").
  • Wiederholte Zeitüberschreitung bei Sprachauswahl.

Der Kontext — erkannte Absicht, konversationelle Zusammenfassung, CRM-Historie — wird innerhalb von <300 ms an den Berater über einen Webhook übermittelt.

Sektoren, in denen die Robustheit der ASR entscheidend ist

Für diese Fälle ist die Robustheit der ASR eine Voraussetzung, kein Bonus. Deshalb hat VOCALIS in ein dediziertes F&E-Programm investiert, das mit unserer technischen Architektur des Sprach-IA-Chatbots in Python übereinstimmt.

Compliance und Abzeichen

GDPR · AI Act Art. 50 · AWS EU · ISO 27001 (in Bearbeitung). Die verrauschten Aufzeichnungen werden niemals länger als 30 Tage gespeichert (Aufbewahrungsrichtlinie) und die Feinabstimmung verwendet ausschließlich anonymisierte Daten mit ausdrücklicher Zustimmung.

FAQ zur ASR-Engineering

Was ist der WER und welcher Schwellenwert ist in der Produktion akzeptabel?

Die Word Error Rate misst den Prozentsatz falsch transkribierter Wörter. In einem ruhigen Studio erreichen die führenden ASR (Whisper-large, Conformer) 3-5 %. In der B2B-Produktion wird ein WER < 12 % als akzeptabel angesehen. Über 20 % muss der Sprachagent auf menschlichen Fallback umschalten.

Wie funktioniert das mehrschichtige VAD bei VOCALIS?

VOCALIS kombiniert Silero VAD (Frequenz) + ein prosodisches SLM, das das Ende eines Gesprächs durch abfallende Intonation erkennt. Dieser doppelte Filter reduziert die falsch-positiven Barge-ins um 38 % im Vergleich zu einem einlagigen VAD, was entscheidend für Fahrer oder Handwerker ist, die natürliche lange Pausen haben.

Verarbeitet die VOCALIS ASR regionale französische Akzente?

Ja. Das Modell ist auf einem Korpus von 4.200 Stunden Französisch feinabgestimmt, einschließlich südeuropäischer, belgischer, schweizerischer, quebecer und afrikanischer französischer Akzente. Durchschnittlicher WER 8,4 % im Vergleich zu 14,7 % für das Standardmodell Whisper-large-v3 bei südeuropäischem Akzent (interner Benchmark, März 2026).

Was passiert im Falle einer vollständig degradierten ASR?

Nach 3 aufeinanderfolgenden Missverständnissen oder einem Vertrauensscore <0,4 löst der Agent eine vorab aufgezeichnete Entschuldigung aus und bietet dann einen Transfer zu einem menschlichen Berater an. Der Kontext (erkannte Absicht, CRM, Zusammenfassung) wird automatisch über einen Webhook übermittelt.

Schädigt das neuronale Denoising die menschliche Stimme?

DNN-basierte Sprachverbesserungen (DNS Challenge Interspeech 2023) können spektrale Artefakte einführen. VOCALIS verwendet ein konservatives Modell (SNR-aware), das Lärm nur dann reduziert, wenn das SNR <15 dB beträgt, und die Natürlichkeit in normalen Umgebungen bewahrt.

Wie hoch ist der WER, der auf einer verschlechterten 4G-Leitung gemessen wird?

Auf einem proprietären Korpus von 120 4G-Anrufen in Bewegung (Zug, Auto) beträgt der WER von VOCALIS = 11,2 % im Vergleich zu 19,8 % für ein Standard-Wisper ohne Vorverarbeitung. Der Unterschied ergibt sich aus der Paketverlustverdeckung + adaptiven Volumenanpassung.

Sind Anrufe von einer Baustelle BTP machbar?

Ja, mit Vorbehalten. Auf einem BTP-Korpus (Presslufthammer, Verkehr) erreicht der WER 18 % — über dem Schwellenwert von 12 %. VOCALIS empfiehlt dann den Flow Builder mit geschlossenen Fragen + wiederholter Bestätigung oder menschlichem Fallback bei 2 Fehlern.

Siehe auch: unsere Architektur für sub-50 ms voice2voice und unseren Ansatz zur emotionalen B2B-KI.

Teilen in X @

Envie de tester VOCALIS AI ?

Réservez une démo personnalisée et découvrez en direct comment notre IA vocale émotionnelle transforme vos conversations.

Réserver une démo