Wie funktionieren Stimmklonierung und Sprachverarbeitung mit dem VOCALIS KI-Agenten?
Sprachbibliothek, benutzerdefiniertes Klonen und erweiterte Spracheinstellungen.
Die Stimme Ihres Agenten ist seine akustische Identität. Wählen Sie aus einer umfangreichen Bibliothek professioneller Stimmen oder erstellen Sie eine individuelle Stimme anhand einer Aufnahme.
Drei Optionen verfügbar
1. Bibliothek vorhandener Stimmen
Über ElevenLabs und Cartesia erhalten Sie Zugriff auf eine große Auswahl hochwertiger, vorab trainierter Stimmen. Jede Stimme ist in verschiedenen Tonlagen verfügbar: formell, leger, warm, autoritär…
2. Benutzerdefiniertes Stimmenklonen
Erzeugen Sie eine synthetische Stimme, die wie eine echte Person klingt. Die geklonte Stimme kann im Pipeline- und Dualplex-Modus verwendet werden.
| Anbieter | Anforderungen für das Klonen |
|---|---|
| Cartesia | Eine einzelne Audiodatei, mindestens 10 Sekunden lang, nur ein Sprecher, ohne Hintergrundgeräusche |
| ElevenLabs | Mehrere Hörbeispiele, insgesamt mehr als eine Minute, ein einzelner Sprecher, ohne Hintergrundgeräusche |
3. Cartesia Voice Sonic 3 (Neu)
Die Cartesia Sonic 3 TTS-Engine liefert HiFi-Audioqualität mit fortschrittlicher Emotionskontrolle. Sie unterstützt Voice Cloning und SAML-Tags, um Tonhöhe, Intensität und Ausdruckskraft in Echtzeit anzupassen.
Erweiterte Spracheinstellungen
| Einstellung | Strand | Wirkung |
|---|---|---|
| Temperatur | 0.0 – 1.0 | Tiefere Tonlage = stabile, aber weniger ausdrucksstarke Stimme. Höhere Tonlage = dynamischere und kreativere Stimme. |
| Stille vor dem Auflegen | 30-45 Sek | Wartezeit, falls die Gegenseite nicht antwortet, bevor das Gespräch beendet wird. |
| Maximale Gesprächsdauer | 20 – 1200 Sek | Absolute Begrenzung der Gesprächsdauer zur Kostenkontrolle. |
