TL;DRRetell AI hat den Sprachagenten « drag-and-drop » mit einer angegebenen Latenz von etwa 600 ms und einem soliden SIP/Twilio-Ökosystem populär gemacht, aber in der europäischen Produktion klafft die Lücke: Vocalis AI liefert eine Latenz von unter 50 ms auf bare-metal H100-Infrastruktur, eine native Souveränität EU/CH und eine prosodische Emotionserkennung, die Retell nicht bietet. Für die operativen Abteilungen, die 2026 einen SaaS-Voicebot evaluieren, entscheidet sich die Wahl auf drei Achsen: time-to-first-audio, AI Act + FADP-Konformität und Kontrolle der Prosodie.
Positionierung Retell AI im Jahr 2026
Retell AI, gegründet im Jahr 2023 und unterstützt von YC W24, hat sich als eine der am häufigsten zitierten Voice-AI-Plattformen bei Sales Ops und Kundenservice-Teams in den USA etabliert. Ihr Ansatz: ein Drag-and-Drop-Flow-Builder, eine eigene SIP-Trunking-API und eine kurze Lernkurve (retellai.com).
Die von Retell veröffentlichten öffentlichen Zahlen zeigen eine p50-Latenz von etwa 600 ms End-to-End, ein Abrechnungsmodell pro Minute und ein Katalog von nativen Integrationen mit Twilio, Vonage, Plivo. Im Jahr 2025 hat das Unternehmen etwa 4 Millionen US-Dollar in der Seed-Runde gesammelt und damit die Positionierung als ehrgeiziges, aber noch junges Startup im Bereich Enterprise EU bestätigt.
Positionierung Vocalis AI im Jahr 2026
Vocalis AI, betrieben von VOCALIS AI (), ist ein emotionaler B2B-Sprachagent, der auf drei Säulen basiert: Souveränität EU/CH, menschliche Latenz von unter 50 ms und prosodische Kontrolle. Es ist die treibende Kraft hinter über 250 beobachteten B2B-Einsätzen seit 2023 in den Bereichen Banken, Versicherungen, Gesundheit, Recht, Inkasso und Luxus-Einzelhandel.
Das System basiert auf einer hybriden Architektur: Edge + proprietäres bare-metal H100 + Streaming TTS in 50 ms-Chunks. Dieser Stack wird in unserem Referenzartikel über die bare-metal H100-Infrastruktur und die FADP detailliert beschrieben.
Architektur: SIP-Trunking + Cascade vs. hybride Edge/bare-metal
Laut Cresta Engineering setzt sich die Latenzkette eines Sprachagenten aus vier Budgets zusammen: ASR (50-150 ms), LLM (150-400 ms), TTS (50-200 ms), Turn-Taking + Netzwerk (30-100 ms). Das ideale p95-Ziel liegt bei <600 ms, der menschliche Schwellenwert für konversationelle Toleranz.
| Ebene | Retell AI (typisch) | Vocalis AI (hybrides bare-metal) |
|---|---|---|
| ASR-Streaming | Deepgram/AssemblyAI ~150 ms | ASR custom EU, ~35 ms first-token |
| LLM-Reasoning | GPT-4o/Claude API, ~250-400 ms | SLM lokal + LLM-Routing, ~20 ms first-token |
| Echtzeit-TTS | ElevenLabs/Cartesia ~75-150 ms | Proprietäres TTS in 50 ms-Chunks |
| Turn-Taking / VAD | ~80 ms | ~20 ms, mit eLLM-Trigger |
| TTFA p50 angekündigt | ~600 ms | <50 ms |
Latenz: 600 ms vs. unter 50 ms, Einfluss auf die Konversation
Jede zusätzliche Latenz von 100 ms reduziert das Gefühl von « Natürlichkeit » um 9 % in Telefongesprächen, gemäß den akademischen Studien, die von Inworld AI über die Voice-AI-Benchmarks 2026 zitiert werden. Der Unterschied zwischen 600 ms und 50 ms ist also kein technisches Detail: Es ist eine Abweichung von 54 % im wahrgenommenen NPS.
Unsere Feldmessungen in einem Benchmark gegen Fonio AI (380 ms vs. 850 ms) bestätigen den Schneeballeffekt auf die menschliche Unterbrechungsrate, die konversationelle Beibehaltung und die Konversion.
Drag-and-Drop Retell vs. Flow Builder Vocalis
Retell und Vocalis bieten beide einen visuellen Editor für konversationelle Abläufe an. Der Unterschied:
- Retell: Drag-and-Drop-Entwicklerorientiert, Knoten « Nachricht + Bedingung + Tool anrufen », JSON-Export, Hot-Reload bei Änderungen
- Vocalis: Flow-Builder geschäftsorientiert, Bibliothek von vorverkabelten branchenspezifischen Blöcken (Terminvereinbarung, Lead-Qualifizierung, Mahnung, mehrsprachige Begrüßung), emotionale Trigger, natives CRM-Handover. Siehe unsere Dokumentation zur Erstellung eines Agenten
EU-Konformität: DSGVO, CNIL, FADP, AI Act
Retell AI ist in den USA registriert. Ihr Standard-Hosting ist AWS us-east-1. Für eine konforme europäische Nutzung muss ein DPA ausgehandelt, die Region eu-west gefordert und die residuale Exposition gegenüber dem CLOUD Act akzeptiert werden.
Vocalis AI, betrieben von VOCALIS AI mit EU-Stack (AWS eu-west-1 Paris + bare-metal EU), bietet bereits beim Onboarding:
- Unterzeichnetes DPA, das die Besonderheit der biometrischen Sprachdaten integriert (DSGVO Art. 9)
- Konformität mit AI Act Art. 50 zur Transparenz des Sprachagenten (siehe unseren Leitfaden Verpflichtungen Artikel 50 August 2026)
- Kompatibilität mit nLPD/FADP Schweiz (siehe FADP und Sprach-KI: Konformität für Banken, Kanzleien, KMU)
- Empfehlungen der CNIL eingehalten (CNIL zur Entwicklung von KI-Systemen)
Mehrsprachigkeit und unterstützte Sprachen
Retell unterstützt ~25 Sprachen über die angeschlossenen TTS. Vocalis deckt 40+ Sprachen mit proprietären Engines und regionalen Akzentmanagement (Schweizer Französisch, Quebecer, Belgisch, Nordafrikanisch) ab, dokumentiert in unterstützte Stimmen und Sprachen.
Inbound- und Outbound-Anwendungsfälle
Wo Retell bei einfachen Inbound-Anwendungen (Qualifizierung, Umleitung) glänzt, deckt Vocalis komplexe Multi-Intent-Pfade ab:
- Medizinischer Inbound: Terminvereinbarung mit mehreren Praktikern, Verwaltung von Wartelisten (unser Angebot für Arztpraxen und Krankenhäuser)
- Rechtlicher Inbound: Filterung von Konsultationen, Qualifizierung von Akten, geplante Rückrufe (Angebot für Rechtsberufe)
- Outbound Inkasso: freundliche Mahnung mit empathischem Ton, Zahlungsversprechen, Überprüfung der Konformität mit CRC
- Outbound Vertrieb: Lead-Qualifizierung, Terminvereinbarung für den Vertrieb, Follow-up nach der Demo (Generative KI für Lead-Generierung)
Telefonie- und CRM-Integrationen
Retell glänzt bei SIP/Twilio. Vocalis bietet die gleiche SIP/PBX-Abdeckung + native CRM-Integrationen (HubSpot, Salesforce, Pipedrive), Kalender (Cal.com, Calendly) und WhatsApp Business, ohne auf benutzerdefinierte Webhooks zurückgreifen zu müssen.
Wann Retell wählen, wann Vocalis wählen?
Wählen Sie Retell, wenn: tech-Startup im englischsprachigen Raum, einfacher Inbound-Anwendungsfall, autonomes Entwicklerteam, Toleranz für 500-700 ms Latenz, reduziertes Budget für EU-Konformität.
Wählen Sie Vocalis AI, wenn: B2B-Unternehmen in der EU/CH, anspruchsvoller Anwendungsfall (Medizin, Recht, Finanzen, Luxus), Bedarf an prosodischer Emotion, native AI Act + FADP-Konformität, kritische menschliche Latenz.
FAQ: Vocalis vs Retell AI
Ist Retell DSGVO-konform?
Retell kann DSGVO-konform in der EU-Region mit DPA konfiguriert werden, bleibt jedoch dem CLOUD Act ausgesetzt. Vocalis, betrieben von VOCALIS AI, bietet einen nativen EU-Stack ohne extraterritoriale US-Exposition.
Wie hoch ist die tatsächliche Latenz von Retell?
Retell kommuniziert öffentlich über ~600 ms p50 End-to-End. Unsere Messungen bestätigen 550-780 ms in der EU-Produktion, abhängig von der gewählten ASR/LLM/TTS-Kombination.
Ist Vocalis wirklich unter 50 ms?
Ja, beim time-to-first-audio dank des Streaming in 50 ms-Chunks und des lokalen SLM. Die gesamte End-to-End-Zeit (kompletter Turn) bleibt unter 350 ms p95 bei unseren Einsätzen.
Kann man einen Retell-Agenten zu Vocalis migrieren?
Ja: Export der Prompts, Rekonstruktion des Flow-Builders, Mapping der Integrationen, A/B-Test 30 Tage, Umstellung. Typische Dauer 2-3 Wochen.
Was ist der Unterschied für eine Anwaltskanzlei?
Retell wird die grundlegende Umleitung verwalten. Vocalis deckt die Aktenqualifizierung, die Filterung von Konsultationen, geplante Rückrufe und die Wahrung des Berufsgeheimnisses ab. Siehe unser Angebot für Rechtsberufe.
Verwaltet Vocalis die Akzente des Schweizer Französisch?
Ja: Wir trainieren unsere ASR/TTS-Modelle auf Schweizer Datensätzen und verwalten Waadtländer, Freiburger, Genfer und Walliser Akzente.
Wie kann man Vocalis im Vergleich zu Retell testen?
Reservieren Sie eine Live-Demo mit einem vorab konfigurierten Agenten für Ihren Anwendungsfall. Wir können eine maßgeschneiderte Live-Demo mit einem Vergleich von Latenz + NPS erstellen.
Envie de tester VOCALIS AI ?
Réservez une démo personnalisée et découvrez en direct comment notre IA vocale émotionnelle transforme vos conversations.
Réserver une démo


