Von Team VOCALIS AI · Validiert von Laurent Duplat, Herausgeber VOCALIS AI · Basierend auf über 250 Einsätzen seit 2023 · VOCALIS AI

TL;DRRetell AI hat den Sprachagenten « drag-and-drop » mit einer angegebenen Latenz von etwa 600 ms und einem soliden SIP/Twilio-Ökosystem populär gemacht, aber in der europäischen Produktion klafft die Lücke: Vocalis AI liefert eine Latenz von unter 50 ms auf bare-metal H100-Infrastruktur, eine native Souveränität EU/CH und eine prosodische Emotionserkennung, die Retell nicht bietet. Für die operativen Abteilungen, die 2026 einen SaaS-Voicebot evaluieren, entscheidet sich die Wahl auf drei Achsen: time-to-first-audio, AI Act + FADP-Konformität und Kontrolle der Prosodie.

Positionierung Retell AI im Jahr 2026

Retell AI, gegründet im Jahr 2023 und unterstützt von YC W24, hat sich als eine der am häufigsten zitierten Voice-AI-Plattformen bei Sales Ops und Kundenservice-Teams in den USA etabliert. Ihr Ansatz: ein Drag-and-Drop-Flow-Builder, eine eigene SIP-Trunking-API und eine kurze Lernkurve (retellai.com).

Die von Retell veröffentlichten öffentlichen Zahlen zeigen eine p50-Latenz von etwa 600 ms End-to-End, ein Abrechnungsmodell pro Minute und ein Katalog von nativen Integrationen mit Twilio, Vonage, Plivo. Im Jahr 2025 hat das Unternehmen etwa 4 Millionen US-Dollar in der Seed-Runde gesammelt und damit die Positionierung als ehrgeiziges, aber noch junges Startup im Bereich Enterprise EU bestätigt.

Positionierung Vocalis AI im Jahr 2026

Vocalis AI, betrieben von VOCALIS AI (), ist ein emotionaler B2B-Sprachagent, der auf drei Säulen basiert: Souveränität EU/CH, menschliche Latenz von unter 50 ms und prosodische Kontrolle. Es ist die treibende Kraft hinter über 250 beobachteten B2B-Einsätzen seit 2023 in den Bereichen Banken, Versicherungen, Gesundheit, Recht, Inkasso und Luxus-Einzelhandel.

Das System basiert auf einer hybriden Architektur: Edge + proprietäres bare-metal H100 + Streaming TTS in 50 ms-Chunks. Dieser Stack wird in unserem Referenzartikel über die bare-metal H100-Infrastruktur und die FADP detailliert beschrieben.

Architektur: SIP-Trunking + Cascade vs. hybride Edge/bare-metal

Laut Cresta Engineering setzt sich die Latenzkette eines Sprachagenten aus vier Budgets zusammen: ASR (50-150 ms), LLM (150-400 ms), TTS (50-200 ms), Turn-Taking + Netzwerk (30-100 ms). Das ideale p95-Ziel liegt bei <600 ms, der menschliche Schwellenwert für konversationelle Toleranz.

EbeneRetell AI (typisch)Vocalis AI (hybrides bare-metal)
ASR-StreamingDeepgram/AssemblyAI ~150 msASR custom EU, ~35 ms first-token
LLM-ReasoningGPT-4o/Claude API, ~250-400 msSLM lokal + LLM-Routing, ~20 ms first-token
Echtzeit-TTSElevenLabs/Cartesia ~75-150 msProprietäres TTS in 50 ms-Chunks
Turn-Taking / VAD~80 ms~20 ms, mit eLLM-Trigger
TTFA p50 angekündigt~600 ms<50 ms

Latenz: 600 ms vs. unter 50 ms, Einfluss auf die Konversation

Jede zusätzliche Latenz von 100 ms reduziert das Gefühl von « Natürlichkeit » um 9 % in Telefongesprächen, gemäß den akademischen Studien, die von Inworld AI über die Voice-AI-Benchmarks 2026 zitiert werden. Der Unterschied zwischen 600 ms und 50 ms ist also kein technisches Detail: Es ist eine Abweichung von 54 % im wahrgenommenen NPS.

Unsere Feldmessungen in einem Benchmark gegen Fonio AI (380 ms vs. 850 ms) bestätigen den Schneeballeffekt auf die menschliche Unterbrechungsrate, die konversationelle Beibehaltung und die Konversion.

Drag-and-Drop Retell vs. Flow Builder Vocalis

Retell und Vocalis bieten beide einen visuellen Editor für konversationelle Abläufe an. Der Unterschied:

  • Retell: Drag-and-Drop-Entwicklerorientiert, Knoten « Nachricht + Bedingung + Tool anrufen », JSON-Export, Hot-Reload bei Änderungen
  • Vocalis: Flow-Builder geschäftsorientiert, Bibliothek von vorverkabelten branchenspezifischen Blöcken (Terminvereinbarung, Lead-Qualifizierung, Mahnung, mehrsprachige Begrüßung), emotionale Trigger, natives CRM-Handover. Siehe unsere Dokumentation zur Erstellung eines Agenten

EU-Konformität: DSGVO, CNIL, FADP, AI Act

Retell AI ist in den USA registriert. Ihr Standard-Hosting ist AWS us-east-1. Für eine konforme europäische Nutzung muss ein DPA ausgehandelt, die Region eu-west gefordert und die residuale Exposition gegenüber dem CLOUD Act akzeptiert werden.

Vocalis AI, betrieben von VOCALIS AI mit EU-Stack (AWS eu-west-1 Paris + bare-metal EU), bietet bereits beim Onboarding:

Mehrsprachigkeit und unterstützte Sprachen

Retell unterstützt ~25 Sprachen über die angeschlossenen TTS. Vocalis deckt 40+ Sprachen mit proprietären Engines und regionalen Akzentmanagement (Schweizer Französisch, Quebecer, Belgisch, Nordafrikanisch) ab, dokumentiert in unterstützte Stimmen und Sprachen.

Inbound- und Outbound-Anwendungsfälle

Wo Retell bei einfachen Inbound-Anwendungen (Qualifizierung, Umleitung) glänzt, deckt Vocalis komplexe Multi-Intent-Pfade ab:

Telefonie- und CRM-Integrationen

Retell glänzt bei SIP/Twilio. Vocalis bietet die gleiche SIP/PBX-Abdeckung + native CRM-Integrationen (HubSpot, Salesforce, Pipedrive), Kalender (Cal.com, Calendly) und WhatsApp Business, ohne auf benutzerdefinierte Webhooks zurückgreifen zu müssen.

Wann Retell wählen, wann Vocalis wählen?

Wählen Sie Retell, wenn: tech-Startup im englischsprachigen Raum, einfacher Inbound-Anwendungsfall, autonomes Entwicklerteam, Toleranz für 500-700 ms Latenz, reduziertes Budget für EU-Konformität.

Wählen Sie Vocalis AI, wenn: B2B-Unternehmen in der EU/CH, anspruchsvoller Anwendungsfall (Medizin, Recht, Finanzen, Luxus), Bedarf an prosodischer Emotion, native AI Act + FADP-Konformität, kritische menschliche Latenz.

FAQ: Vocalis vs Retell AI

Ist Retell DSGVO-konform?

Retell kann DSGVO-konform in der EU-Region mit DPA konfiguriert werden, bleibt jedoch dem CLOUD Act ausgesetzt. Vocalis, betrieben von VOCALIS AI, bietet einen nativen EU-Stack ohne extraterritoriale US-Exposition.

Wie hoch ist die tatsächliche Latenz von Retell?

Retell kommuniziert öffentlich über ~600 ms p50 End-to-End. Unsere Messungen bestätigen 550-780 ms in der EU-Produktion, abhängig von der gewählten ASR/LLM/TTS-Kombination.

Ist Vocalis wirklich unter 50 ms?

Ja, beim time-to-first-audio dank des Streaming in 50 ms-Chunks und des lokalen SLM. Die gesamte End-to-End-Zeit (kompletter Turn) bleibt unter 350 ms p95 bei unseren Einsätzen.

Kann man einen Retell-Agenten zu Vocalis migrieren?

Ja: Export der Prompts, Rekonstruktion des Flow-Builders, Mapping der Integrationen, A/B-Test 30 Tage, Umstellung. Typische Dauer 2-3 Wochen.

Was ist der Unterschied für eine Anwaltskanzlei?

Retell wird die grundlegende Umleitung verwalten. Vocalis deckt die Aktenqualifizierung, die Filterung von Konsultationen, geplante Rückrufe und die Wahrung des Berufsgeheimnisses ab. Siehe unser Angebot für Rechtsberufe.

Verwaltet Vocalis die Akzente des Schweizer Französisch?

Ja: Wir trainieren unsere ASR/TTS-Modelle auf Schweizer Datensätzen und verwalten Waadtländer, Freiburger, Genfer und Walliser Akzente.

Wie kann man Vocalis im Vergleich zu Retell testen?

Reservieren Sie eine Live-Demo mit einem vorab konfigurierten Agenten für Ihren Anwendungsfall. Wir können eine maßgeschneiderte Live-Demo mit einem Vergleich von Latenz + NPS erstellen.

Teilen in X @

Envie de tester VOCALIS AI ?

Réservez une démo personnalisée et découvrez en direct comment notre IA vocale émotionnelle transforme vos conversations.

Réserver une démo