Vapi Voice AI Review: Eine umfassende Analyse und wichtige Erkenntnisse

Kaloyan Yankulov Portrait
Kalo Y.
Vapi AI Review Thumbnail
Link Icon

KI-Gespräche sind heute überall zu finden. Die Technologie hat viel Potenzial, aber sie ist nicht perfekt. Voicebots können verzögern, bei Unterbrechungen Probleme haben oder mitten im Gespräch völlig vom Thema abkommen.

Vapi (auch bekannt als Vapi AI) will das ändern. Damit bekommst du mehr Kontrolle darüber, wie Sprachassistenten funktionieren, und kannst einige der größten Herausforderungen leichter umgehen.

Aus meiner Erfahrung verbessert Vapi Gespräche auf viele Arten. Allerdings bringt das Tool auch eigene Herausforderungen mit. In diesem Vapi-Test zeige ich dir meine praktischen Erkenntnisse, damit du entscheiden kannst, ob Vapi zu dir passt.

Inhaltsübersicht
arrow

Was ist Vapi AI?

Vapi ist eine entwicklerfreundliche Voice-AI-Plattform, die dir dabei hilft, ausgefeilte Sprachassistenten zu erstellen, zu testen und bereitzustellen. Sie bietet eine umfassende Suite an Tools, darunter eine leistungsstarke Voice-API (daher auch der Name Vapi), ein intuitives Dashboard und jede Menge Anpassungsmöglichkeiten. Mit Vapi kannst du Sprach-Apps schnell auf den Markt bringen, die natürliche, menschliche Gespräche simulieren.

Obwohl Vapi hauptsächlich als Programmier-Tool vermarktet wird, gibt es auch ein voll ausgestattetes No-Code-Interface (UI). So können Marketing-Spezialisten und andere Nicht-Techniker vollständig funktionierende KI-Sprachassistenten bauen, ohne die Entwickler im Team zu stören.

Einige der Funktionen, die Vapi im Bereich Voicebots besonders machen, sind:

  • Schnellere Antwortzeiten: Dank Latenz-Optimierungen wie besserer Verarbeitung, intelligentem Daten-Caching und flüssigem Audio-Streaming können Vapi-Assistenten schneller reagieren als viele andere Voicebots auf dem Markt.

  • Natürlicher Gesprächsfluss: Deine Assistenten können jetzt pausieren, wenn du sie unterbrichst, und sind höflich genug, dir nicht ins Wort zu fallen. Das ist ein großer Fortschritt gegenüber Konkurrenten wie Synthflow.

  • Unschlagbare Skalierbarkeit: Vapi kann mehr als 1 Million gleichzeitige Anrufe verarbeiten und eignet sich somit für Unternehmen jeder Größe.

  • Unterstützung für über 100 Sprachen: Mit Vapi baust du Voice Agents, die die Sprachen deiner Nutzer sprechen – darunter Englisch, Spanisch, Französisch, Deutsch, Hindi, Portugiesisch und viele mehr.

  • Erweiterte Funktionen für Entwickler: Du kannst deinen Sprachassistenten mit eigenen Tools ausstatten, die Aufgaben wie Terminbuchungen, Informationsabfragen und das Ausfüllen von Formularen übernehmen.

  • Native Integration mit Make: Verbinde deine Make-Szenarien und löse sie direkt während Vapi-Sprachgesprächen aus.

  • Erweiterte Analysen mit Custom Boards: Baue visuelle Dashboards mit Einblicken in Echtzeit, etwa für Sales und Conversion-Tracking, ROI-Analysen sowie Performance- und Qualitätsmetriken.

  • Automatisierte Auswertungen: Teste deine KI-Agenten vor der Veröffentlichung auf ihr erwartetes Verhalten.

  • Interface-Workflows: Mit einem visuellen Conversation-Flow-Builder kannst du mehrstufige und verzweigte Gesprächslogiken gestalten.

Wie funktioniert Vapi?

Bevor wir unseren ersten Sprachassistenten in Vapi erstellen, schauen wir uns an, wie die Plattform im Hintergrund arbeitet.

Das Besondere an Vapi ist, wie verschiedene Arten von AI-Modellen kombiniert und orchestriert werden, um effiziente, menschenähnliche Gespräche zu ermöglichen:

  1. Hören – Transcriber Modul oder Speech to Text (STT). Wenn du mit deinem Gerät sprichst, wird der Ton aufgenommen und vom Modell transkribiert.

  2. Intelligenz – AI-Modell oder Large Language Model (LLM). Der transkribierte Text wird in einen Prompt eingefügt und durch ein LLM geschickt. Das LLM ist das Herzstück der Intelligenz und simuliert einen echten Menschen.

  3. Sprechen – Text zu Audio. Das LLM gibt den Antworttext aus, der deinem Gerät vorgespielt wird.

Diese Struktur ist nicht einzigartig für Vapi. Sie ist eine gängige Infrastruktur bei allen AI-Voice-Plattformen. Zwei Dinge unterscheiden Vapi jedoch: der umfassende Support für AI-Modelle und die Orchestrierungsmodelle.

Unbegrenzter Support für AI-Modelle

Im Gegensatz zu anderen Plattformen, die nur eine Handvoll Modelle unterstützen, kannst du in Vapi AI-Modelle und Tools nach Belieben wechseln und mit anderen kombinieren, zum Beispiel mit ChatGPT, Claude, ElevenLabs und vielen mehr. Vapi unterstützt nahezu alles – sogar eigene, benutzerdefinierte Modelle können eingebunden werden. So kannst du immer das Modell nutzen, das am besten zu deinen Anforderungen oder Projekten passt.

Das Beste daran ist, dass du externe Accounts nicht selbst verbinden oder betreiben musst, weil Vapi die meisten Modelle nativ unterstützt. Wenn du etwa von OpenAI (dem Standard-LLM) zu Claude wechseln möchtest, kannst du einfach deine Claude-API-Keys angeben – musst es aber nicht zwingend. Ändere einfach das Modell im Vapi-Interface und die Plattform stellt intern auf Claude um.

Orchestrierungsmodelle

Orchestrierungsmodelle sind AI-Erweiterungen, die auf der Kernfunktionalität aufsetzen und Gespräche noch realistischer und involvierender machen. Die Vapi-Plattform ist einzigartig darin, Standard-AI-Modelle mit diesen Add-ons gezielt zu verbessern und zu verfeinern.

Die Modelle sind:

  • Endpointing: Endpointing erkennt, wann du aufgehört hast, mit deinem Sprachassistenten zu sprechen. Statt eines einfachen Timeouts (Standardmethode) verwendet Vapi ein kombiniertes Audio-Text-Modell, um das Ende deines Sprechens zu erkennen. So werden Latenzen reduziert und Gespräche laufen natürlicher ab.
  • Unterbrechungen: Das Erkennen, wenn du dazwischenreden möchtest, sodass der Assistent sofort pausiert und zuhört. Viele AI-Sprachassistenten bieten diese Funktion nicht, was Gespräche oft unnatürlich wirken lässt.
  • Hintergrundgeräusch- und Sprachfilter: Vapi sorgt für klare Gespräche, indem Hintergrundgeräusche herausgefiltert und auf die Stimme des Sprechers fokussiert wird. Das ermöglicht eine präzise Transkription und sorgt für einen reibungslosen Gesprächsablauf – auch in lauten Umgebungen.
  • Backchanneling: Eine fortschrittliche Methode, mit der der Assistent erkennt, ob verbale Fülllaute wie „Ah“, „Ja“, „Uhh“ und ähnliche als Aufforderung für eine Aktion gemeint sind oder einfach nur Füllwörter darstellen.
  • Emotionserkennung: Vapi kann den Tonfall des Sprechers analysieren und Emotionen wie Freude, Frustration oder Dringlichkeit erkennen. So kann der Assistent einfühlsamer und kontextbewusster reagieren.
  • Füllwörter-Injektionen: Lässt deinen Agenten gesprächiger und natürlicher klingen, indem Füllwörter wie „ähm“, „ahh“ und Co. verwendet werden.
vapi orchestration models include endpointing, interruptions, background noise and voice filtering, backchanneling, emotion detection. Image shows how these models are connected, what they do, and the models/providers associated with them

Der Hauptzweck dieser Modelle ist – abgesehen davon, dass deine Assistenten glaubwürdiger wirken – die Verbesserung der Voice-to-Voice-Latenz. „Voice-to-Voice“ bezeichnet die Zeitspanne zwischen dem Ende deiner gesprochenen Worte und dem Moment, in dem das erste gesprochene Antwortstück des AI-Assistenten auf deinem Gerät abgespielt wird. Vapis Ziel ist es, dass der Voice-to-Voice-Flow bei 500-700 ms oder weniger liegt.

Der Unterschied ist im Vergleich zu anderen Apps wie Synthflow wirklich deutlich. Vapi-Assistenten reagieren spürbar schneller und wirken insgesamt agiler als vergleichbare Lösungen.

Vapi zeigt im Dashboard Echtzeit-Latenzschätzungen an, aber meine Tests haben ergeben, dass zu niedrige Werte auch nachteilig sein können. Wenn ich die Latenz unter 750 ms setzte, wirkte mein Assistent unnatürlich schnell und hat mich ständig unterbrochen oder Gespräche überschnitten.

Der ideale Bereich für mich lag zwischen 750 und 900 ms – das fühlte sich wesentlich natürlicher an und ließ einen normalen Gesprächsfluss zu. Die gute Nachricht: Mit Vapis umfangreichen Modelloptionen und dem Smart Endpointing-Feature kannst du dieses Gleichgewicht zwischen Geschwindigkeit und Natürlichkeit ganz einfach abstimmen. Denk daran: Der schnellste Assistent ist nicht immer der beste.

Damit genug der Theorie. Lass uns den ersten Vapi-Assistenten erstellen und schauen, wie er sich schlägt.

Lies hierzu: Synthflow AI Review

Einstieg in Vapi

Das Kernprodukt von Vapi sind die Assistenten. Das sind automatisierte Sprachassistenten (oder Bots), die Anrufe tätigen oder entgegennehmen können. In diesem Test konzentriere ich mich auf die Benutzeroberfläche und darauf, wie ich sie genutzt habe, um eigene Assistenten zu erstellen.

1. So erstellst du deinen ersten Vapi AI Assistenten

Bei Vapi zahlst du nur für die Minuten, die du tatsächlich nutzt. Ähnlich wie bei Synthflow kannst du also eine unbegrenzte Anzahl an Assistenten erstellen. Wenn du den KI-Assistenten allerdings über das Telefon nutzen möchtest, musst du für jeden Assistenten eine eigene Telefonnummer kaufen.

Im ersten Schritt wählst du aus, ob du einen Assistenten von Grund auf neu anlegen möchtest oder eine der vorhandenen Vorlagen nutzen willst. Es stehen nur vier Vorlagen zur Verfügung:

  • Terminplaner: Ein eingehender Assistent für Zahnarztpraxen, der Terminvereinbarungen übernimmt, Fragen beantwortet und Serviceinformationen bereitstellt.
  • Kundensupport: Eine ausgewogene Vorlage, die Einfühlungsvermögen und technisches Know-how für effizienten Support kombiniert.
  • Eingehendes Q/A: Entwickelt für eine Innenarchitektur-Agentur, um detaillierten Produktsupport und Problemlösungen zu bieten.
  • Spiel-NPC (nicht spielbarer Charakter): Ein In-Game-Assistent namens Elenya, der im Spiel Hinweise, Hintergrundinformationen und Einblicke in die Spielwelt liefert.
Creating Vapi Assistant Template

Wenn du neu beim Chat-Prompting bist, kann es ganz schön schwierig sein, deinen ersten Sprachassistenten in Vapi zu erstellen. Noch dazu sind alle Vorlagen für eingehende Assistenten gedacht, sodass es keine Vorlage gibt, wenn du einen ausgehenden (Cold Outreach) Assistenten bauen willst.

2. So konfigurierst du deinen Assistenten

Ich habe mit Riley, dem Terminplaner-Assistenten, angefangen. Der Einrichtungsbildschirm ist grob in drei Hauptbereiche von oben nach unten gegliedert: eine Übersicht zu Kosten und Latenz, Tabs zum Wechseln zwischen den wichtigsten Einstellungen des Assistenten (Modell, Transkription, Stimme usw.) und den eigentlichen Bereich zur Einrichtung mit Formularen, um Prompts einzutragen, Anbieter zu wechseln und so weiter.

Vapi's appointment setter assistant, Riley

Kosten- und Latenzübersicht

Vapi legt großen Wert darauf, schnelle und reaktionsfreudige Assistenten bereitzustellen und dabei klare, transparente Preise zu bieten. Das wird gleich im ersten Bereich der Assistenten-Einrichtung deutlich. Hier siehst du eine Aufschlüsselung von Kosten und Latenz, die sich ändert, sobald du mit verschiedenen Modellen experimentierst. Beachte, dass das nur Schätzwerte sind.

Die Modelle, die du für deinen Assistenten auswählst, können einen riesigen Unterschied bei den Kosten und bei der Latenz machen. Im ersten Beispiel unten habe ich das Echtzeit-Vorschau-Modell GPT-4o von OpenAI gewählt. Das führte zu Kosten von 0,22 $ pro Minute und einer Latenz von 700 ms, was der von Vapi empfohlene Wert ist.

Wenn ich jedoch auf das o1-Vorschau-Modell umschalte, steigt die Latenz deutlich auf 8000 ms (8 Sekunden) an und das ist viel zu langsam für ein natürliches Gespräch. Neben den Modellen kann auch der „Modus“ – also Web oder Telefon (Twilio oder Vonage) – einen Einfluss auf Latenz und Kosten haben. Diese Faktoren im Auge zu behalten ist entscheidend, damit du beim Design deiner Assistenten die optimale Balance zwischen Preis und Performance findest.

Vapi cost breakdown for GPT 4o shows a cost of $0.22/min and a latency of 700 ms
Vapi cost breakdown for GPT o1 preview model shows a cost of $0.19/minute and 8000 ms latency

Modell, Transkription, Stimme und Weitere

Anschließend wählst du aus, welchen Bereich deines Assistenten du konfigurieren möchtest. Die ersten drei Optionen – Modell, Transkription und Stimme – sind essenziell für die Einrichtung deines Assistenten. Die restlichen drei – Funktionen, Erweitert und Analyse – bieten fortgeschrittene Möglichkeiten, die du für deinen ersten Assistenten wahrscheinlich noch nicht brauchst.

Vapi assistant configuration

Lassen wir unseren Assistenten Riley hinter uns und starten von vorn. Ich baue Jade, meinen eigenen Inbound-Assistenten, der die Bestellannahme für unser chinesisches Restaurant, The Golden Wok, übernehmen soll.

Hier sind die Schritte, die wir gehen müssen:

  1. Assistenten erstellen: Wir bauen einen Assistenten und geben ihm Anweisungen, wie er die Anrufe für unser Restaurant behandeln soll.
  2. Telefonnummer besorgen: Wir können entweder eine bestehende Nummer verwenden oder direkt über Vapi eine neue kaufen.
  3. Assistenten zuweisen: Wir ordnen den Assistenten der Telefonnummer zu, damit er beginnen kann, Anrufe entgegenzunehmen.
  4. Anrufen und testen: Zuletzt rufen wir die Nummer an und interagieren mit unserem Assistenten.

3. Auswahl des Modells (LLM) für Deinen Assistenten

Im ersten Kapitel unseres Reviews haben wir die drei zentralen Module der Infrastruktur besprochen: Listen, Intelligence und Speak. Diese Grundbausteine kannst du in den ersten drei Tabs deines Assistenten konfigurieren:

  • Modell (Intelligence) – Das AI-Modell (LLM), das die Antworten verarbeitet und generiert.
  • Transcriber (Listen) – Wandelt das gesprochene Wort in Text um.
  • Voice (Speak) – Verwandelt Text-Antworten in natürlich klingende Sprache.

Wir starten mit dem ersten Tab, dem Modell, in dem du das LLM auswählst und deinen Prompt schreibst.

Das Standardmodell ist OpenAIs GPT 3.5 Turbo, was ein super Einstieg ist, weil es schnelle Reaktionszeiten und ein solides Interaktionserlebnis bietet. Allerdings kannst du nativ aus über 35 Modellen von 16 verschiedenen Anbietern wählen.

Diese riesige Auswahl ist für alle, die nach individueller Anpassung und Flexibilität suchen, ein großer Vorteil – kann auf der anderen Seite aber auch verwirrend wirken und zu Entscheidungsproblemen führen, wenn man mit AI-Modellen noch nicht vertraut ist.

In dieser Hinsicht ist die Plattform eher für Entwickler als für Einsteiger gemacht. Ich hätte mir gewünscht, dass Vapi empfohlene Modelle hervorhebt oder sogar einen In-App-Assistenten bietet, der auf Basis deiner Anforderungen das beste Modell vorschlägt. Immerhin zeigt Vapi das jeweils schnellste und günstigste Modell pro Anbieter an. Stand dieses Reviews ist das für OpenAI der GPT 4o Mini Cluster.

List of LLM models and providers available on Vapi. Breakdown includes latency and pricing for each model.

*OpenAI o1-Modelle sind noch in der Beta-Phase und werden für den produktiven Einsatz nicht empfohlen. System-Prompts und Tool-Calls werden von o1-Modellen aktuell nicht unterstützt und die Latenz ist deutlich höher als bei traditionellen Modellen.

Erweiterte Optionen zur Konfiguration deines KI-Assistenten

Vapi bietet extrem viele Möglichkeiten zur individuellen Anpassung. Deshalb schauen wir uns jetzt ein paar der erweiterten Konfigurationsoptionen an und wie sie funktionieren.

Vapi Advanced Configuration includes configuring Knowledge Base, Temperature, Max Tokens, and Detect Emotion

Wissensdatenbank

In der Modellkonfiguration kannst du eigene Dokumente mit Infos zu bestimmten Themen einbinden, um auf Nutzeranfragen noch genauer und informativer zu antworten. Zum Beispiel kannst du die Speisekarte deines chinesischen Restaurants, Öffnungszeiten und andere relevante Infos importieren. Das läuft alles über ein Vapi-Tool namens Query Tool. Es ist ein interessanter, eher entwicklerorientierter Ansatz. Nachdem du deine Wissensdatenbank ins Query Tool hochgeladen hast, kannst du sie dann direkt im Agenten aufrufen.

Leider unterstützt Vapi, ähnlich wie Synthflow, keine nativen Integrationen mit Support-Diensten wie Zendesk, Helpscout usw. Es sind aber CSV-Uploads möglich, sodass du deine komplette Wissensdatenbank importieren kannst. Sobald du ein Query Tool erstellt hast, musst du es im Agenten über den Reiter „Funktionen“ aufrufen.

Eine ausführliche Anleitung dazu findest du im Video unten.

Temperatur

Die Temperatur bestimmt, wie zufällig die Antworten deines Assistenten ausfallen. Wenn du sie höher einstellst, erhältst du spontanere und weniger vorhersehbare Ausgaben. Je niedriger der Wert, zum Beispiel bei 0, desto vorhersehbarer werden die Antworten.

Während ich mit dieser Einstellung experimentiert habe, bin ich zunächst davon ausgegangen, dass bei einem Wert von null der Assistent streng beim Thema bleibt und nicht abschweift. Das war allerdings nicht der Fall. Wenn ich Jade nach einem Witz gefragt habe, hat sie immer höflich und witzig geantwortet – aber der Inhalt der Witze variierte je nach Temperatureinstellung.

  • Bei einem Wert von null waren die Witze besonders passend zum Restaurant-Thema. Zum Beispiel: „Warum ist die Teigtasche zur Schule gegangen? Weil sie ein Wantan werden wollte!“
  • Bei einem Wert von 1,5 wurden die Witze allgemeiner und drehten sich um Köche und Essen im weitesten Sinne, nicht nur um chinesische Küche.

Als ich die Einstellung auf 2 (den höchsten Wert) gestellt habe, ist der Assistent komplett aus dem Rahmen gefallen und hat nur noch Unsinn von sich gegeben.

Mit ein wenig Nachhelfen konnte ich Jade aber wieder auf Kurs bringen. Das zeigt aber klar: Es lohnt sich, den Assistenten gründlich zu testen!

Max Tokens

Max Tokens gibt an, wie viele API-Tokens der Assistent pro Gesprächsrunde maximal ausgeben darf. Das beeinflusst direkt die API-Kosten. Ein Limit sorgt dafür, dass Antworten kurz und kosteneffizient bleiben. Um die Kosten im Griff zu behalten, empfiehlt es sich, diesen Wert auf 250 oder darunter zu lassen.

Emotionen erkennen

Aktivierst du diese Funktion, erkennt der Assistent die Emotionen des Nutzers und nutzt sie als zusätzlichen Kontext im Modell. In meinen Tests habe ich keinen großen Unterschied bemerkt, ob diese Funktion ein- oder ausgeschaltet war. Die Auswahl des AI-Modells hatte viel mehr Einfluss darauf, wie gut Jade auf das Gespräch eingegangen ist. Zum Beispiel hat GPT-4o bei meinen Beschwerden über großen Hunger deutlich einfühlsamer reagiert, während GPT-3.5 weniger aufmerksam gewirkt hat.

4. Verfassen deines AI-Prompts

Der Prompt deines Assistenten gibt ihm die Regeln und Anweisungen, denen er im Gespräch folgen soll. Wenn du schon mal ChatGPT benutzt hast, kommt dir der Ablauf sicher bekannt vor. Deinen Prompt für den Vapi-Assistenten stellst du im Tab „Modell“ ein.

Creating a custom assistant in Vapi. Image shows AI prompt for the Golden Wok, a Chinese restaurant

Eine kleine, aber wichtige Sache, die mir bei Vapi besonders gefällt, ist das Feld, in dem du die „Erste Nachricht“ eingeben kannst. Das ist vor allem bei ausgehenden Anrufen entscheidend und war etwas, womit ich bei den Synthflow-Bots oft Schwierigkeiten hatte.

„Hallo, hier ist Jade von The Golden Wok. Kann ich deine Bestellung aufnehmen?“

Folgende Punkte solltest du unbedingt in deinem Prompt berücksichtigen:

  • Grundlegendes zum Assistenten und Begrüßung.
  • Informationen zum Unternehmen.
  • Kundeninformationen (falls relevant).
  • Rolle und Hauptziele des Assistenten.
  • Gesprächsanweisungen und Skript.
  • Stimme und Tonfall.
  • Weitere Anweisungen und Einschränkungen.

Schauen wir uns diese Punkte in meinem Prompt im Detail an:

Begrüßung und Unternehmensinformationen

„Du bist ein Sprachassistent für The Golden Wok, ein chinesisches Restaurant in der 456 Dragon Street, San Francisco, Kalifornien. Das Restaurant ist von Montag bis Samstag von 11 Uhr bis 22 Uhr geöffnet und sonntags geschlossen. The Golden Wok bietet der lokalen Community eine große Auswahl an leckeren chinesischen Gerichten, darunter beliebte Speisen wie Teigtaschen, gebratener Reis, Kung Pao Chicken und Chow Mein.“

Ziel und Hauptanweisungen

Das Hauptziel des Assistenten:

„Deine Hauptaufgabe ist es, Bestellungen der Kunden entgegenzunehmen, grundlegende Fragen zur Speisekarte zu beantworten und Informationen zu den Öffnungszeiten und Services des Restaurants bereitzustellen. Möchte ein Anrufer eine Bestellung aufgeben, ist dein Ziel, alle nötigen Angaben freundlich, effizient und sympathisch zu erfragen.“

Anschließend folgt das Gesprächsskript:

„So solltest du vorgehen:

  1. Bestellung aufnehmen: Frage, was sie bestellen möchten, und erkundige dich nach speziellen Wünschen (z. B. Schärfegrad, Extras usw.).
  2. Liefer- oder Abholdetails erfassen: Frage, ob sie eine Lieferung oder Abholung wünschen, und falls Lieferung, sammle die Adresse ein.
  3. Kontaktdaten bestätigen: Bitte höflich um Namen und Telefonnummer, damit die Bestellung richtig zugeordnet werden kann.
  4. Zusammenfassen und bestätigen: Lies die Bestellung und die Liefer-/Abholdetails nochmals vor und teile die voraussichtliche Wartezeit mit.“

Ton und Stil

Lass deinen Assistenten durch gezielte Vorgaben besonders markengetreu klingen:

  • Sei locker, witzig und ein bisschen charmant – stell dir einen freundlichen Diner vor, keinen formalen Callcenter-Agenten.
  • Halte die Antworten kurz und gesprächig, verwende Formulierungen wie „Ähm…“, „Alles klar!“, „Klingt lecker!“ und „Super, dann machen wir das so!“.
  • Rede nicht zu viel – es soll wie ein echtes Gespräch und nicht wie ein Monolog wirken.
  • Wird nach Gerichten gefragt, präsentiere beliebte Speisen oder Specials mit Begeisterung, z. B.: „Ooh, das Kung Pao Chicken ist bei unseren Gästen super beliebt!“
  • Wenn unentschlossen bestellt wird, schlage beliebte Kombinationen vor oder frage nach Essensvorlieben.
  • Falls du mal etwas nicht weißt, bleib locker: „Hmm, gute Frage! Ich prüfe das gern für dich.“

Weitere Hinweise

  • „Wenn nach Allergenen gefragt wird, weise darauf hin, dass Gerichte Soja, Gluten und Nüsse enthalten können und bitte darum, bei Unsicherheit direkt im Restaurant nachzufragen.“
  • „Wünscht jemand etwas, das nicht auf der Speisekarte steht, lenke sie freundlich auf ähnliche Gerichte um, die verfügbar sind.“
  • „Beende jeden Anruf mit einer fröhlichen Verabschiedung – ‚Danke fürs Anrufen bei The Golden Wok! Deine Bestellung ist bald fertig. Guten Appetit!‘“
  • „Mit deiner freundlichen und sympathischen Art wird das Bestellen bei The Golden Wok immer zum angenehmen Erlebnis!“

Zusätzlich habe ich folgende Einschränkung ergänzt:

„Bleib immer beim Thema und vermeide unbedingt Gespräche, die nichts mit dem eigentlichen Zweck des Anrufs zu tun haben.“

Diese kleine Anpassung hat einen riesigen Unterschied gemacht und dafür gesorgt, dass der Assistent fokussiert bleibt und nicht abschweift.

Beispielsweise, als ich Jade um einen Witz gebeten habe, hat sie das Gespräch höflich wieder auf das eigentliche Thema gelenkt: Die Bestellung von leckerem chinesischem Essen. Das hat mich richtig gefreut, vor allem, weil ich dieses Maß an Fokus mit den Assistenten, die ich mit Synthflow AI gebaut habe, nicht erreichen konnte. Ich kann dir absolut empfehlen, eine ähnliche Einschränkung in deinen Prompt aufzunehmen, um ineffiziente Gespräche und unnötige Kosten zu vermeiden.

Profi-Tipp: Um deinen eigenen Prompt zu erstellen, kannst du mein Beispiel (oder jede Vorlage von Vapi) nehmen, in ChatGPT eingeben und dir einen branchenspezifischen System-Prompt für deinen Anwendungsfall generieren lassen

5. So richtest du das Transkriptionsmodul ein

In Vapi ist das Transkriptionsmodul dafür zuständig, gesprochene Sprache in Text umzuwandeln. Dadurch kann der Sprachassistent Nutzereingaben effektiv verarbeiten und verstehen sowie deine Anrufe transkribieren.

Setting up the transcriber in Vapi AI, which can support 100+ languages

Die bereitgestellten Modelle unterstützen Transkriptionen in über 100 verschiedenen Sprachen.

6. So gibst du deinem Assistenten eine Stimme

Das Voice-Modul ist die dritte wichtige Komponente der Vapi Infrastruktur. Es sorgt dafür, dass die textbasierten Antworten des KI-Assistenten (die vom LLM kommen) in gesprochene Audios umgewandelt werden. Es funktioniert als Text-zu-Sprache-Engine (TTS) und ermöglicht es dem Assistenten, auf natürliche Weise per Stimme mit Nutzern zu kommunizieren.

Vapi bietet eine große Auswahl an Stimmen mit verschiedenen Akzenten und Tonlagen, damit Gespräche natürlicher klingen. Es arbeitet mit führenden TTS-Anbietern wie ElevenLabs und Deepgram zusammen, sodass du die passende Stimme für deine Marke auswählen kannst.

Latenz und Preis unterscheiden sich je nach Modell, daher hilft Ausprobieren dabei, das beste Verhältnis von Kosten und Qualität zu finden. Du möchtest die Stimmen anhören? Das geht ganz einfach auf Vapis Homepage.

Vapi AI assistant voice configuration screen shows options for selecting the provider and voice

Ich war wirklich beeindruckt von der großen Auswahl an verfügbaren Stimmen. Egal, ob du einen entspannten New Yorker oder eine aristokratische Edeldame suchst – für jeden Zweck gibt es die passende Stimme. Vapi bietet außerdem einen tollen Bereich namens Voice Library, den du in einem separaten Tab öffnen kannst, um dir alle Stimmen anzuhören und gezielt nach Geschlecht und Akzent zu suchen.

Vapi Voice Library  shows a range of voices, languages, and accents

Eine Sache ist auf den ersten Blick nicht ganz klar: Ob eine Stimme die gleiche Sprache unterstützt wie Prompt und Transkription. Ich habe ein bisschen damit experimentiert und mein Prompt auf verschiedene Sprachen umgestellt. Die getesteten Stimmen kamen damit gut zurecht. Trotzdem ist der einzig sichere Weg, die Kompatibilität per Ausprobieren herauszufinden.

7. Funktionen

„Funktionen“ oder „Tools“ (Vapi verwendet beide Begriffe ziemlich austauschbar) ermöglichen es deinen Assistenten, während des Anrufs individuelle Aktionen und Aufgaben auszuführen. Du kannst diese Tools aus der Tools Library hinzufügen (eine eigene Seite auf der Plattform).

Setting up custom predefined functions for a Vapi AI assistant

Es gibt verschiedene Arten von Tools:

Vordefinierte Tools

Das ist momentan verfügbar:

  • End Call Function aktivieren: Ermöglicht dem Assistenten, das Gespräch selbstständig zu beenden. (Am besten für GPT-4 und größere Modelle geeignet.)
  • Dial Keypad: Der Assistent kann Ziffern über das Tastenfeld eingeben.
  • Query Tool: Zum Abrufen von Informationen aus Wissensdatenbanken.
  • Anruf weiterleiten: Diese Funktion ermöglicht es, Anrufe an eine andere Telefonnummer weiterzuleiten – an jede beliebige Nummer.
  • Third-Party Integrations: Integrationen mit Slack, Google Kalender und Model Context Protocol (MCP), einem offenen Standard, der es KI-Modellen erlaubt, mit externen Tools und Datenquellen zu kommunizieren.

Ich fand das neueste UI der Tools komplizierter als nötig, und es wirkt definitiv so, als sei es für Entwickler gemacht. Trotzdem bin ich froh, dass die Optionen immer mehr werden

Vapi's Send Message Tool for Slack

Eigene Tools

Das ist eine Funktion für Entwickler und ermöglicht es dir, eigene Aktionen über eine API zu erstellen. Zum Beispiel kannst du Nutzerdaten während des Gesprächs erfassen und an einen Server senden.

Vapi's function tool lets you build custom actions through an API

Integrationen

In der neuesten Version von Vapi ist der Bereich „Integrationen“ eine lange Liste von Voice-, Modell- und Transkriptions-Anbietern, bei denen du deinen API-Key eintragen kannst. Vapi unterstützt auch Integrationen mit Slack, Google Kalender, Google Sheets, GoHighLevel und Make sowie technischere Integrationen mit AWS, Supabase und anderen.

Vapi's integrations page

8. Erweiterte Einstellungen

Wie der Name schon sagt, kannst du in diesem Bereich verschiedene erweiterte Konfigurationen vornehmen, zum Beispiel Datenschutzeinstellungen, Feinabstimmungen für Gespräche und Nachrichten, die der Assistent versenden kann.

Vapi advanced assistant settings

Insgesamt war ich positiv überrascht von der Vielzahl der verfügbaren Funktionen. Es ist klar, dass Vapi bei den individuellen Anpassungsmöglichkeiten für deinen Assistenten im Vergleich zu anderen Lösungen wirklich heraussticht.

Datenschutz

In diesem Bereich kannst du die Aufzeichnung von Anrufen und Videos deaktivieren. Das ist besonders wichtig für Kundschaft aus der EU.

Vapi privacy settings panel shows option to enable HIPAA compliance, enable or disable audio and video recording

Profi-Tipp: EU-Nutzer, denkt daran: Wenn ihr plant, Anrufe aufzuzeichnen, müsst ihr in der Begrüßungsnachricht einen Hinweis für den Kunden einbauen. Diese Funktion heißt jetzt „Recording Consent Plan“, ist aber leider nur im Enterprise-Plan verfügbar

Anweisungen für Start und Stopp der Sprache

In diesen Bereichen kannst du die Wartezeiten deines Assistenten und Unterbrechungen während der Interaktionen feinjustieren.

Nach meinen Tests sorgt die Funktion Smart Endpointing für einen natürlicheren Gesprächsfluss. Sie reduziert unangenehme Unterbrechungen durch den Assistenten, daher empfehle ich dir, sie aktiviert zu lassen. Am Ende solltest du deinen Voicebot natürlich immer testen, bevor du ihn live schaltest. Im letzten Abschnitt gehen wir darauf noch genauer ein.

Vapi voice speaking instructions screen shows settings for how and when the assistant should start and stop speaking

Einstellungen für Anruf-Timeout

Hier kannst du festlegen, wann der Assistent einen Anruf beenden soll – zum Beispiel bei Stille auf der Kundenseite oder wenn die maximale Gesprächsdauer erreicht ist. Das ist besonders wichtig, um die Kosten im Griff zu behalten.

Vapi call timeout settings options show settings for silence timeout and maximum call duration

Nachrichten

Zum Schluss gibt es noch Einstellungen für Nachrichten, die dein Assistent senden kann, darunter Voicemails, Nachrichten zum Gesprächsende und Hinweise bei Inaktivität (zum Beispiel: „Bist du noch da?“). Außerdem kannst du Nachrichten auch programmatisch an deinen Server senden (nur für Entwickler).

Vapi messages settings screen shows settings for sending voicemail, end call messages and what to say if the call is idel

9. Analyse

Im letzten Bereich des Assistenten-Konfigurators kannst du Prompts und Einstellungen für die Analyse des Gesprächs festlegen, darunter den Prompt für die Gesprächszusammenfassung, Erfolgskriterien und das Extrahieren strukturierter Daten.

Vapi AI call analysis configuration allows you to set up a prompt for the AI to evaluate the client's behavior during the call

Die Erfolgsauswertung und das Extrahieren strukturierter Daten sind besonders wichtig für Verkaufsgespräche und die Qualifizierung von Leads. Zusammen lassen sich damit Leads bewerten.

Ein Beispiel für einen System-Prompt zur Erfolgsauswertung könnte so aussehen:

„Bewerte das Verhalten des Kunden während des Gesprächs anhand von:

  1. Engagement: Hat die Person aktiv teilgenommen und Interesse gezeigt?
  2. Klarheit: Hat sie ihre Bedürfnisse oder Ziele klar kommuniziert?
  3. Aufgeschlossenheit: War sie offen für Vorschläge und Lösungen?
  4. Umgang mit Einwänden: Hat sie bei der Klärung von Bedenken kooperiert?
  5. Entscheidungsbereitschaft: Hat sie Bereitschaft gezeigt, die gewünschte Aktion durchzuführen?
  6. Gib eine kurze Einschätzung der Stärken und Schwächen und unterstützende Vorschläge zur Verbesserung der Kundeninteraktion, falls nötig.“

Du kannst sogar die Bewertungsgrundlage (Rubrik) für den Prompt festlegen. Das ist der Rahmen, der die Kriterien für die Auswertung vorgibt:

Vapi success evaluation rubric allows you to set out the criterial for evaluating a call and scoring leads

10. Auswahl einer Telefonnummer

Telefonnummern sind in Vapi erforderlich, um Anrufe über das Telefon zu tätigen oder entgegenzunehmen.

Vapi unterstützt mittlerweile bis zu 10 kostenlose US-Nummern pro Account sowie Importintegrationen mit Vapi SIP, Telnyx und weiteren SIP-Anbietern. (Eine SIP-Nummer ist eine Telefonnummer, die über das Internet mittels Session Initiation Protocol funktioniert, statt über klassische Telefonleitungen.)

Die Möglichkeit, Nummern direkt in der Plattform zu kaufen, ist aktuell noch ziemlich eingeschränkt. Du kannst ausschließlich US-Nummern kaufen und musst dafür den lokalen Vorwahlbereich manuell eingeben, um eine Nummer zu finden. Außerdem kannst du mit einer nativen Telefonnummer keine ausgehenden Anrufe ins Ausland tätigen. Das bedeutet: Wenn du außerhalb dieser beiden Länder arbeitest oder internationale Nummern anrufen möchtest, musst du die Importfunktion nutzen. Das ist leider ziemlich restriktiv und im Vergleich zur Nummernkauf-Funktion im Synthflow-Interface ein deutlicher Nachteil.

Beim Nummernkauf hast du zwei Optionen:

  • Eingehende Einstellungen: Du kannst deine Nummer einem Inbound-Assistenten zuweisen. Wenn jemand diese Nummer anruft, nimmt dein KI-Assistent das Gespräch entgegen.
  • Ausgehende Einstellungen: Du kannst deinen Assistenten so konfigurieren, dass er eine bestimmte Zielnummer anruft. Die Einrichtung ist ganz einfach: Du lädst eine Liste an Telefonnummern hoch und aktivierst den Agenten (oder planst Anrufe für die Zukunft).
Vapi phone numbers screen shows inbound and outbound settings and numbers
Vapi outbound campaign setup tool

11. Testen und Veröffentlichen deines Assistenten

Sobald dein Assistent eingerichtet ist, bist du endlich bereit, die letzten Tests durchzuführen und ihn live zu schalten. Vapi stellt dir für Testzwecke 10 US-Dollar Guthaben kostenlos zur Verfügung. Die Nutzung kannst du auf deiner Abrechnungsseite nachverfolgen.

Du kannst den Assistenten entweder direkt über den Webbrowser anrufen oder mit der Telefonnummer für eingehende und ausgehende Anrufe am Telefon nutzen.

Mit meinem individuellen Prompt und GPT 4o Mini als zugrundeliegendem Modell hat Jade außergewöhnlich gut funktioniert und ein flüssiges, stimmiges Gespräch geführt. Die Begrüßungsnachricht hat einwandfrei funktioniert (etwas, das mir mit Synthflow Schwierigkeiten bereitet hat) und die Einschränkungen bei themenfremden Gesprächen haben sogar besser gewirkt, als ich erwartet hatte.

Allerdings habe ich gemerkt, dass eine Latenz unter 750 ms den Assistenten unnatürlich wirken ließ. Wie man so schön sagt: „Zu viel des Guten kann schaden.“ Das gilt auch für die Schnelligkeit deines Assistenten. Er hat dann zu schnell reagiert, mich häufiger unterbrochen oder meine Aussagen übersprochen. Gerade bei langsameren Zielgruppen, etwa älteren Personen oder Nicht-Muttersprachlern, kann das problematisch sein. Mein persönlicher Sweet Spot lag zwischen 750 und 900 ms. Zum Glück lässt sich das dank der Vielzahl an Einstellungen und Modellen sehr einfach feinjustieren.

Das Testen mit Telefonnummern hat problemlos funktioniert und Vapi unterstützt inzwischen auch ein einbettbares Widget mit zahlreichen Anpassungsmöglichkeiten! Du kannst deine Voice Agents jetzt endlich direkt auf deiner Website einbinden – ganz ohne die Entwickler zu bemühen.

Vapi Widget Playground allows you to create embeddable widgets for your website

Vapi hat vor Kurzem auch die Möglichkeit hinzugefügt, mit deinem Assistenten zu chatten. Dass diese Funktion anfangs fehlte, wurde oft kritisiert. Schön zu sehen, dass Vapi auf unser Feedback hört

Chatting directly with a Vapi AI assistant

Erweiterte Funktionen von Vapi

Vapi bietet noch einige fortgeschrittene Funktionen, die wir bisher nicht behandelt haben. Schauen wir sie uns an.

Mehrstufige Prozesse mit Workflows erstellen

Die Workflows-Funktion (früher „Blocks“ genannt) in Vapi ist ein fortschrittlicher visueller Workflow-Builder und ermöglicht starke Anpassung und Automatisierung für deine Sprachassistenten. Mit Workflows kannst du eine Reihe von Schritten gestalten und verbinden, indem du Gesprächssequenzen und externe Tools kombinierst. So entsteht ein nahtloses Kundenerlebnis. Das lässt sich für mehrstufige Gespräche, Weiterleitungen, Fehlerbehandlung, visuelle Logik und programmatische Interaktionen mit Servern und Datenbanken nutzen.

Für unser chinesisches Restaurant könnte ein möglicher Workflow so aussehen:

  1. Den Kunden begrüßen und nach der Bestellnummer fragen.
  2. Einen API-Block nutzen, um die Bestelldetails in der Datenbank abzufragen.
  3. Dem Kunden den aktuellen Bestellstatus mitteilen.
  4. Optional die Möglichkeit anbieten, mit einem Ansprechpartner zu sprechen, falls mehr Hilfe benötigt wird.
Vapi's workflow builder lets you design and connect a series of steps

Die Workflows-Funktion wurde seit meinem letzten Test des Tools positiv überarbeitet und erweitert. Jetzt ist sie ein viel größerer Bestandteil der gesamten Vapi-Suite.

Die Drag-and-Drop-Oberfläche wurde neu gestaltet. Sie ist jetzt deutlich intuitiver, mit verschiedenen Utility-Optionen, die dir helfen, deinen Workflow auszurichten und zu organisieren. Die einzelnen Workflow-Schritte (bei Vapi „Nodes“ genannt) sind visuell besser zu unterscheiden und unten rechts gibt es sogar eine praktische Mini-Map. Außerdem gibt es einen globalen Prompt, der die übergeordnete Persönlichkeit deiner Assistenten in diesem Workflow festlegt.

Vapi Global Prompt feature allows you to define your assistants' core personality

Wenn du schon mit Tools wie Zapier gearbeitet hast, wirst du den Workflow-Builder ziemlich einfach zu bedienen finden. Du startest mit einem „Start-Node“ und baust dann direkt in den Node-Einstellungen deine Assistenten auf.

Vapi's workflow builder works a bit like Zapier.

Dann kannst du den Flow filtern und personalisieren – zum Beispiel mit einfachen Bedingungen wie „Wenn der Nutzer ja sagt“ oder mit praktisch allem, was dir einfällt. Stell dir das wie einzelne Filter-Schritte vor.

Zum Schluss musst du den ersten Knoten mindestens mit einem weiteren Knoten verbinden. Du könntest ihn zum Beispiel mit einem Knoten zum Beenden des Anrufs oder zum Weiterleiten an eine Telefonnummer verknüpfen.

Eine Sache, die ich nicht herausgefunden habe: Wie man andere Assistenten direkt aus dem Workflow Builder heraus anrufen kann, statt immer wieder neue Assistenten von Grund auf zu erstellen. Falls das nicht geht, ist das tatsächlich enttäuschend. Das bedeutet, dass du jeden Assistenten neu anlegen musst, um sie im Workflow Builder zu nutzen. Klar, mit der Squads-Funktion kannst du mehrere Assistenten orchestrieren – aber für mich gehören diese beiden Features eigentlich zusammen.

Insgesamt hat Vapi große Fortschritte beim Workflow Builder gemacht. Leider kommt er aber nicht an den vollwertigen Workflow Builder von Synthflow heran, der dutzende Integrationen und Schritte bietet. Vapi unterstützt nur fünf Nodes. Auch wenn der Tool-Knoten mehrere Funktionen bündeln kann, reicht das bei den Workflows immer noch nicht an das Angebot von Synthflow heran.

Vapi workflow nodes

Mit Squads ein perfekt eingespieltes Team von Assistenten betreiben

Die Squads-Funktion von Vapi ermöglicht eine nahtlose Zusammenarbeit mehrerer Assistenten, sodass ein dynamischeres und effizienteres System zur Gesprächsabwicklung entsteht. Mit dieser Funktion kannst du Anrufe zwischen Assistenten weiterleiten, wenn einer nicht verfügbar ist. Außerdem lassen sich damit umfassende, mehrstufige Prozesse simulieren, wie etwa Lead-Recherche, Qualifikation und Abschluss. Das Beste daran: Du kannst die gesamte Squad anrufen und das komplette Team aus Assistenten testen.

Vapi Squads sind besonders dann hilfreich, wenn mehrere Assistenten für verschiedene Phasen eines Prozesses im Einsatz sind. Zum Beispiel:

  1. Lead-Recherche: Der erste Assistent sammelt wichtige Informationen über einen Interessenten, wie Unternehmen, Bedarf und Kontaktdaten.
  2. Lead-Qualifizierung: Ein zweiter Assistent prüft mittels gezielter Fragen, ob der Lead zu deinem Produkt oder Service passt.
  3. Lead-Daten erfassen: Ein Tool überträgt die Daten des Interessenten an deinen Server und ins CRM.
  4. Abschluss: Der dritte Assistent übernimmt die letzte Phase, beantwortet Einwände, erklärt Preise oder stößt per Tool direkt eine Bestellung an.
Vapi's Squad Builder tool lets you set up multiple assistants that work together to handle different stages of a process.

Assistant-Wissen mit Dateien erweitern

Eine der herausragenden Funktionen von Vapi ist die Möglichkeit, Dateien als „Wissensdatenbank“ zu importieren. Das verbessert die Fähigkeit des Assistenten enorm, genaue und detaillierte Antworten zu geben. Du lädst einfach relevante Dokumente hoch und sie sind sofort als Referenz verfügbar.

Für unser chinesisches Restaurant, The Golden Wok, habe ich die Speisekarte von meinem Lieblingsasiaten von der Website als Textdatei gespeichert und dann als Wissensdatenbank in Vapi importiert. Das Ganze läuft jetzt über das Query Tool. Nachdem du die Dateien hochgeladen hast, musst du sie mit dem Query Tool im Assistenten aufrufen.

Assistant-Wissen mit Dateien erweitern

Eine der herausragenden Funktionen von Vapi ist die Möglichkeit, Dateien als „Wissensdatenbank“ zu importieren. Das verbessert die Fähigkeit des Assistenten enorm, genaue und ausführliche Antworten zu liefern. Du lädst einfach relevante Dokumente hoch und sie stehen sofort als Referenz zur Verfügung.

Für unser chinesisches Restaurant, The Golden Wok, habe ich die Speisekarte von meinem Lieblingsasiaten als Textdatei von der Website gespeichert und dann als Wissensdatenbank in Vapi importiert. Jetzt läuft das Ganze über das Query Tool. Nachdem du deine Dateien hochgeladen hast, musst du sie dort als Wissensdatenbank nutzen.

Setting up a Vapi assistant test.

Es gibt eine Möglichkeit, Tests automatisch mit AI zu erstellen, aber ich fand sie längst nicht so robust wie das Testpaket von Synthflow, das einige solide vordefinierte Tests bietet

Autogenerating Vapi testing with AI

Nachdem du deine Testfälle konfiguriert hast, kannst du sie ausführen und die Leistung deines Assistenten prüfen. In meinem Fall hat der Assistent alle Tests nicht bestanden. Allerdings gab Vapi nur die Auswertungsergebnisse, aber keine konkreten Vorschläge oder Optimierungstipps, um die Leistung zu verbessern. Das ist zu erwarten, da die Funktion offiziell noch im Beta-Stadium ist

Vapi assistant failing its tests

Boards

Boards sind eine weitere neue Funktion bei Vapi, die sich voll auf Analytics konzentriert. Du kannst sie dir als Vapi-eigene Generatoren für Business-Info-Dashboards vorstellen. Damit erstellst du eigene Übersichten mit unterschiedlichen Metriken. Zum Beispiel kannst du sehen, welcher Vertriebsmitarbeiter die meisten Abschlüsse erzielt. Es ist wirklich praktisch, den tatsächlichen Nutzen des Tools so auf einen Blick zu erfassen! Mehr dazu erfährst du in diesem offiziellen Video.

Vapi Preise

Vapi tut alles, um die Kosten pro Gesprächsminute transparent darzustellen. Du bekommst eine ausführliche Übersicht zur Kostenstruktur deiner Assistenten, inklusive Vapi-Marge. Das Wichtigste: Vapi bleibt wettbewerbsfähig und hält sich auch an seine Preisstruktur – im Gegensatz zu manchen Mitbewerbern (hust Synthflow hust), die ihre Preise immer höher schrauben.

Vapi Pricing Example

Die Kosten pro Minute hängen von vier variablen Komponenten ab:

  • AI-Modelle: Fortgeschrittene Modelle wie GPT-4 sind teurer als leichtere Modelle. Die Preise reichen von $0,32 bis unter $0,01.
  • Voice-Anbieter: Die Kosten unterscheiden sich je nach Text-to-Speech-Anbieter, zum Beispiel ElevenLabs, von $0,65 bis $0,001.
  • Listen-Modul: Für einen Speech-to-Text-Anbieter wie Deepgram liegen die Kosten zwischen $0,017 und $0,008.
  • Feste Preise: Vapi bietet feste Preise von $0,05 pro Minute und $0,005 pro SMS- bzw. Chat-Nachricht.

Wie du siehst, variieren die Gesamtkosten sehr stark. Du kannst mit Gesamtkosten pro Gesprächsminute im Bereich zwischen $0,07 und $1,03 am oberen Ende rechnen. Beachte aber, dass dies nur Schätzungen sind, nicht der exakte Preis, den du zahlen wirst. Die gute Nachricht: Auch mit günstigen Modellen bekommst du qualitativ hochwertige Anrufe.

Auf deinem Dashboard kannst du deine tatsächlichen Ausgaben und den durchschnittlichen Preis pro Anruf verfolgen. Beachte, dass es sich dabei um die Kosten pro Anruf handelt und nicht pro Minute – du kannst den Minutenpreis berechnen, indem du die gesamten Gesprächsminuten durch den Gesamtbetrag teilst. Du kannst auch deinen Assistenten testen, um ein Gefühl für die tatsächlichen Kosten pro Anruf zu bekommen.

Noch etwas: Im normalen Plan ist der Anrufverlauf bei Vapi auf 14 Tage und der Chatverlauf auf 30 Tage beschränkt. Falls die Archivierung alter Anrufe für dich kritisch ist, ist diese Lösung eher nicht optimal.

Der Enterprise-Plan unterstützt Compliance-Features wie HIPAA (Add-on für $1.000), SOC 2, SSO usw. sowie einen persönlichen Account Manager.

Vapi AI Dashboard shows call minutes, number of calls, pricing, and other statistics

Die Kosten pro Minute hängen von vier variablen Komponenten ab:

  • AI-Modelle: Fortgeschrittene Modelle wie GPT-4 sind teurer als leichtere Alternativen. Die Kosten liegen zwischen $0,32 und unter $0,01.
  • Voice-Anbieter: Die Kosten unterscheiden sich je nach Text-to-Speech-Anbieter, zum Beispiel ElevenLabs, und bewegen sich zwischen $0,65 und $0,001.
  • Listen-Modul: Beim Speech-to-Text-Anbieter wie Deepgram liegen die Kosten zwischen $0,017 und $0,008.
  • Feste Preise: Vapi bietet einen Festpreis von $0,05 pro Minute und $0,005 pro Nachricht für SMS und Chat.

Wie du siehst, schwanken die Gesamtkosten stark. Du solltest mit einem Gesamtpreis pro Gesprächsminute zwischen $0,07 und maximal $1,03 rechnen. Beachte dabei, dass dies nur Schätzungen sind und nicht der exakte Betrag, den du zahlst. Die gute Nachricht: Auch mit günstigen AI-Modellen bekommst du eine sehr gute Gesprächsqualität.

Auf deinem Dashboard kannst du dein tatsächliches Ausgabenverhalten und die durchschnittlichen Kosten pro Anruf nachverfolgen. Vapi zeigt keine Kosten pro Minute an, aber du kannst sie berechnen, indem du die gesamten Gesprächsminuten durch den ausgegebenen Gesamtbetrag teilst. Du kannst deinen Assistenten auch testen, um ein Gefühl für die realen Anrufkosten zu bekommen.

Außerdem solltest du wissen, dass im normalen Tarif der Anrufverlauf bei Vapi auf 14 Tage und der Chatverlauf auf 30 Tage begrenzt ist. Falls dir das Archivieren alter Anrufe wichtig ist, ist Vapi eventuell nicht die passende Lösung.

Der Enterprise-Plan unterstützt Compliance-Funktionen wie HIPAA (für $1.000 als Add-on), SOC 2, SSO und mehr sowie einen eigenen Account Manager.

Fazit

Vapi ist ein großartiges Tool für alle, die Wert auf tiefe Individualisierung legen. Für Einsteiger ohne Erfahrung mit KI-Modellen kann es zwar zunächst einschüchternd wirken, aber die leistungsstarken Funktionen machen es wirklich zu etwas Besonderem.

Es fehlen allerdings ein paar UI-Optionen, zum Beispiel bei den erweiterten Workflows, und der Bereich für den Kauf von Telefonnummern könnte etwas intuitiver gestaltet sein. Trotzdem: Dank der günstigen Preise und der guten Skalierbarkeit ist Vapi eine tolle Option für Unternehmen, die ihre Anrufprozesse effizient ausbauen wollen – vor allem, wenn du keine Scheu hast, mit KI-Modellen zu experimentieren.

    Vorteile

  • Anpassbare Modelle

    -

  • Maximale Flexibilität beim Anpassen und Feinjustieren von Gesprächen

    -

  • Transparente Preisaufstellung

    -

  • Im Vergleich zu Alternativen insgesamt günstigere Preise

    -

  • Voice-Bots mit niedriger Latenz

    -

  • Reibungslose, natürliche Gespräche

    -

  • Prompts funktionieren einwandfrei

    -

  • Umfangreiche Voice-Bibliothek

    -

  • Robuste API und insgesamt die vollständigste Plattform aus Entwicklersicht

    -

    Nachteile

  • Wenig überzeugende vordefinierte Vorlagen

    -

  • Chatbots mit extrem niedriger Latenz (<700ms) sind teilweise schwer zu bedienen

    -

  • Es können nativ nur US-Telefonnummern gekauft werden, aber Twilio- und Vonage-Nummern lassen sich importieren

    -

  • Modell- und Feinjustierungsoptionen können für Einsteiger überwältigend sein

    -

  • Workflow Builder nicht so robust wie bei Synthflow

    -

Erstelle deinen AI Voice Assistant mit Vapi

Nahtlose Integration für Telefonanrufe & Apps

Vapi Alternativen

Synthflow AI

Synthflow AI ist eine starke Alternative zu Vapi, besonders für alle, die eine intuitive Plattform suchen, um AI-gesteuerte Workflows auch ohne tiefes technisches Know-how zu erstellen. Es gibt ein No-Code-Interface, sodass auch Nutzer mit wenig Programmiererfahrung problemlos loslegen können, während trotzdem viele Möglichkeiten zur individuellen Anpassung bestehen. Der größte Unterschied liegt im Funktionsumfang der Oberfläche (und damit in den Möglichkeiten für Nicht-Entwickler). Dazu gehören Batch-Kampagnen (für Massenanrufe), einbettbare Widgets und Datenauslese. Du kannst auch unseren direkten Vergleich Synthflow AI vs. Vapi anschauen, um mehr über die Unterschiede zu erfahren.

Bland AI

Bland.ai ist eine fortschrittliche, auf Unternehmen ausgerichtete Alternative zu Vapi. Im Unterschied zu Vapi, das mit der No-Code-Option besonders zugänglich ist, legt Bland.ai den Schwerpunkt ganz klar auf maximale Flexibilität für Entwickler. Die Plattform ist vollgepackt mit Funktionen für Unternehmen, darunter SOC2 Type II Sicherheit, telefonische Zahlungen mit PCI DSS und vieles mehr.

Retell AI

Retell AI hilft dir dabei, AI-Voice-Agents ganz einfach bereitzustellen. Ähnlich wie bei Synthflow liegt der Fokus vor allem auf der Benutzeroberfläche der Plattform. Es gibt native Features wie Terminbuchungen (über Cal.com), automatisches Syncen deiner Wissensdatenbank, Anrufweiterleitung und mehr.

FAQ

Kannst du Vapi nutzen, wenn du kein Entwickler bist

Ja, Vapi bietet eine vollständig funktionale Benutzeroberfläche, aber im Vergleich zur Entwickler-API fehlen einige Features, zum Beispiel eine Oberfläche zur Datenauswertung und ein einbettbares Widget für den Assistenten.

Wer ist der Gründer von Vapi

Vapi wurde 2023 von Jordan Dearsley und Nikhil Gupta gegründet. Das Unternehmen hat seinen Sitz in San Francisco

Ist Vapi Open Source

Nein, Vapi ist nicht Open Source. Es ist eine kommerzielle Plattform. Sie bietet aber umfassende Anpassungs- und Integrationsmöglichkeiten über die API, darunter auch Open-Source-Optionen

Was ist die Open-Source-Alternative zu Vapi

Derzeit gibt es am Markt keine wirklich offene Open-Source-Lösung. Mit entsprechendem Entwickler-Knowhow und Ressourcen kannst du deinen eigenen Stack auf Basis von Open-Source-Modellen bauen

Kann ich Vapi kostenlos nutzen

Vapi hat den Free-Plan mit 1.000 Minuten eingestellt und setzt jetzt auf ein $10-Guthaben-Modell. Nach der Registrierung erhältst du $10 Vapi-Guthaben. Wie viele Minuten du für $10 bekommst, hängt ganz von den Modellen ab, die du für deinen Agenten verwendest. Günstigere Modelle = weniger Guthaben verbraucht = mehr Gesprächsminuten

Wie viel kostet Vapi pro Minute

Die Kosten variieren stark, je nach ausgewähltem Modell. In meinen Tests lag die Preisspanne zwischen $0,07 und über $1 pro Minute. Alle Infos dazu findest du im Abschnitt Preise in diesem Review

Wie funktionieren Vapi-Credits

Credits sind Geldeinheiten, mit denen du die Nutzung der Plattform bezahlst, also Text-to-Speech, Speech-to-Text und LLM-Kosten. Sie beziehen sich nicht auf eine feste Gesprächsminutenzahl. Leider bietet die Dokumentation von Vapi keine feste Umrechnung von Credits zu Minuten. Am besten ist es, du testest deine Modelle, um die echten Kosten herauszufinden

Ist Vapi AI DSGVO-konform

Ja, Vapi ist DSGVO-konform für den Umgang mit EU-Daten, nach SOC 2 Typ II zertifiziert und HIPAA-konform für Anwendungen im Gesundheitswesen. Vapi unterzieht sich außerdem regelmäßigen Prüfungen, um diese Zertifizierungen aufrechtzuerhalten. Werden personenbezogene Daten aus der Europäischen Union heraus übertragen (hauptsächlich in die USA), stellt Vapi sicher, dass alle Übermittlungen durch rechtlich genehmigte Maßnahmen wie Standardvertragsklauseln abgesichert sind.

Allerdings gibt es praktische Einschränkungen für kleinere Unternehmen. Vapi stellt eine Vereinbarung zur Auftragsverarbeitung (DPA) kostenlos zur Verfügung, diese ist aber nur für Enterprise-Kunden erhältlich und Vapi betreibt keine Server in der EU. Vapi ist außerdem nicht nach dem EU–US Data Privacy Framework (DPF) zertifiziert, und Nutzer ohne Enterprise-Plan haben derzeit keinen Zugang zu einer unterzeichneten DPA.

Wenn DSGVO-Konformität für dein Unternehmen entscheidend ist und du keinen Enterprise-Plan hast, könnten dadurch Compliance-Probleme entstehen. In dem Fall solltest du ein Upgrade in Betracht ziehen.

Sind AI-Anrufe legal

Ja, KI-Anrufe sind legal, aber sie unterliegen strengen Vorschriften. Die FCC hat im Declaratory Ruling vom Februar 2024 bestätigt, dass KI-generierte Sprachanrufe wie andere „künstliche oder aufgezeichnete Sprach“-Anrufe unter den Telephone Consumer Protection Act (TCPA) fallen. Sie sind also erlaubt, unterliegen aber zahlreichen Einschränkungen.

Nach der 2024er Aktualisierung des TCPA muss jedes Unternehmen, das KI-Technologie für Anrufe nutzen möchte, vorab eine ausdrückliche schriftliche Einwilligung der angerufenen Person einholen. Verstöße können hohe Strafen und Klagen zur Folge haben. Im Entwurf der FCC wird außerdem ausdrücklich festgehalten, dass Technologien zur Annahme eingehender Anrufe – wie etwa virtuelle Kundenservice-Agenten – nicht zur Definition von „KI-generierten Anrufen“ zählen. Das heißt, KI-basierte Antwortdienste stehen unter weniger strenger Aufsicht als KI-Anrufe, die aktiv nach außen gehen.

Das Wichtigste: Stelle sicher, dass du das richtige Einverständnis bekommst, Beachte die Nicht-Anrufen-Register, identifiziere dich klar, biete Opt-out-Möglichkeiten an, um den rechtlichen Vorgaben zu entsprechen, und verzichte auf unerwünschte ausgehende Agenten.

Link Icon

Ich bin Mitbegründer einer Marketing-Automatisierungsplattform und besessen von allem, was mit Marketing und SaaS-Wachstum zu tun hat. In meiner Freizeit gehe ich gerne ins Fitnessstudio und spiele Videospiele.

Warum du Softailed vertrauen kannst

Unsere Autoren sind Experten mit praktischer Erfahrung in ihren Fachgebieten. Jeder Artikel durchläuft ein mehrstufiges Prüfverfahren: Faktencheck, redaktionelle Überarbeitung und finale Freigabe. Wir setzen auf absolute Genauigkeit, damit du dich voll und ganz auf uns verlassen kannst. Mehr zu unseren Qualitätsrichtlinien.