Vapi Voice AI: Análisis completo y puntos clave

Kaloyan Yankulov Portrait
Kalo Y.
Vapi AI Review Thumbnail
Link Icon

Las conversaciones con IA están en todas partes hoy en día. La tecnología tiene mucho potencial, pero no es perfecta. Los voicebots pueden tener retrasos, tener problemas con interrupciones o incluso perderse por completo en medio de una conversación.

Vapi (también conocido como Vapi AI) está tratando de cambiar eso. Da a los usuarios más control sobre cómo funcionan los asistentes de voz para ayudar a solucionar algunos de los mayores inconvenientes. Ni siquiera necesitas ser desarrollador para usarlo. Sus funciones intuitivas hacen que sea fácil para cualquiera crear y gestionar asistentes de voz sin mucha experiencia técnica.

Por mi experiencia, Vapi mejora las conversaciones de muchas maneras. Pero también tiene sus propios desafíos. En esta reseña de Vapi, te voy a contar mi experiencia práctica. Te hablaré sobre la configuración, las funciones clave y el rendimiento general para que puedas decidir si Vapi es la opción adecuada para ti.

Índice
arrow

¿Qué es Vapi?

Vapi es una plataforma de voz con IA centrada en desarrolladores, diseñada para ayudarte a crear, probar y lanzar asistentes de voz sofisticados. Cuenta con una completa suite de herramientas, incluyendo una potente API de voz (de ahí viene el nombre Vapi), un panel intuitivo y un montón de opciones de personalización. Con Vapi, puedes lanzar rápidamente aplicaciones de voz que simulan el flujo de conversaciones humanas naturales.

Aunque está pensada principalmente como una herramienta para programadores, Vapi tiene una interfaz de usuario (UI) sin código muy completa. Esto permite que personas de marketing y otros perfiles no técnicos puedan crear asistentes de voz con IA totalmente funcionales sin molestar al equipo de desarrollo.

Algunas de las características que hacen que Vapi destaque en el campo de los bots de voz incluyen:

  • Tiempos de respuesta más rápidos: Gracias a sus optimizaciones de latencia, como procesamiento mejorado, almacenamiento inteligente de datos (caché) y transmisión de audio fluida, los asistentes de Vapi pueden ser más ágiles que muchos otros voicebots del mercado.

  • Cadencia natural en las conversaciones: Tus asistentes ahora pueden hacer pausas cuando los interrumpes y también son lo suficientemente educados para no cortarte cuando estás hablando. Esto es una gran mejora frente a competidores como Synthflow.

  • Escalabilidad sin igual: Vapi presume de poder gestionar más de 1 millón de llamadas simultáneas, lo que lo hace ideal para empresas de cualquier tamaño.

  • Soporte para más de 100 idiomas: Vapi te permite crear agentes de voz que hablan el idioma de tus usuarios, como inglés, español, francés, alemán, hindi, portugués y muchos más.

  • Funciones avanzadas para desarrolladores: Puedes potenciar tu asistente de voz con herramientas personalizadas que realizan tareas como agendar citas, buscar información y completar formularios.

  • Integración nativa con Make: Puedes conectar tus escenarios de Hacer y activarlos durante las conversaciones de voz en Vapi.

Lee: n8n vs. Make: la comparación definitiva

¿Cómo funciona Vapi?

Antes de crear nuestro primer asistente de voz en Vapi, veamos cómo funciona la plataforma y qué ocurre detrás de escena.

El punto fuerte de Vapi está en cómo conecta y orquesta tres tipos diferentes de modelos de IA para lograr conversaciones eficientes y naturales:

  1. Escuchar – Módulo de transcripción o Reconocimiento de voz a texto (STT). Cuando hablas a tu dispositivo, el audio se graba y el modelo lo transcribe.

  2. Inteligencia – Modelo de IA o Modelo de lenguaje grande (LLM). El texto transcrito se introduce en un prompt y pasa por un LLM. El LLM es la inteligencia central que simula a una persona real.

  3. Hablar – Texto a audio. El LLM genera texto (respuestas al prompt) que luego se reproduce en tu dispositivo.

Esta configuración no es exclusiva de Vapi. Es una infraestructura común para todas las plataformas de voz con IA. Sin embargo, hay dos cosas que distinguen a Vapi: su amplio soporte para modelos de IA y sus modelos de orquestación.

Soporte ilimitado para modelos de IA

A diferencia de otras plataformas que solo admiten unos pocos modelos, en Vapi puedes cambiar y combinar modelos de IA y herramientas con otros como ChatGPT, Claude, ElevenLabs y más. Vapi admite todo lo que puedas imaginar, incluso la opción de usar tus propios modelos personalizados. Esto asegura que puedas utilizar lo que mejor se adapte a tus necesidades o proyecto.

Lo mejor es que no necesitas ejecutar ni conectar tus cuentas externas, ya que Vapi admite la mayoría de los modelos de forma nativa. Por ejemplo, si quieres cambiar de OpenAI (el modelo LLM predeterminado) a Claude, puedes conectar tus claves API de Claude, pero no es obligatorio. Al cambiar el modelo dentro de la interfaz de Vapi, la plataforma cambiará a Claude internamente.

Modelos de orquestación

Modelos de orquestación son complementos de IA que funcionan sobre la funcionalidad principal para que las conversaciones sean más realistas y atractivas. La plataforma de Vapi es única en su capacidad para mejorar y ajustar los modelos de IA estándar con estos complementos.

Los modelos son:

  • Endpointing: Endpointing es cuando dejas de hablar con tu asistente de voz. En lugar de usar un tiempo de espera (el método estándar), Vapi utiliza un modelo personalizado de fusión audio-texto para detectar cuándo has dejado de hablar. Esto ayuda a reducir la latencia y hace que las conversaciones sean más naturales.
  • Interrupciones: La capacidad de reconocer cuando intentas interrumpir, permitiendo que el asistente pause y escuche. Muchos asistentes de voz con IA no tienen esta función, lo que puede hacer que la conversación se sienta poco natural.
  • Filtrado de ruido de fondo y voz: Vapi mejora la claridad de las llamadas filtrando el ruido de fondo y enfocándose en la voz del hablante. Esto ayuda a garantizar una transcripción precisa y una conversación más fluida, incluso en entornos ruidosos.
  • Backchanneling: Una forma más sofisticada para que el asistente entienda cuándo los rellenos verbales (o respuestas de backchannel) como “Ah”, “Sí”, “Uy”, etc., están destinados a provocar una acción del asistente o si solo son muletillas. Incluso puedes escribir un prompt para que tu bot use estos rellenos y así suene más natural al hablar.
  • Detección de emociones: Vapi puede analizar el tono del hablante para detectar emociones como felicidad, frustración o urgencia. Esto permite que el asistente responda de manera más empática y consciente del contexto.
vapi orchestration models include endpointing, interruptions, background noise and voice filtering, backchanneling, emotion detection. Image shows how these models are connected, what they do, and the models/providers associated with them

El propósito principal de estos modelos, además de hacer que tus asistentes sean más creíbles, es mejorar la latencia del voz a voz. "Voz a voz" es un término que indica el tiempo entre que una persona termina de hablar y el primer fragmento de voz del asistente de IA se reproduce en el dispositivo de la persona. El objetivo de Vapi es que el flujo de voz a voz sea de 500 a 700 ms o menos.

No he medido los tiempos de respuesta de mis asistentes, pero la diferencia es notable en comparación con otras aplicaciones como Synthflow. Los asistentes de Vapi respondieron mucho más rápido y se sintieron más ágiles que otras soluciones similares. Pero hay un detalle que veremos en la sección de pruebas del asistente.

Dicho esto, vamos a crear nuestro primer asistente en Vapi y ver cómo funciona.

Primeros pasos con Vapi

El producto principal de Vapi son sus asistentes, que son asistentes de voz automatizados (o bots) capaces de realizar o recibir llamadas. Para esta reseña, nos vamos a enfocar en la interfaz de usuario en vez de usar los kits de desarrollo de software (SDKs).

1. Creando tu primer asistente de IA en Vapi

En Vapi, solo pagas por los minutos que usas. Así que, igual que en Synthflow, puedes crear la cantidad de asistentes que quieras. Sin embargo, si quieres usar el asistente de IA por teléfono, tienes que comprar un número de teléfono diferente para cada asistente.

El primer paso es elegir si quieres crear un asistente desde cero o usar una de las plantillas existentes. Solo hay cuatro opciones de plantilla disponibles:

  • Agendador de citas: Un asistente de entrada para consultorios dentales que gestiona agendas, responde preguntas y brinda información sobre los servicios.
  • Atención al cliente: Una plantilla equilibrada que combina empatía y conocimientos técnicos para dar soporte eficiente.
  • Preguntas y respuestas de entrada: Diseñada para una agencia de diseño de interiores que ofrece soporte detallado sobre productos y ayuda con problemas.
  • Personaje no jugable de videojuego (NPC): Un asistente dentro del juego, Elenya, que da orientación, información sobre la historia y detalles del mundo del juego.
Creating Vapi Assistant Template

Si eres nuevo en el mundo de los prompts para chat, crear tu primer asistente de voz en Vapi puede ser bastante complicado. Para empeorar las cosas, todas las plantillas son para asistentes entrantes, así que no hay nada a lo que agarrarse si quieres crear un asistente saliente (cold outreach).

2. Configuración de tu asistente

Yo empecé con Mary, la asistente para agendar citas. La pantalla de configuración está organizada de forma un poco vaga en tres áreas principales que empiezan desde arriba: un desglose del costo y la latencia, pestañas para cambiar entre las configuraciones principales del asistente (Modelo, Transcriptor, Voz, etc.), y el área de configuración real con formularios para ingresar prompts, cambiar proveedores, etc.

Configuring Vapi Assistant Template

Desglose de costos y latencia

Vapi pone un fuerte énfasis en ofrecer asistentes rápidos y receptivos, manteniendo siempre una estructura de precios clara y transparente. Esto se nota desde la primera parte de la configuración del asistente, donde podemos ver un desglose de costos y latencia que cambia a medida que probamos diferentes modelos. Ten en cuenta que estos solo son estimados.

Los modelos que eliges para tu asistente pueden marcar una gran diferencia tanto en los costos como en la latencia. En el primer ejemplo de abajo, seleccioné el modelo de vista previa en tiempo real GPT-4o de OpenAI, lo que resultó en un costo de $0.22 por minuto con una latencia de 700 ms. Este es el nivel recomendado por Vapi.

Sin embargo, al cambiar al modelo de vista previa o1, la latencia aumentó drásticamente a 8000 ms (8 segundos), volviéndose demasiado lenta para una conversación natural. Además de los modelos, el "modo" (web o por teléfono, usando Twilio o Vonage) también puede afectar la latencia y los costos. Llevar un control de estos factores es clave para mantener un equilibrio óptimo entre precio y rendimiento al diseñar tus asistentes.

Vapi cost breakdown for GPT 4o shows a cost of $0.22/min and a latency of 700 ms
Vapi cost breakdown for GPT o1 preview model shows a cost of $0.19/minute and 8000 ms latency

Modelo, transcriptor, voz y otros

A continuación, puedes elegir qué aspecto de tu asistente quieres configurar. Las primeras tres opciones - modelo, transcriptor y voz - son esenciales para configurar tu asistente. Las otras tres - funciones, avanzado y análisis - ofrecen capacidades más avanzadas que quizá no necesites para tu primer asistente.

Configuring Vapi voice assistant Model, Transcriber, and Voice

Dejando de lado a nuestra asistente, Mary, voy a empezar desde cero y crearé a Jade, mi propio asistente inbound para gestionar la toma de pedidos en nuestro restaurante chino, The Golden Wok.

Los pasos que necesitamos seguir:

  1. Crear el asistente: Vamos a construir un asistente y darle instrucciones sobre cómo manejar las llamadas de nuestro restaurante.
  2. Conseguir un número de teléfono: Podemos usar un número existente o comprar uno directamente a través de Vapi.
  3. Vincular el asistente: Asignaremos el asistente al número de teléfono para que pueda empezar a contestar llamadas.
  4. Hacer una llamada y probar el asistente: Por último, marcaremos el número e interactuaremos con nuestro asistente.

3. Elegir el modelo de tu asistente (LLM)

En el primer capítulo de nuestra reseña, hablamos sobre los tres módulos principales de la infraestructura: Escuchar, Inteligencia y Hablar. Estos son los componentes clave que vas a configurar en las primeras tres pestañas de tu asistente:

  • Modelo (Inteligencia): El modelo de IA (LLM) que procesa y genera las respuestas.
  • Transcriptor (Escuchar): Convierte el lenguaje hablado en texto.
  • Voz (Hablar): Transforma las respuestas de texto en voz natural.

Vamos a empezar con el primero, el Modelo, donde puedes elegir el LLM y escribir tu prompt.

El modelo predeterminado es GPT 3.5 turbo de OpenAI, que es un buen punto de partida porque ofrece rapidez y una experiencia de interacción bastante buena. Sin embargo, puedes elegir de forma nativa entre más de 35 modelos de 16 proveedores diferentes.

Aunque esta gran cantidad de opciones es fantástica para quienes buscan personalización y flexibilidad a otro nivel, también puede ser abrumadora y generar parálisis de decisión para quienes no están familiarizados con los modelos de IA.

En ese sentido, la plataforma está más orientada a desarrolladores que a principiantes. Me gustaría que Vapi destacara modelos recomendados o incluso ofreciera un asistente dentro de la app que sugiriera el mejor modelo según tus necesidades. Dicho esto, Vapi resalta el modelo más rápido y económico de cada proveedor, que, al momento de esta reseña, es el GPT 4o Mini Cluster de OpenAI.

List of LLM models and providers available on Vapi. Breakdown includes latency and pricing for each model.

*Los modelos o1 de OpenAI todavía están en beta y no se recomienda usarlos en producción. Actualmente, los Prompts de Sistema y las Llamadas de Herramientas no son compatibles con los modelos o1, y la latencia es considerablemente mayor que en los modelos tradicionales.

Opciones avanzadas para configurar tu asistente de IA

Vapi tiene muchísimos niveles de personalización, así que vamos a profundizar un poco y ver algunas de las opciones de configuración más avanzadas y cómo funcionan.

Vapi Advanced Configuration includes configuring Knowledge Base, Temperature, Max Tokens, and Detect Emotion

Base de conocimientos

La configuración del modelo te permite conectar documentos personalizados con información sobre temas específicos para ofrecer respuestas más precisas e informativas a las consultas de los usuarios. Por ejemplo, puedes importar el menú de nuestro restaurante chino, los horarios y otra información relevante.

Temperatura

La temperatura se usa para controlar el nivel de aleatoriedad en las respuestas del asistente. Si la configuras más alta, obtendrás respuestas más aleatorias. Si la pones más baja, cerca de 0, las respuestas serán más predecibles.

Mientras probaba este ajuste, al principio pensé que al poner el valor en cero el asistente se mantendría estrictamente en el tema, evitando desviarse. Pero no fue así. Cuando le pedí a Jade que contara un chiste, siempre respondía de manera educada y graciosa, pero el contenido de los chistes variaba según el valor de la temperatura.

  • Con un valor de cero, los chistes estaban muy relacionados con el tema del restaurante. Por ejemplo: "¿Por qué la empanadilla fue a la escuela? ¡Porque quería ser wanton!"
  • Con un valor de 1.5, los chistes se volvieron más generales, abarcando temas más amplios sobre cocineros y comida, no solo cocina china.

Sin embargo, cuando subí el ajuste a 2 (el valor más alto), el asistente dejó de funcionar correctamente y respondió con frases sin sentido.

Por suerte, con algunas indicaciones, logré que Jade volviera al tema. Esto demuestra la importancia de probar bien tu asistente.

Máximo de tokens

El máximo de tokens de API que el asistente puede generar por turno en una conversación. Esto afecta directamente los costos de la API, así que poner un límite ayuda a mantener las respuestas concisas y económicas. Para controlar los gastos, lo mejor es dejar este valor en 250 o menos.

Detectar emoción

Activa esta función para detectar emociones de los usuarios, como enojo, alegría y frustración, y usarlas como contexto adicional para el modelo. En mi experiencia, no noté una gran diferencia al tener esta opción activada o desactivada. La elección del modelo de IA tuvo un impacto mucho mayor en cómo Jade manejaba las conversaciones. Por ejemplo, modelos más avanzados como GPT-4o respondían a mis quejas de estar muriéndome de hambre con más empatía, mientras que GPT-3.5 parecía mucho menos atento.

4. Escribir el prompt de tu IA

El prompt de tu asistente sirve como guía, estableciendo las reglas e instrucciones que seguirá durante las conversaciones. Si ya has usado ChatGPT antes, el proceso te resultará familiar. Puedes definir el prompt para tu asistente de Vapi en la pestaña "Modelo".

Creating a custom assistant in Vapi. Image shows AI prompt for the Golden Wok, a Chinese restaurant

Un detalle pequeño pero importante que valoro de Vapi es el campo donde puedes ingresar el “Primer Mensaje”. Esto es especialmente fundamental en llamadas salientes y era algo que me costaba lograr con los bots de Synthflow.

"Hola, habla Jade de The Golden Wok. ¿Puedo tomar tu pedido?"

Cosas que deberías incluir en tu prompt:

  • Conceptos básicos e introducción del asistente
  • Información del negocio
  • Información del cliente (si aplica)
  • Rol y objetivos principales del asistente
  • Instrucciones para la conversación y guion
  • Voz y tono
  • Instrucciones y limitaciones adicionales

Vamos a desglosar cada uno en mis prompts:

Introducción e información del negocio

Eres un asistente de voz para The Golden Wok, un restaurante chino ubicado en 456 Dragon Street, San Francisco, California. El restaurante abre de lunes a sábado de 11 a. m. a 10 p. m. y cierra los domingos. The Golden Wok ofrece una variedad de deliciosos platillos chinos a la comunidad local, incluyendo opciones populares como dumplings, arroz frito, pollo kung pao y chow mein.

Objetivo e instrucciones principales

El propósito principal del asistente:

Tu función principal es tomar pedidos de clientes, responder preguntas básicas sobre el menú y dar información sobre los horarios y servicios del restaurante. Si quien llama quiere hacer un pedido, tu objetivo es recopilar todos los detalles necesarios de manera amigable, eficiente y atractiva.”

Seguido por el guion de la llamada:

Así deberías manejarlo:

  1. Toma su pedido: Pregunta qué le gustaría pedir y confirma cualquier preferencia específica (por ejemplo, nivel de picante, extras, etc.).
  2. Recoge los datos de entrega o recogida: Pregunta si quiere entrega o recogida y, si es entrega, solicita la dirección.
  3. Confirma los datos de contacto: Pide amablemente su nombre y número de teléfono para asegurar que el pedido sea correcto.
  4. Revisa y confirma: Repite el pedido, los detalles de entrega/recogida y da el tiempo estimado de espera.”

Tono y estilo

Haz que tu asistente suene alineado con la marca con peticiones de estilo conversacional específicas:

  • “Sé casual, divertido y un poco ingenioso; piensa en el ambiente de un diner amigable, no en un call center formal.
  • Mantén las respuestas cortas y conversacionales, usando frases como 'Mmm…', '¡Entiendo!', '¡Suena delicioso!' y 'Vale, vamos a hacerlo!'
  • No hables demasiado; que se sienta como una charla natural, no un monólogo.
  • Si preguntan por platos del menú, destaca los más populares o especiales con entusiasmo, por ejemplo: '¡Uy, el pollo kung pao es el favorito de todos!'
  • Si no sabe qué pedir, sugiere combos populares o pregunta por sus preferencias de comida.
  • Si no sabes una respuesta, manténlo ligero: 'Mmm, buena pregunta. Déjame revisar eso por ti.'"

Consideraciones adicionales

  • Si preguntan por alérgenos, diles que los platillos pueden contener soya, gluten y nueces y que consulten con el restaurante para detalles específicos.
  • Si piden algo que no está en el menú, guíalos amablemente hacia opciones similares disponibles.
  • Termina cada llamada con una despedida alegre: '¡Gracias por llamar a The Golden Wok! Tu pedido estará listo pronto. ¡Que disfrutes tu comida!'
  • Con tu personalidad amigable y atractiva, harás que pedir en The Golden Wok sea una experiencia divertida y sencilla.”

Además, agregué las siguientes restricciones:

Mantente enfocado y evita cualquier conversación fuera de tema a toda costa.”

Este pequeño ajuste marcó una gran diferencia para que mi asistente se mantuviera enfocado y evitara conversaciones fuera de tema.

Por ejemplo, cuando le pedí a Jade que me contara un chiste, ella amablemente redirigió la conversación a su propósito principal: tomar pedidos de deliciosa comida china. Me encantó este resultado, especialmente porque no había logrado el mismo nivel de enfoque con los asistentes que creé usando Synthflow AI. Recomiendo mucho mantener una restricción similar en tu prompt para minimizar llamadas ineficientes y costos innecesarios.

Consejo profesional: Para crear tu propio prompt, puedes tomar mi ejemplo (o cualquier plantilla de Vapi), ingresarlo en ChatGPT y pedirle que genere un prompt de sistema personalizado según tu industria y caso de uso específico.

Lo sé. Un prompt para crear otro prompt, inspirado en otro prompt. ¡Tan meta!

5. Configuración del transcriptor

En Vapi, el módulo de transcripción se encarga de convertir el lenguaje hablado en texto. Esto permite que el asistente de voz procese y entienda las entradas del usuario de manera efectiva, además de transcribir tus llamadas.

Setting up the transcriber in Vapi AI, which can support 100+ languages

Los modelos disponibles admiten transcripción en más de 100 idiomas diferentes.

6. Dale voz a tu asistente

El módulo de Voz es el tercer componente clave de la infraestructura de Vapi, y se encarga de convertir las respuestas basadas en texto del asistente de IA (que provienen del LLM) en audio hablado. Funciona como el motor de texto a voz (TTS), permitiendo que el asistente se comunique de forma natural con las personas a través de la voz.

Vapi ofrece una amplia variedad de voces con diferentes acentos y tonos para que las conversaciones se sientan más naturales. Trabaja con los principales proveedores de TTS como ElevenLabs y Deepgram, dándote muchas opciones para encontrar la voz ideal para tu marca.

La latencia y los precios varían según el modelo, así que probar algunos te ayudará a encontrar el mejor equilibrio entre costo y calidad. ¿Quieres escuchar las voces? Puedes probar una en la página principal de Vapi.

Vapi AI assistant voice configuration screen shows options for selecting the provider and voice

Me sorprendió gratamente la variedad de voces disponibles. Ya sea que necesites una voz relajada de Nueva York o la de una princesa noble y aristocrática, hay una opción para cada necesidad. Vapi también ofrece una increíble sección de Biblioteca de Voces que puedes abrir en otra pestaña para escuchar las voces e incluso buscar por género y acento.

Vapi Voice Library  shows a range of voices, languages, and accents

Algo que no queda claro de inmediato es si una voz admite el mismo idioma que el prompt y el transcriptor. Probé cambiando mi prompt a un par de idiomas diferentes, y las voces que probé los manejaron bien. Aun así, la única forma confiable de confirmar la compatibilidad es probando por uno mismo.

7. Funciones

“Funciones” o “Herramientas” (Vapi parece usar ambos términos de manera intercambiable) permiten que tus asistentes realicen acciones y tareas personalizadas durante la llamada. Puedes agregar estas Herramientas desde la Biblioteca de Herramientas (una página aparte dentro de la plataforma).

Setting up custom predefined functions for a Vapi AI assistant

Hay varios tipos de herramientas:

Herramientas predefinidas

Actualmente, hay tres disponibles:

  • Habilitar función de finalizar llamada: Permite que el asistente finalice la llamada por sí mismo. (Ideal para modelos GPT-4 y superiores).
  • Teclado de marcación: El asistente puede ingresar dígitos en el teclado.
  • Número de desvío: Este número se usa para transferir llamadas desde el asistente. (Solo aplica para llamadas telefónicas, no para llamadas web). El número de desvío puede ser cualquier número. No es necesario que esté registrado en Vapi. También se recomienda incluir una línea en tu mensaje, como: Si es necesario, desvía cualquier llamada a [tu número de teléfono].

Herramientas personalizadas

Esta es una función para desarrolladores que permite crear acciones personalizadas a través de una API. Por ejemplo, puedes recopilar información del usuario durante la llamada y enviarla a un servidor.

Integraciones

Puedes conectar tus cuentas de Make o GoHighLevel mediante una URL de webhook.

Ten en cuenta que actualmente las integraciones dependen de webhooks en lugar de ser completamente nativas. Aunque esto no es necesariamente una desventaja, vale la pena mencionar que la configuración puede requerir un poco más de experiencia técnica.

8. Configuración avanzada

Como su nombre indica, esta pestaña te permite configurar diferentes opciones avanzadas como ajustes de privacidad, personalización de conversaciones y mensajes que el asistente puede enviar.

Vapi AI advanced settings show options to set privacy, fine tune conversation and messages assistant can send

En general, me sorprendió gratamente la variedad de funciones disponibles. Es evidente que Vapi realmente destaca al ofrecer opciones de personalización sólidas para tu asistente en comparación con otras alternativas.

Privacidad

Este panel te permite desactivar la grabación de llamadas y videos. Esto es especialmente importante para quienes están en la UE.

Consejo profesional: Usuarios de la UE, recuerden que si planean grabar sus llamadas, deben incluir un aviso en su mensaje de bienvenida para informar al cliente.

Vapi privacy settings panel shows option to enable HIPAA compliance, enable or disable audio and video recording

Instrucciones para iniciar y detener el habla

Estos paneles te permiten ajustar los tiempos de espera y las interrupciones de tu asistente durante las interacciones.

Según mis pruebas, la función de Smart Endpointing mejoró el flujo natural de la conversación. Redujo las interrupciones incómodas del asistente, así que te recomiendo dejarla activada. Por supuesto, al final tienes que probar tu voicebot antes de ponerlo en producción. Hablamos más a fondo sobre eso en la última sección.

Vapi voice speaking instructions screen shows settings for how and when the assistant should start and stop speaking

Configuración de tiempo de espera de llamadas

Aquí puedes establecer los parámetros para determinar cuándo el asistente debe finalizar una llamada, ya sea por silencio del cliente o por alcanzar la duración máxima permitida. Esto es clave para mantener los costos bajo control.

Vapi call timeout settings options show settings for silence timeout and maximum call duration

Mensajes

Por último, tienes configuraciones para los mensajes que tu asistente puede enviar, incluyendo mensajes de buzón de voz, mensajes de fin de llamada y mensajes de inactividad (por ejemplo, “¿Sigues ahí?”). También tienes opciones para enviar mensajes de forma programada a tu servidor (solo para desarrolladores).

Vapi messages settings screen shows settings for sending voicemail, end call messages and what to say if the call is idel

9. Análisis

La última sección del configurador del asistente te permite especificar los prompts y ajustes para el análisis de la llamada, incluyendo el prompt para el resumen de la llamada, los criterios de éxito y la extracción de datos estructurados.

Vapi AI call analysis configuration allows you to set up a prompt for the AI to evaluate the client's behavior during the call

La Evaluación del Éxito y la Extracción Estructurada de Datos serán especialmente importantes para las llamadas de ventas y la calificación de leads. Juntas, pueden usarse para puntuar leads.

Un ejemplo de prompt para el sistema de Evaluación del Éxito podría verse así:

"Evalúa el comportamiento del cliente durante la llamada según:

  1. Participación: ¿Participó activamente y mostró interés?

  2. Claridad: ¿Comunicó claramente sus necesidades o metas?

  3. Receptividad: ¿Estuvo abierto a sugerencias y soluciones?

  4. Manejo de objeciones: ¿Fue cooperativo al abordar inquietudes?

  5. Toma de decisiones: ¿Mostró disposición para tomar la acción deseada?

  6. Proporciona un breve desglose de fortalezas, debilidades y sugerencias para mejorar la participación del cliente si es necesario."

Incluso puedes especificar la rúbrica de evaluación para el prompt. El marco que establece los criterios de evaluación:

Vapi success evaluation rubric allows you to set out the criterial for evaluating a call and scoring leads

10. Elegir un número de teléfono

Se requieren números de teléfono en Vapi para hacer o recibir llamadas telefónicas.

Puedes comprar números de teléfono de EE. UU. y Canadá directamente desde Vapi por $2 al mes por número o importar tus números desde Twilio o Vonage ingresando tu String Identifier (SID) de Twilio/Vonage.

La función para comprar números de forma nativa es bastante limitada por ahora. Solo puedes comprar números de EE. UU. y Canadá, y tienes que ingresar manualmente el código de área local para encontrar un número. Además, no puedes hacer llamadas salientes a ningún otro país con un número nativo. En otras palabras, tienes que usar la función de importación si operas fuera de estos dos países o si haces llamadas a números internacionales. Esto es bastante restrictivo y representa un retroceso importante en comparación con la interfaz de Synthflow para comprar números.

Cuando compras el número, tienes dos opciones:

  • Configuración de entrada: Puedes vincular tu número a un asistente de entrada. Cuando alguien llame a ese número, tu asistente de IA responderá las llamadas.
  • Configuración de salida: Puedes hacer que tu asistente llame a un número de salida específico. Lamentablemente, la plataforma no ofrece una función de campañas en lote (como sí lo hace Synthflow), lo que hace que las llamadas salientes desde la interfaz sean poco prácticas. Dicho esto, aún puedes automatizar este proceso usando la API.
Vapi phone numbers screen shows inbound and outbound settings and numbers

11. Prueba y publicación de tu asistente

Una vez que configuras tu asistente, por fin estás listo para hacer pruebas finales y publicarlo en vivo. Vapi te da $10 de créditos gratis para probar. Puedes hacer seguimiento de su uso en tu página de facturación.

Puedes llamar al asistente desde el navegador web o usar la opción de número telefónico para hacer llamadas entrantes o salientes desde el teléfono.

Con mi prompt personalizado y GPT 4o Mini como modelo base, Jade funcionó increíblemente bien, manteniendo una conversación coherente y fluida. El mensaje de bienvenida funcionó perfecto (algo que me costó lograr con Synthflow) y las restricciones para evitar conversaciones fuera de tema funcionaron mejor de lo que esperaba.

Eso sí, noté que al reducir la latencia por debajo de 750 ms, el asistente se sentía poco natural. Como dice el dicho, "Demasiado de algo bueno puede ser malo" y esto también aplica para la velocidad de tu asistente. El asistente respondía demasiado rápido, interrumpiendo y superponiéndose a lo que yo decía. Esto puede ser especialmente problemático para audiencias de ritmo más lento, como personas mayores o quienes no son hablantes nativos. Para mí, el punto ideal estuvo entre 750 ms y 900 ms, que por suerte fue muy fácil de ajustar con la cantidad de opciones y modelos disponibles.

Las pruebas con número telefónico funcionaron perfecto, pero me decepcionó descubrir que no hay una opción para incrustar en la web como en Synthflow. Si quieres lanzar tu asistente en la web, por ahora solo puedes hacerlo de forma programática.

Otra desventaja de las pruebas es que no hay función de chat por texto. En Synthflow puedes interactuar con tus asistentes por texto, simulando una llamada real sin usar llamadas telefónicas o web, lo que ayuda a ahorrar créditos durante las pruebas.

Funciones avanzadas de Vapi

Vapi tiene algunas funciones avanzadas que todavía no hemos visto. Vamos a revisarlas.

Crea procesos multietapa con bloques

La función de bloques en Vapi es un creador visual de flujos de trabajo avanzado que ofrece potentes opciones de personalización y automatización para tus asistentes de voz. Con bloques, puedes diseñar y conectar una serie de pasos, combinando pasos conversacionales y herramientas externas para crear una experiencia fluida para el cliente. Esto se puede usar para conversaciones de varios pasos, transferencias, manejo de errores, lógica visual e interacciones programáticas con tu servidor y base de datos.

Para nuestro restaurante chino, un posible flujo de trabajo podría ser así:

  1. Saludar al cliente y pedirle su número de pedido.
  2. Usar un bloque de API para consultar tu base de datos por los detalles del pedido.
  3. Darle al cliente el estado de su pedido.
  4. Ofrecerle la opción de hablar con un representante si necesita más ayuda.
Blocks feature in Vapi AI

Haz que tu equipo de asistentes funcione como una máquina bien aceitada con Squads

La función Squads de Vapi permite la colaboración fluida entre varios asistentes para crear un sistema de gestión de llamadas más dinámico y eficiente. Esta funcionalidad permite transferir llamadas entre asistentes cuando uno no está disponible y también ayuda a simular un proceso completo de varios pasos, como la investigación de prospectos, la calificación y el cierre de acuerdos. Lo mejor es que puedes llamar al Squad y probar a todo el equipo de asistentes.

Squads de Vapi destaca en escenarios donde se necesitan varios asistentes para manejar diferentes etapas de un proceso. Por ejemplo:

  1. Investigación de prospectos: El primer asistente recopila información clave sobre un prospecto, como su negocio, necesidades y datos de contacto.
  2. Calificación de prospectos: Un segundo asistente evalúa si el prospecto es adecuado haciendo preguntas específicas y determinando si cumple con los criterios de tu producto o servicio.
  3. Registro de datos del prospecto: Una herramienta registra los datos del prospecto en tu servidor y en tu CRM.
  4. Cierre del acuerdo: El tercer asistente se encarga de la etapa final, resolviendo objeciones específicas, explicando precios o incluso procesando un pedido a través de una herramienta.
Squads feature in Vapi AI

Enriquece el conocimiento del asistente con archivos

Una de las funciones más destacadas de Vapi es su capacidad para importar archivos como "Base de conocimientos". Esto mejora mucho la capacidad del asistente para ofrecer respuestas precisas y detalladas. Solo tienes que subir documentos relevantes directamente y se vuelven consultables al instante.

Para nuestro restaurante chino, The Golden Wok, obtuve el menú de mi restaurante asiático local favorito en un archivo de texto. Luego, lo importé en Vapi como la Base de conocimientos del asistente. El proceso fue rápido y sencillo:

Primero, subí el archivo del menú en la sección Archivos:

Vapi Files screen lets you upload data to the knowledge base, such as a menu for our Chinese restaurant

Luego, lo seleccioné como Base de Conocimiento en la configuración del asistente:

Files uploaded to Vapi can be selected under an assistant's knowledge base. Here, a menu for the Golden Wok is being added to our assistant, Jade's, Knowledge Base

En cuestión de segundos, el asistente procesó la información y la puso a tu alcance.

Cuando lo probé, pregunté: "¿Qué hay en el menú?" Jade respondió de forma precisa y sin esfuerzo, enumerando todos los platillos tal como aparecían en el archivo. Incluso recomendó opciones específicas según mis gustos y detalló los ingredientes de algunos platillos.

Precios de Vapi

Vapi hace todo lo posible por ayudarte a entender los costos por minuto de las llamadas de voz. Ofrece un desglose completo de la estructura de costos de tus asistentes, incluyendo el margen de Vapi. Lo más importante es que Vapi ofrece un precio más bajo en comparación con otras alternativas.

Vapi Pricing Example

El costo por minuto depende de cuatro componentes variables:

  • Modelos de IA: Los modelos más avanzados como GPT-4 son más caros que las opciones más ligeras. Los costos varían desde $0.32 hasta menos de $0.01.
  • Proveedores de voz: Los costos varían entre los proveedores de texto a voz, como ElevenLabs, y van desde $0.65 hasta $0.001.
  • Módulo de escucha: Los costos para un proveedor de voz a texto como Deepgram van desde $0.017 hasta $0.008.
  • Precio fijo de Vapi de $0.05 por minuto.

Como puedes ver, el costo total varía bastante. Puedes esperar un costo total por minuto de llamada entre $0.07 y $1.03 en el extremo más alto. Además, recuerda que estos son estimados, no el precio exacto que vas a pagar. La buena noticia es que igual obtienes llamadas de alta calidad incluso con los modelos más económicos.

En tu panel puedes hacer seguimiento de tu gasto real y del costo promedio por llamada. Ten en cuenta que es el costo por llamada, no por minuto, pero puedes calcularlo si divides el total de minutos de llamada entre el total gastado. También puedes probar tu asistente para tener una idea de cuál será tu costo por llamada.

Vapi AI Dashboard shows call minutes, number of calls, pricing, and other statistics

Veredicto final

Vapi es una herramienta fantástica para quienes buscan una personalización profunda, ofreciendo conversaciones fluidas, con baja latencia y una flexibilidad impresionante. Aunque puede intimidar a quienes no están familiarizados con los modelos de IA, sus potentes funciones la hacen destacar.

Sin embargo, le faltan algunas opciones de interfaz, como escribir mensajes en el chat, y la pantalla para comprar números telefónicos podría ser más intuitiva. Además, no tiene opciones para incrustar. Aun así, su precio accesible y escalabilidad la convierten en una excelente opción para negocios que quieren escalar sus operaciones de llamadas de manera eficiente, especialmente si no tienes miedo de experimentar con modelos de IA.

    Pros

  • Modelos personalizables

    -

  • Máxima flexibilidad para personalizar y ajustar conversaciones

    -

  • Desglose transparente de precios

    -

  • Precio más bajo que otras opciones

    -

  • Bots de voz de baja latencia

    -

  • Conversaciones fluidas y naturales

    -

  • Las instrucciones del prompt funcionan perfectamente

    -

  • Amplia biblioteca de voces

    -

  • API robusta y la plataforma más completa para desarrolladores

    -

    Contras

  • Sin campañas por lotes para envíos masivos

    -

  • Sin mensajes de chat

    -

  • Plantillas prediseñadas poco atractivas

    -

  • Sin widget integrable para desplegar el asistente en la web

    -

  • Los chatbots con latencia muy baja (<700ms) pueden ser difíciles de usar

    -

  • Solo puedes comprar números de EE. UU. y Canadá de forma nativa, aunque se pueden importar números de Twilio y Vonage

    -

  • Las opciones de modelos y ajustes pueden ser confusas para principiantes

    -

Crea tu asistente de voz con IA usando Vapi

Integración fluida para llamadas y apps

Alternativas a Vapi

Synthflow AI

Synthflow AI es una alternativa sólida a Vapi, especialmente para quienes buscan una plataforma intuitiva para crear flujos de trabajo impulsados por IA sin necesidad de conocimientos técnicos avanzados. Ofrece una interfaz sin código, lo que la hace accesible para usuarios con poca experiencia en programación, pero sin dejar de ofrecer opciones potentes de personalización. La mayor diferencia está en el conjunto de funciones disponibles en la interfaz (y por lo tanto, disponibles para quienes no son desarrolladores). Estas incluyen campañas por lotes (para campañas masivas de salida), widgets integrables y extracción de datos. Puedes consultar nuestra comparación cara a cara de Synthflow AI vs. Vapi para conocer más sobre cómo se comparan.

Bland AI

Bland.ai es una alternativa avanzada a Vapi, enfocada en empresas. A diferencia de Vapi, que es más accesible gracias a su opción sin código, Bland.ai se centra en ofrecer un nivel aún mayor de flexibilidad para desarrolladores. La plataforma está llena de funciones empresariales como seguridad SOC2 Tipo II, pagos por teléfono con PCI DSS y más.

Retell AI

Retell AI está enfocada en ayudarte a implementar agentes de voz con IA de forma sencilla. Al igual que Synthflow, se centra principalmente en la interfaz de usuario de la plataforma. Ofrece funciones nativas para agendar una reunión (a través de Cal.com), sincronización automática de tu base de conocimientos, desvío de llamadas y más.

Preguntas frecuentes

¿Se puede usar Vapi sin ser desarrollador?

Sí, Vapi ofrece una interfaz completamente funcional, pero le faltan algunas funciones en comparación con la API para desarrolladores, como una interfaz para extracción de datos y un widget integrable para el asistente.

¿Quién es el fundador de Vapi?

Vapi fue fundada por Jordan Dearsley y Nikhil Gupta en 2023. La empresa tiene su sede en San Francisco, Estados Unidos.

¿Vapi es de código abierto?

No, Vapi no es de código abierto. Es una plataforma comercial. Sin embargo, ofrece amplias opciones de personalización e integración a través de su API, incluyendo opciones de código abierto.

¿Cuál es la alternativa open source a Vapi?

Actualmente, no existe una solución completamente de código abierto disponible en el mercado. Sin embargo, si tienes los recursos de desarrollo y el tiempo, puedes crear tu propia plataforma usando modelos de código abierto.

Link Icon

Soy cofundador de una plataforma de automatización del marketing y estoy obsesionado con todo lo relacionado con el marketing y el crecimiento de SaaS. En mi tiempo libre me encanta ir al gimnasio y jugar videojuegos.

Por qué confiar en Softailed

Nuestros redactores son profesionales del sector con experiencia práctica en los temas que tratan. Cada artículo pasa por un proceso de revisión de varias fases: verificación de datos, edición por expertos y aprobación final. Priorizamos la precisión para que nunca tengas que dudar. Conoce nuestras normas editoriales.