Voice · MCP · Tools · App Intents · Realtime
Dos direcciones, una misma disciplina. Integramos agentes de voz conversacionales dentro de tus apps y exponemos tus productos como herramientas para que ChatGPT, Claude, Siri o Gemini ejecuten acciones en nombre del usuario.
Fundamentos
Voice AI —inteligencia artificial de voz— es la tecnología que permite a las máquinas escuchar, entender y hablar con las personas en lenguaje natural, sin fricción, en tiempo real. No hablamos de comandos rígidos tipo IVR («marque 1 para ventas»), ni de chatbots de texto disfrazados con un TTS robótico. Hablamos de agentes conversacionales de voz que combinan reconocimiento de habla (STT), modelos de lenguaje (LLM) y síntesis de voz neuronal (TTS) en un pipeline end-to-end que responde en menos de un segundo, con entonación humana y manejo natural del turno de palabra.
2026 es el año en el que esta tecnología ha dejado de ser experimental. Las APIs Realtime de OpenAI y Gemini Live, las voces clonadas de ElevenLabs y Cartesia, el transporte WebRTC sobre infraestructura global y una nueva generación de modelos optimizados para diálogo han hecho que construir una experiencia de voz conversacional cueste un 90 % menos que hace dos años. Para cualquier empresa que trate con clientes por teléfono —atención al cliente, agendamiento, soporte técnico, cobros, onboarding o acceso a servicios— ignorar voice AI equivale a ignorar la web en 1998.
Un agente de voz en producción no es un modelo, son seis piezas encajadas: Voice Activity Detection (VAD) para saber cuándo el usuario habla y cuándo calla; Speech-to-Text en streaming (STT) con diarización multi-hablante y soporte de más de 50 idiomas; un LLM con function calling y RAG sobre tu base de conocimiento corporativa, que decide qué decir y qué acciones ejecutar; Text-to-Speech neuronal (TTS) con voces clonadas y streaming por chunks para que la respuesta empiece a sonar mientras se sigue generando; transporte en tiempo real vía WebRTC, SIP o PSTN; y la capa más compleja, la gestión de turno y barge-in, que permite interrumpir al agente cuando el usuario vuelve a tomar la palabra.
La latencia es el producto. Si el usuario espera más de 800 milisegundos entre el final de su frase y el inicio de la respuesta del agente, la experiencia se rompe: parece que la máquina no entiende. Un agente bien construido queda por debajo de 500 ms end-to-end en red móvil 4G y por debajo de 300 ms en WiFi. Conseguir esto exige streaming en todas las capas, edge peering, elección correcta de modelo y códec de audio, y una optimización fina del jitter buffer. No es un detalle técnico: es lo que separa una demo atractiva de un producto usable.
La IVR de los últimos veinte años se basa en árboles de decisión rígidos: «marque 1», «diga una palabra clave», «espere 10 segundos». Funciona para dos o tres opciones y se rompe con cualquier petición fuera del guion. Un agente de voz con IA generativa entiende intención, contexto y matices. Puede resolver en una frase lo que la IVR tradicional resuelve en cuatro menús anidados, puede escalar a humano cuando detecta que no puede ayudar, y puede personalizar la conversación con datos del CRM en tiempo real —nombre del cliente, historial, preferencias, estado del pedido— sin que el usuario tenga que introducir ningún dato.
El impacto económico es medible. Los primeros despliegues de voice AI en call centers muestran reducciones del 40-70 % en el coste por llamada manejada, tiempos de resolución en segundos en lugar de minutos, y —clave— tasas de satisfacción iguales o superiores a las del agente humano para tareas estructuradas: consulta de pedidos, cambio de cita, incidencias de nivel 1, pagos recurrentes, reposición, onboarding. El humano se reserva para los casos donde realmente aporta valor diferencial: ventas complejas, incidencias graves, relación de cuenta estratégica.
Voice AI aporta más retorno cuando combina tres factores: volumen (cientos o miles de interacciones al mes que hoy se gestionan por teléfono o email), estructura (las interacciones siguen patrones repetibles aunque no idénticos) y urgencia (el usuario valora la respuesta inmediata). Atención al cliente 24/7, triaje sanitario, drive-thru y retail, asistentes hands-free en automoción, tutores de idiomas conversacionales y accesibilidad para usuarios con movilidad o visión reducidas son los casos con retorno más rápido. En cambio, interacciones únicas, de alta complejidad o con tolerancia cero al error —intervenciones médicas, decisiones legales vinculantes, operaciones financieras de gran volumen— siguen siendo territorio humano.
En Dribba desplegamos voice AI en producción desde 2024, combinando las APIs más maduras del mercado con nuestra experiencia en apps Flutter, backends de alto rendimiento e integración con CRMs, ERPs y sistemas telefónicos empresariales. Si tienes un caso de uso —una línea telefónica saturada, una app que podría contestar por voz, un proceso repetitivo que consume horas de tu equipo— el primer paso es una sesión de 45 minutos donde analizamos viabilidad, stack recomendado y retorno esperado. Sin formulario, sin compromiso.
Tecnologías
Un agente de voz en producción no es un modelo, son seis piezas encajadas con precisión: percepción, razonamiento, habla y transporte en tiempo real.
Speech-to-Text
Speech-to-Text en streaming con confianza por palabra, diarización de hablantes y modelos multilingües. Latencia del primer token bajo 300 ms.
Text-to-Speech
Síntesis de voz neuronal con voces clonadas, control de entonación y streaming por chunks. Voces que suenan humanas en iOS, Android y telefonía.
Language Model
El cerebro del agente: function calling, RAG sobre tu base de conocimiento, guardrails y prompts de sistema afinados para diálogo hablado, no chat.
Voice Activity Detection
Voice Activity Detection robusto a ruido y eco. Detecta cuándo el usuario empieza y deja de hablar para disparar transcripción y cerrar turno sin cortar frases.
Low-latency Transport
WebRTC, WebSockets y SIP para transportar audio bidireccional con latencia mínima. Integración con LiveKit, Daily, Twilio y la red telefónica pública.
Barge-in & Flow Control
La parte difícil: barge-in, interrupciones, pausas naturales y gestión de turno. Lo que diferencia un agente usable de una IVR moderna.
Integraciones con agentes
La otra dirección: exponer tu producto para que agentes externos —ChatGPT, Claude, Siri, Gemini o un orquestador propio— puedan invocar acciones en nombre del usuario. MCP, App Intents, App Actions y webhooks, hechos bien.
Model Context Protocol
Implementamos servidores MCP que exponen las capacidades de tu app como herramientas tipadas que Claude Desktop, Cursor, ChatGPT o cualquier cliente MCP puede descubrir e invocar en tiempo real.
OpenAI Apps SDK
Creamos GPT Actions con OpenAPI y Apps para ChatGPT con el Apps SDK. Auth OAuth 2.0, scopes, rate limits y esquemas validados para que tu producto viva dentro del ChatGPT de tus clientes.
Tool Use · Computer Use
Integramos tu app con Claude vía Tool Use y, cuando aplica, Computer Use para tareas de navegador. Guardrails, retries deterministas y logging por turno para llevarlo a producción.
Siri · Apple Intelligence
Implementamos App Intents en Swift para que tu app sea invocable desde Siri, Apple Intelligence, Shortcuts, Spotlight y la pantalla de bloqueo. Parámetros, resultados y vistas en vivo.
Gemini · Google Assistant
Registramos App Actions para que Gemini y Google Assistant puedan lanzar flujos de tu app Android con intents comunes (ORDER_MENU_ITEM, GET_ORDER, etc.) o built-in intents personalizados.
n8n · LangGraph · Zapier
Para orquestación multi-agente conectamos con n8n, LangGraph, Pipedream, Zapier o Make. Webhooks bidireccionales, retries, idempotencia y observabilidad por evento.
Casos de uso
Agentes de voz inbound y outbound que resuelven FAQs, gestionan citas, califican leads y escalan a humano. Integrados con CRM, Zendesk, HubSpot y telefonía Twilio.
Asistentes de voz para triaje pre-consulta, recordatorios de medicación y seguimiento post-alta. Cumplimiento GDPR, HIPAA y conexión con EHR existentes.
Asistentes hands-free para CarPlay y Android Auto. Control por voz de navegación, clima, música y funciones OEM con foco en seguridad y eyes-on-road.
Interfaces voice-first para IoT, Matter y accesibilidad. Wake word propio, on-device opcional y soporte para usuarios con movilidad o visión reducidas.
Toma de pedidos por voz en drive-thru, kioscos y quiosco digital, con POS y ERP. Multilingüe, robusto a ruido de tráfico y adaptable a menús locales.
Tutores conversacionales para práctica de idiomas con corrección de pronunciación, feedback CEFR y role-play. Sin fricción: hablar y aprender, no teclear.
Por qué importa
01
Por encima de 800 ms de respuesta, el usuario percibe que "la máquina no le entiende". Diseñamos el pipeline completo —STT streaming, LLM, TTS por chunks, WebRTC— para quedarnos bajo 500 ms end-to-end.
02
Cualquiera puede conectar Whisper y ElevenLabs. Lo difícil es cortar al agente cuando el usuario habla, no pisar frases, manejar pausas naturales y evitar que el modelo "alucine" respuestas sin contexto.
03
Ruido de cafetería, acentos, personas mayores, red 4G inestable, bluetooth con eco. Entrenamos y probamos contra condiciones reales, no contra un micrófono de estudio.
04
Trabajamos con OpenAI Realtime, Gemini Live, ElevenLabs, Deepgram, LiveKit y Pipecat en proyectos en producción. Sabemos qué pila conviene a cada caso y qué combinaciones son una trampa.
Nuestro stack técnico
Preguntas frecuentes
Con Realtime API (OpenAI o Gemini Live), STT streaming y TTS por chunks sobre WebRTC conseguimos 400–600 ms end-to-end en móvil 4G y <300 ms en WiFi. En telefonía PSTN, entre 600–900 ms dependiendo del carrier.
Español (neutro y regional), catalán, inglés, francés, portugués, italiano y alemán funcionan a calidad de producción. Para otros idiomas analizamos qué combinación STT/TTS/LLM rinde mejor antes de comprometer.
Combinamos supresión de ruido (RNNoise / NVIDIA Broadcast), VAD robusto (Silero), adaptación de dominio en el prompt y test sets reales grabados en entornos del cliente. Evaluamos WER por cohorte antes de lanzar.
Sí. Integramos vía Twilio Voice, Vonage, SIP trunk directo o WebRTC embebido en tu app Flutter / web. También enlazamos con tu CRM, ERP, EHR o backend propio vía function calling y webhooks.
Para casos HIPAA, banca o defensa desplegamos en tu VPC (Azure, AWS, GCP) con modelos auto-alojados (Whisper, Llama, voces locales). También hacemos modos híbridos: STT on-device y LLM en nube europea.
Desde 30.000€ para un MVP de agente de voz con un caso de uso acotado y métricas claras. Proyectos enterprise con integración telefónica, multilingüe y SLA parten habitualmente de 80.000€.
Sí. Implementamos servidores MCP para que Claude Desktop, Cursor y ChatGPT (vía MCP y Apps SDK) invoquen tu app. Para Siri y Apple Intelligence creamos App Intents en Swift; para Gemini y Google Assistant, App Actions en Android. También desplegamos GPT Actions con OpenAPI si prefieres integración tradicional.
El agente de voz vive dentro de tu app: el usuario habla con tu producto. La integración con agentes invierte la dirección: tu producto se convierte en herramienta que ChatGPT, Claude, Siri o Gemini pueden invocar para ejecutar acciones en nombre del usuario. Ambas se complementan y suelen desplegarse juntas.
Cuéntanos el caso, el volumen esperado y los canales. Te decimos si tiene sentido, qué pila recomendamos y cuánto costaría.