VOICE
Voice AI · Agentes de voz · Integraciones con agentes

Agentes de voz
y apps para agentes.

Voice · MCP · Tools · App Intents · Realtime

Dos direcciones, una misma disciplina. Integramos agentes de voz conversacionales dentro de tus apps y exponemos tus productos como herramientas para que ChatGPT, Claude, Siri o Gemini ejecuten acciones en nombre del usuario.

Ver proyectos →
STT / ASRTTSLLMVADRealtime / WebRTCTurn-taking

Fundamentos

Qué es voice AI y por qué está redefiniendo la atención al cliente, las apps y la relación con el usuario.

Voice AI —inteligencia artificial de voz— es la tecnología que permite a las máquinas escuchar, entender y hablar con las personas en lenguaje natural, sin fricción, en tiempo real. No hablamos de comandos rígidos tipo IVR («marque 1 para ventas»), ni de chatbots de texto disfrazados con un TTS robótico. Hablamos de agentes conversacionales de voz que combinan reconocimiento de habla (STT), modelos de lenguaje (LLM) y síntesis de voz neuronal (TTS) en un pipeline end-to-end que responde en menos de un segundo, con entonación humana y manejo natural del turno de palabra.

2026 es el año en el que esta tecnología ha dejado de ser experimental. Las APIs Realtime de OpenAI y Gemini Live, las voces clonadas de ElevenLabs y Cartesia, el transporte WebRTC sobre infraestructura global y una nueva generación de modelos optimizados para diálogo han hecho que construir una experiencia de voz conversacional cueste un 90 % menos que hace dos años. Para cualquier empresa que trate con clientes por teléfono —atención al cliente, agendamiento, soporte técnico, cobros, onboarding o acceso a servicios— ignorar voice AI equivale a ignorar la web en 1998.

Cómo funciona un agente de voz conversacional

Un agente de voz en producción no es un modelo, son seis piezas encajadas: Voice Activity Detection (VAD) para saber cuándo el usuario habla y cuándo calla; Speech-to-Text en streaming (STT) con diarización multi-hablante y soporte de más de 50 idiomas; un LLM con function calling y RAG sobre tu base de conocimiento corporativa, que decide qué decir y qué acciones ejecutar; Text-to-Speech neuronal (TTS) con voces clonadas y streaming por chunks para que la respuesta empiece a sonar mientras se sigue generando; transporte en tiempo real vía WebRTC, SIP o PSTN; y la capa más compleja, la gestión de turno y barge-in, que permite interrumpir al agente cuando el usuario vuelve a tomar la palabra.

La latencia es el producto. Si el usuario espera más de 800 milisegundos entre el final de su frase y el inicio de la respuesta del agente, la experiencia se rompe: parece que la máquina no entiende. Un agente bien construido queda por debajo de 500 ms end-to-end en red móvil 4G y por debajo de 300 ms en WiFi. Conseguir esto exige streaming en todas las capas, edge peering, elección correcta de modelo y códec de audio, y una optimización fina del jitter buffer. No es un detalle técnico: es lo que separa una demo atractiva de un producto usable.

Voice AI vs IVR tradicional: por qué no son comparables

La IVR de los últimos veinte años se basa en árboles de decisión rígidos: «marque 1», «diga una palabra clave», «espere 10 segundos». Funciona para dos o tres opciones y se rompe con cualquier petición fuera del guion. Un agente de voz con IA generativa entiende intención, contexto y matices. Puede resolver en una frase lo que la IVR tradicional resuelve en cuatro menús anidados, puede escalar a humano cuando detecta que no puede ayudar, y puede personalizar la conversación con datos del CRM en tiempo real —nombre del cliente, historial, preferencias, estado del pedido— sin que el usuario tenga que introducir ningún dato.

El impacto económico es medible. Los primeros despliegues de voice AI en call centers muestran reducciones del 40-70 % en el coste por llamada manejada, tiempos de resolución en segundos en lugar de minutos, y —clave— tasas de satisfacción iguales o superiores a las del agente humano para tareas estructuradas: consulta de pedidos, cambio de cita, incidencias de nivel 1, pagos recurrentes, reposición, onboarding. El humano se reserva para los casos donde realmente aporta valor diferencial: ventas complejas, incidencias graves, relación de cuenta estratégica.

Cuándo tiene sentido adoptar voice AI en tu empresa

Voice AI aporta más retorno cuando combina tres factores: volumen (cientos o miles de interacciones al mes que hoy se gestionan por teléfono o email), estructura (las interacciones siguen patrones repetibles aunque no idénticos) y urgencia (el usuario valora la respuesta inmediata). Atención al cliente 24/7, triaje sanitario, drive-thru y retail, asistentes hands-free en automoción, tutores de idiomas conversacionales y accesibilidad para usuarios con movilidad o visión reducidas son los casos con retorno más rápido. En cambio, interacciones únicas, de alta complejidad o con tolerancia cero al error —intervenciones médicas, decisiones legales vinculantes, operaciones financieras de gran volumen— siguen siendo territorio humano.

En Dribba desplegamos voice AI en producción desde 2024, combinando las APIs más maduras del mercado con nuestra experiencia en apps Flutter, backends de alto rendimiento e integración con CRMs, ERPs y sistemas telefónicos empresariales. Si tienes un caso de uso —una línea telefónica saturada, una app que podría contestar por voz, un proceso repetitivo que consume horas de tu equipo— el primer paso es una sesión de 45 minutos donde analizamos viabilidad, stack recomendado y retorno esperado. Sin formulario, sin compromiso.

Tecnologías

La pila completa de voice AI, dominada.

Un agente de voz en producción no es un modelo, son seis piezas encajadas con precisión: percepción, razonamiento, habla y transporte en tiempo real.

STT / ASR

Speech-to-Text

Speech-to-Text en streaming con confianza por palabra, diarización de hablantes y modelos multilingües. Latencia del primer token bajo 300 ms.

Streaming en tiempo realDiarización50+ idiomasKeywords & boosting
TTS

Text-to-Speech

Síntesis de voz neuronal con voces clonadas, control de entonación y streaming por chunks. Voces que suenan humanas en iOS, Android y telefonía.

Voice cloningStreaming TTSSSML / prosodiaVoces multilingües
LLM

Language Model

El cerebro del agente: function calling, RAG sobre tu base de conocimiento, guardrails y prompts de sistema afinados para diálogo hablado, no chat.

Function callingRAG empresarialGuardrailsMemoria de sesión
VAD

Voice Activity Detection

Voice Activity Detection robusto a ruido y eco. Detecta cuándo el usuario empieza y deja de hablar para disparar transcripción y cerrar turno sin cortar frases.

Silero VADNoise suppressionEcho cancellationEndpointing
Realtime / WebRTC

Low-latency Transport

WebRTC, WebSockets y SIP para transportar audio bidireccional con latencia mínima. Integración con LiveKit, Daily, Twilio y la red telefónica pública.

WebRTC / SFUSIP / PSTNEdge peeringJitter buffer
Turn-taking

Barge-in & Flow Control

La parte difícil: barge-in, interrupciones, pausas naturales y gestión de turno. Lo que diferencia un agente usable de una IVR moderna.

Barge-inInterrupcionesNatural pausesBack-channeling

Integraciones con agentes

Tu app, como herramienta para agentes.

La otra dirección: exponer tu producto para que agentes externos —ChatGPT, Claude, Siri, Gemini o un orquestador propio— puedan invocar acciones en nombre del usuario. MCP, App Intents, App Actions y webhooks, hechos bien.

MCP

Model Context Protocol

Implementamos servidores MCP que exponen las capacidades de tu app como herramientas tipadas que Claude Desktop, Cursor, ChatGPT o cualquier cliente MCP puede descubrir e invocar en tiempo real.

Tools tipadasResourcesPromptsSSE / stdio
GPT Actions

OpenAI Apps SDK

Creamos GPT Actions con OpenAPI y Apps para ChatGPT con el Apps SDK. Auth OAuth 2.0, scopes, rate limits y esquemas validados para que tu producto viva dentro del ChatGPT de tus clientes.

GPT ActionsApps SDKOAuth 2.0OpenAPI 3.1
Claude Tools

Tool Use · Computer Use

Integramos tu app con Claude vía Tool Use y, cuando aplica, Computer Use para tareas de navegador. Guardrails, retries deterministas y logging por turno para llevarlo a producción.

Tool UseComputer UseAnthropic MCPStreaming
App Intents

Siri · Apple Intelligence

Implementamos App Intents en Swift para que tu app sea invocable desde Siri, Apple Intelligence, Shortcuts, Spotlight y la pantalla de bloqueo. Parámetros, resultados y vistas en vivo.

App IntentsShortcutsSpotlightLock Screen
App Actions

Gemini · Google Assistant

Registramos App Actions para que Gemini y Google Assistant puedan lanzar flujos de tu app Android con intents comunes (ORDER_MENU_ITEM, GET_ORDER, etc.) o built-in intents personalizados.

App ActionsBII catálogoSlice widgetsGoogle Assistant
Webhooks

n8n · LangGraph · Zapier

Para orquestación multi-agente conectamos con n8n, LangGraph, Pipedream, Zapier o Make. Webhooks bidireccionales, retries, idempotencia y observabilidad por evento.

n8nLangGraphZapier / MakeEvent bus

Casos de uso

Dónde estamos entregando agentes de voz.

🎧

Atención al cliente 24/7

Agentes de voz inbound y outbound que resuelven FAQs, gestionan citas, califican leads y escalan a humano. Integrados con CRM, Zendesk, HubSpot y telefonía Twilio.

Inbound / OutboundTwilioCRM24/7
🏥

Triaje y salud digital

Asistentes de voz para triaje pre-consulta, recordatorios de medicación y seguimiento post-alta. Cumplimiento GDPR, HIPAA y conexión con EHR existentes.

TriajeHIPAA / GDPREHRRecordatorios
🚗

Automoción y HMI

Asistentes hands-free para CarPlay y Android Auto. Control por voz de navegación, clima, música y funciones OEM con foco en seguridad y eyes-on-road.

CarPlay / Android AutoHands-freeEyes-on-road
🏠

Smart home y accesibilidad

Interfaces voice-first para IoT, Matter y accesibilidad. Wake word propio, on-device opcional y soporte para usuarios con movilidad o visión reducidas.

AccesibilidadIoTMatterWake word
🛒

Drive-thru y retail

Toma de pedidos por voz en drive-thru, kioscos y quiosco digital, con POS y ERP. Multilingüe, robusto a ruido de tráfico y adaptable a menús locales.

Drive-thruPOSERPMultilingual
🎓

Educación e idiomas

Tutores conversacionales para práctica de idiomas con corrección de pronunciación, feedback CEFR y role-play. Sin fricción: hablar y aprender, no teclear.

EdTechConversationalPronunciationCEFR

Por qué importa

Voice AI no es chatbots con altavoz.

01

La latencia es el producto

Por encima de 800 ms de respuesta, el usuario percibe que "la máquina no le entiende". Diseñamos el pipeline completo —STT streaming, LLM, TTS por chunks, WebRTC— para quedarnos bajo 500 ms end-to-end.

02

Barge-in y turn-taking son el 80% del trabajo

Cualquiera puede conectar Whisper y ElevenLabs. Lo difícil es cortar al agente cuando el usuario habla, no pisar frases, manejar pausas naturales y evitar que el modelo "alucine" respuestas sin contexto.

03

El entorno real no es una demo

Ruido de cafetería, acentos, personas mayores, red 4G inestable, bluetooth con eco. Entrenamos y probamos contra condiciones reales, no contra un micrófono de estudio.

04

Dribba opera voice AI desde el día uno

Trabajamos con OpenAI Realtime, Gemini Live, ElevenLabs, Deepgram, LiveKit y Pipecat en proyectos en producción. Sabemos qué pila conviene a cada caso y qué combinaciones son una trampa.

Nuestro stack técnico

Flutter (iOS + Android + Web)Dart FFI / Platform ChannelsOpenAI Realtime APIGemini Live APIClaude via BedrockElevenLabs · Cartesia (TTS)Deepgram · Whisper (STT)Silero VADLiveKit · Daily.co (WebRTC)Pipecat · Vapi · RetellTwilio Voice · VonageWebRTC / SIP / PSTNMCP Server (TS / Python)OpenAI Apps SDK / GPT ActionsAnthropic Tool Use APIApple App Intents (iOS 18+)Google App Actionsn8n · LangGraph · Pipedream

Preguntas frecuentes

Dudas habituales sobre agentes de voz.

Con Realtime API (OpenAI o Gemini Live), STT streaming y TTS por chunks sobre WebRTC conseguimos 400–600 ms end-to-end en móvil 4G y <300 ms en WiFi. En telefonía PSTN, entre 600–900 ms dependiendo del carrier.

Español (neutro y regional), catalán, inglés, francés, portugués, italiano y alemán funcionan a calidad de producción. Para otros idiomas analizamos qué combinación STT/TTS/LLM rinde mejor antes de comprometer.

Combinamos supresión de ruido (RNNoise / NVIDIA Broadcast), VAD robusto (Silero), adaptación de dominio en el prompt y test sets reales grabados en entornos del cliente. Evaluamos WER por cohorte antes de lanzar.

Sí. Integramos vía Twilio Voice, Vonage, SIP trunk directo o WebRTC embebido en tu app Flutter / web. También enlazamos con tu CRM, ERP, EHR o backend propio vía function calling y webhooks.

Para casos HIPAA, banca o defensa desplegamos en tu VPC (Azure, AWS, GCP) con modelos auto-alojados (Whisper, Llama, voces locales). También hacemos modos híbridos: STT on-device y LLM en nube europea.

Desde 30.000€ para un MVP de agente de voz con un caso de uso acotado y métricas claras. Proyectos enterprise con integración telefónica, multilingüe y SLA parten habitualmente de 80.000€.

Sí. Implementamos servidores MCP para que Claude Desktop, Cursor y ChatGPT (vía MCP y Apps SDK) invoquen tu app. Para Siri y Apple Intelligence creamos App Intents en Swift; para Gemini y Google Assistant, App Actions en Android. También desplegamos GPT Actions con OpenAPI si prefieres integración tradicional.

El agente de voz vive dentro de tu app: el usuario habla con tu producto. La integración con agentes invierte la dirección: tu producto se convierte en herramienta que ChatGPT, Claude, Siri o Gemini pueden invocar para ejecutar acciones en nombre del usuario. Ambas se complementan y suelen desplegarse juntas.

Voice AI · Dribba

¿Tienes un caso de uso para voice AI?

Cuéntanos el caso, el volumen esperado y los canales. Te decimos si tiene sentido, qué pila recomendamos y cuánto costaría.

Nuestro proceso →