Voice · MCP · Tools · App Intents · Realtime
Dues direccions, una mateixa disciplina. Integrem agents de veu conversacionals dins les teves apps i exposem els teus productes com a eines perquè ChatGPT, Claude, Siri o Gemini executin accions en nom de l'usuari.
Fonaments
Voice AI —intel·ligència artificial de veu— és la tecnologia que permet a les màquines escoltar, entendre i parlar amb les persones en llenguatge natural, sense fricció, en temps real. No parlem de comandes rígides tipus IVR («premi 1 per vendes»), ni de xatbots de text disfressats amb un TTS robòtic. Parlem d'agents conversacionals de veu que combinen reconeixement de parla (STT), models de llenguatge (LLM) i síntesi de veu neuronal (TTS) en un pipeline end-to-end que respon en menys d'un segon, amb entonació humana i gestió natural del torn de paraula.
2026 és l'any en què aquesta tecnologia ha deixat de ser experimental. Les APIs Realtime d'OpenAI i Gemini Live, les veus clonades d'ElevenLabs i Cartesia, el transport WebRTC sobre infraestructura global i una nova generació de models optimitzats per al diàleg han fet que construir una experiència de veu conversacional costi un 90 % menys que fa dos anys. Per a qualsevol empresa que tracti amb clients per telèfon —atenció al client, agendament, suport tècnic, cobraments, onboarding o accés a serveis— ignorar voice AI equival a ignorar el web el 1998.
Un agent de veu en producció no és un model, són sis peces encaixades: Voice Activity Detection (VAD) per saber quan l'usuari parla i quan calla; Speech-to-Text en streaming (STT) amb diarització multi-interlocutor i suport de més de 50 idiomes; un LLM amb function calling i RAG sobre la teva base de coneixement corporativa, que decideix què dir i quines accions executar; Text-to-Speech neuronal (TTS) amb veus clonades i streaming per chunks perquè la resposta comenci a sonar mentre es continua generant; transport en temps real via WebRTC, SIP o PSTN; i la capa més complexa, la gestió de torn i barge-in, que permet interrompre l'agent quan l'usuari torna a prendre la paraula.
La latència és el producte. Si l'usuari espera més de 800 mil·lisegons entre el final de la seva frase i l'inici de la resposta de l'agent, l'experiència es trenca: sembla que la màquina no l'entén. Un agent ben construït queda per sota de 500 ms end-to-end en xarxa mòbil 4G i per sota de 300 ms en WiFi. Aconseguir-ho exigeix streaming a totes les capes, edge peering, elecció correcta de model i còdec d'àudio, i una optimització fina del jitter buffer. No és un detall tècnic: és el que separa una demo atractiva d'un producte usable.
La IVR dels últims vint anys es basa en arbres de decisió rígids: «premi 1», «digui una paraula clau», «esperi 10 segons». Funciona per a dues o tres opcions i es trenca amb qualsevol petició fora del guió. Un agent de veu amb IA generativa entén intenció, context i matisos. Pot resoldre en una frase el que la IVR tradicional resol en quatre menús imbricats, pot escalar a humà quan detecta que no pot ajudar, i pot personalitzar la conversa amb dades del CRM en temps real —nom del client, historial, preferències, estat de la comanda— sense que l'usuari hagi d'introduir cap dada.
L'impacte econòmic és mesurable. Els primers desplegaments de voice AI en call centers mostren reduccions del 40-70 % en el cost per trucada gestionada, temps de resolució en segons en comptes de minuts, i —clau— taxes de satisfacció iguals o superiors a les de l'agent humà per a tasques estructurades: consulta de comandes, canvi de cita, incidències de nivell 1, pagaments recurrents, reposició, onboarding. L'humà es reserva per als casos on realment aporta valor diferencial: vendes complexes, incidències greus, relació de compte estratègica.
Voice AI aporta més retorn quan combina tres factors: volum (centenars o milers d'interaccions al mes que avui es gestionen per telèfon o correu), estructura (les interaccions segueixen patrons repetibles tot i que no idèntics) i urgència (l'usuari valora la resposta immediata). Atenció al client 24/7, triatge sanitari, drive-thru i retail, assistents hands-free en automoció, tutors d'idiomes conversacionals i accessibilitat per a usuaris amb mobilitat o visió reduïdes són els casos amb retorn més ràpid. En canvi, interaccions úniques, d'alta complexitat o amb tolerància zero a l'error —intervencions mèdiques, decisions legals vinculants, operacions financeres de gran volum— continuen sent territori humà.
A Dribba despleguem voice AI en producció des del 2024, combinant les APIs més madures del mercat amb la nostra experiència en apps Flutter, backends d'alt rendiment i integració amb CRMs, ERPs i sistemes telefònics empresarials. Si tens un cas d'ús —una línia telefònica saturada, una app que podria contestar per veu, un procés repetitiu que consumeix hores del teu equip— el primer pas és una sessió de 45 minuts on analitzem viabilitat, stack recomanat i retorn esperat. Sense formulari, sense compromís.
Tecnologies
Un agent de veu en producció no és un model, són sis peces encaixades amb precisió: percepció, raonament, parla i transport en temps real.
Speech-to-Text
Speech-to-Text en streaming amb confiança per paraula, diarització d'interlocutors i models multilingües. Latència del primer token per sota de 300 ms.
Text-to-Speech
Síntesi de veu neuronal amb veus clonades, control d'entonació i streaming per chunks. Veus que sonen humanes a iOS, Android i telefonia.
Language Model
El cervell de l'agent: function calling, RAG sobre la teva base de coneixement, guardrails i prompts de sistema afinats per a diàleg parlat, no xat.
Voice Activity Detection
Voice Activity Detection robust al soroll i l'eco. Detecta quan l'usuari comença i deixa de parlar per disparar transcripció i tancar torn sense tallar frases.
Low-latency Transport
WebRTC, WebSockets i SIP per transportar àudio bidireccional amb latència mínima. Integració amb LiveKit, Daily, Twilio i la xarxa telefònica pública.
Barge-in & Flow Control
La part difícil: barge-in, interrupcions, pauses naturals i gestió de torn. El que diferencia un agent usable d'una IVR moderna.
Integracions amb agents
L'altra direcció: exposar el teu producte perquè agents externs —ChatGPT, Claude, Siri, Gemini o un orquestrador propi— puguin invocar accions en nom de l'usuari. MCP, App Intents, App Actions i webhooks, fets bé.
Model Context Protocol
Implementem servidors MCP que exposen les capacitats de la teva app com a eines tipades que Claude Desktop, Cursor, ChatGPT o qualsevol client MCP pot descobrir i invocar en temps real.
OpenAI Apps SDK
Creem GPT Actions amb OpenAPI i Apps per a ChatGPT amb l'Apps SDK. Auth OAuth 2.0, scopes, rate limits i esquemes validats perquè el teu producte visqui dins del ChatGPT dels teus clients.
Tool Use · Computer Use
Integrem la teva app amb Claude via Tool Use i, quan aplica, Computer Use per a tasques de navegador. Guardrails, retries deterministes i logging per torn per dur-ho a producció.
Siri · Apple Intelligence
Implementem App Intents en Swift perquè la teva app sigui invocable des de Siri, Apple Intelligence, Shortcuts, Spotlight i la pantalla de bloqueig. Paràmetres, resultats i vistes en viu.
Gemini · Google Assistant
Registrem App Actions perquè Gemini i Google Assistant puguin llançar fluxos de la teva app Android amb intents comuns (ORDER_MENU_ITEM, GET_ORDER, etc.) o built-in intents personalitzats.
n8n · LangGraph · Zapier
Per a orquestració multi-agent connectem amb n8n, LangGraph, Pipedream, Zapier o Make. Webhooks bidireccionals, retries, idempotència i observabilitat per esdeveniment.
Casos d'ús
Agents de veu inbound i outbound que resolen FAQs, gestionen cites, qualifiquen leads i escalen a humà. Integrats amb CRM, Zendesk, HubSpot i telefonia Twilio.
Assistents de veu per al triatge pre-consulta, recordatoris de medicació i seguiment post-alta. Compliment GDPR, HIPAA i connexió amb EHR existents.
Assistents hands-free per a CarPlay i Android Auto. Control per veu de navegació, clima, música i funcions OEM amb focus en seguretat i eyes-on-road.
Interfícies voice-first per a IoT, Matter i accessibilitat. Wake word propi, on-device opcional i suport per a usuaris amb mobilitat o visió reduïdes.
Presa de comandes per veu a drive-thru, quioscos i quiosc digital, amb POS i ERP. Multilingüe, robust al soroll de trànsit i adaptable a menús locals.
Tutors conversacionals per a la pràctica d'idiomes amb correcció de pronunciació, feedback CEFR i role-play. Sense fricció: parlar i aprendre, no teclejar.
Per què importa
01
Per sobre de 800 ms de resposta, l'usuari percep que "la màquina no l'entén". Dissenyem el pipeline sencer —STT streaming, LLM, TTS per chunks, WebRTC— per quedar-nos per sota de 500 ms end-to-end.
02
Qualsevol pot connectar Whisper i ElevenLabs. El difícil és tallar l'agent quan l'usuari parla, no trepitjar frases, gestionar pauses naturals i evitar que el model "al·lucini" respostes sense context.
03
Soroll de cafeteria, accents, persones grans, xarxa 4G inestable, bluetooth amb eco. Entrenem i provem contra condicions reals, no contra un micròfon d'estudi.
04
Treballem amb OpenAI Realtime, Gemini Live, ElevenLabs, Deepgram, LiveKit i Pipecat en projectes en producció. Sabem quina pila convé a cada cas i quines combinacions són una trampa.
El nostre stack tècnic
Preguntes freqüents
Amb Realtime API (OpenAI o Gemini Live), STT streaming i TTS per chunks sobre WebRTC aconseguim 400–600 ms end-to-end en mòbil 4G i <300 ms en WiFi. En telefonia PSTN, entre 600–900 ms depenent del carrier.
Català, espanyol, anglès, francès, portuguès, italià i alemany funcionen a qualitat de producció. Per a altres idiomes analitzem quina combinació STT/TTS/LLM rendeix millor abans de comprometre'ns.
Combinem supressió de soroll (RNNoise / NVIDIA Broadcast), VAD robust (Silero), adaptació de domini al prompt i test sets reals gravats en entorns del client. Avaluem WER per cohort abans de llançar.
Sí. Integrem via Twilio Voice, Vonage, SIP trunk directe o WebRTC incrustat a la teva app Flutter / web. També enllacem amb el teu CRM, ERP, EHR o backend propi via function calling i webhooks.
Per a casos HIPAA, banca o defensa desplegem al teu VPC (Azure, AWS, GCP) amb models auto-allotjats (Whisper, Llama, veus locals). També fem modes híbrids: STT on-device i LLM en núvol europeu.
Des de 30.000€ per a un MVP d'agent de veu amb un cas d'ús acotat i mètriques clares. Projectes enterprise amb integració telefònica, multilingüe i SLA solen partir de 80.000€.
Sí. Implementem servidors MCP perquè Claude Desktop, Cursor i ChatGPT (via MCP i Apps SDK) invoquin la teva app. Per a Siri i Apple Intelligence creem App Intents en Swift; per a Gemini i Google Assistant, App Actions en Android. També desplegem GPT Actions amb OpenAPI si prefereixes una integració tradicional.
L'agent de veu viu dins de la teva app: l'usuari parla amb el teu producte. La integració amb agents inverteix la direcció: el teu producte es converteix en eina que ChatGPT, Claude, Siri o Gemini poden invocar per executar accions en nom de l'usuari. Tots dos es complementen i sovint es despleguen junts.
Explica'ns el cas, el volum esperat i els canals. Et diem si té sentit, quina pila recomanem i quant costaria.