VOICE
Voice AI · Agents de veu · Integracions amb agents

Agents de veu
i apps per a agents.

Voice · MCP · Tools · App Intents · Realtime

Dues direccions, una mateixa disciplina. Integrem agents de veu conversacionals dins les teves apps i exposem els teus productes com a eines perquè ChatGPT, Claude, Siri o Gemini executin accions en nom de l'usuari.

Veure projectes →
STT / ASRTTSLLMVADRealtime / WebRTCTurn-taking

Fonaments

Què és voice AI i per què està redefinint l'atenció al client, les apps i la relació amb l'usuari.

Voice AI —intel·ligència artificial de veu— és la tecnologia que permet a les màquines escoltar, entendre i parlar amb les persones en llenguatge natural, sense fricció, en temps real. No parlem de comandes rígides tipus IVR («premi 1 per vendes»), ni de xatbots de text disfressats amb un TTS robòtic. Parlem d'agents conversacionals de veu que combinen reconeixement de parla (STT), models de llenguatge (LLM) i síntesi de veu neuronal (TTS) en un pipeline end-to-end que respon en menys d'un segon, amb entonació humana i gestió natural del torn de paraula.

2026 és l'any en què aquesta tecnologia ha deixat de ser experimental. Les APIs Realtime d'OpenAI i Gemini Live, les veus clonades d'ElevenLabs i Cartesia, el transport WebRTC sobre infraestructura global i una nova generació de models optimitzats per al diàleg han fet que construir una experiència de veu conversacional costi un 90 % menys que fa dos anys. Per a qualsevol empresa que tracti amb clients per telèfon —atenció al client, agendament, suport tècnic, cobraments, onboarding o accés a serveis— ignorar voice AI equival a ignorar el web el 1998.

Com funciona un agent de veu conversacional

Un agent de veu en producció no és un model, són sis peces encaixades: Voice Activity Detection (VAD) per saber quan l'usuari parla i quan calla; Speech-to-Text en streaming (STT) amb diarització multi-interlocutor i suport de més de 50 idiomes; un LLM amb function calling i RAG sobre la teva base de coneixement corporativa, que decideix què dir i quines accions executar; Text-to-Speech neuronal (TTS) amb veus clonades i streaming per chunks perquè la resposta comenci a sonar mentre es continua generant; transport en temps real via WebRTC, SIP o PSTN; i la capa més complexa, la gestió de torn i barge-in, que permet interrompre l'agent quan l'usuari torna a prendre la paraula.

La latència és el producte. Si l'usuari espera més de 800 mil·lisegons entre el final de la seva frase i l'inici de la resposta de l'agent, l'experiència es trenca: sembla que la màquina no l'entén. Un agent ben construït queda per sota de 500 ms end-to-end en xarxa mòbil 4G i per sota de 300 ms en WiFi. Aconseguir-ho exigeix streaming a totes les capes, edge peering, elecció correcta de model i còdec d'àudio, i una optimització fina del jitter buffer. No és un detall tècnic: és el que separa una demo atractiva d'un producte usable.

Voice AI vs IVR tradicional: per què no són comparables

La IVR dels últims vint anys es basa en arbres de decisió rígids: «premi 1», «digui una paraula clau», «esperi 10 segons». Funciona per a dues o tres opcions i es trenca amb qualsevol petició fora del guió. Un agent de veu amb IA generativa entén intenció, context i matisos. Pot resoldre en una frase el que la IVR tradicional resol en quatre menús imbricats, pot escalar a humà quan detecta que no pot ajudar, i pot personalitzar la conversa amb dades del CRM en temps real —nom del client, historial, preferències, estat de la comanda— sense que l'usuari hagi d'introduir cap dada.

L'impacte econòmic és mesurable. Els primers desplegaments de voice AI en call centers mostren reduccions del 40-70 % en el cost per trucada gestionada, temps de resolució en segons en comptes de minuts, i —clau— taxes de satisfacció iguals o superiors a les de l'agent humà per a tasques estructurades: consulta de comandes, canvi de cita, incidències de nivell 1, pagaments recurrents, reposició, onboarding. L'humà es reserva per als casos on realment aporta valor diferencial: vendes complexes, incidències greus, relació de compte estratègica.

Quan té sentit adoptar voice AI a la teva empresa

Voice AI aporta més retorn quan combina tres factors: volum (centenars o milers d'interaccions al mes que avui es gestionen per telèfon o correu), estructura (les interaccions segueixen patrons repetibles tot i que no idèntics) i urgència (l'usuari valora la resposta immediata). Atenció al client 24/7, triatge sanitari, drive-thru i retail, assistents hands-free en automoció, tutors d'idiomes conversacionals i accessibilitat per a usuaris amb mobilitat o visió reduïdes són els casos amb retorn més ràpid. En canvi, interaccions úniques, d'alta complexitat o amb tolerància zero a l'error —intervencions mèdiques, decisions legals vinculants, operacions financeres de gran volum— continuen sent territori humà.

A Dribba despleguem voice AI en producció des del 2024, combinant les APIs més madures del mercat amb la nostra experiència en apps Flutter, backends d'alt rendiment i integració amb CRMs, ERPs i sistemes telefònics empresarials. Si tens un cas d'ús —una línia telefònica saturada, una app que podria contestar per veu, un procés repetitiu que consumeix hores del teu equip— el primer pas és una sessió de 45 minuts on analitzem viabilitat, stack recomanat i retorn esperat. Sense formulari, sense compromís.

Tecnologies

La pila completa de voice AI, dominada.

Un agent de veu en producció no és un model, són sis peces encaixades amb precisió: percepció, raonament, parla i transport en temps real.

STT / ASR

Speech-to-Text

Speech-to-Text en streaming amb confiança per paraula, diarització d'interlocutors i models multilingües. Latència del primer token per sota de 300 ms.

Streaming en temps realDiarització50+ idiomesKeywords & boosting
TTS

Text-to-Speech

Síntesi de veu neuronal amb veus clonades, control d'entonació i streaming per chunks. Veus que sonen humanes a iOS, Android i telefonia.

Voice cloningStreaming TTSSSML / prosòdiaVeus multilingües
LLM

Language Model

El cervell de l'agent: function calling, RAG sobre la teva base de coneixement, guardrails i prompts de sistema afinats per a diàleg parlat, no xat.

Function callingRAG empresarialGuardrailsMemòria de sessió
VAD

Voice Activity Detection

Voice Activity Detection robust al soroll i l'eco. Detecta quan l'usuari comença i deixa de parlar per disparar transcripció i tancar torn sense tallar frases.

Silero VADNoise suppressionEcho cancellationEndpointing
Realtime / WebRTC

Low-latency Transport

WebRTC, WebSockets i SIP per transportar àudio bidireccional amb latència mínima. Integració amb LiveKit, Daily, Twilio i la xarxa telefònica pública.

WebRTC / SFUSIP / PSTNEdge peeringJitter buffer
Turn-taking

Barge-in & Flow Control

La part difícil: barge-in, interrupcions, pauses naturals i gestió de torn. El que diferencia un agent usable d'una IVR moderna.

Barge-inInterrupcionsPauses naturalsBack-channeling

Integracions amb agents

La teva app, com a eina per a agents.

L'altra direcció: exposar el teu producte perquè agents externs —ChatGPT, Claude, Siri, Gemini o un orquestrador propi— puguin invocar accions en nom de l'usuari. MCP, App Intents, App Actions i webhooks, fets bé.

MCP

Model Context Protocol

Implementem servidors MCP que exposen les capacitats de la teva app com a eines tipades que Claude Desktop, Cursor, ChatGPT o qualsevol client MCP pot descobrir i invocar en temps real.

Tools tipadesResourcesPromptsSSE / stdio
GPT Actions

OpenAI Apps SDK

Creem GPT Actions amb OpenAPI i Apps per a ChatGPT amb l'Apps SDK. Auth OAuth 2.0, scopes, rate limits i esquemes validats perquè el teu producte visqui dins del ChatGPT dels teus clients.

GPT ActionsApps SDKOAuth 2.0OpenAPI 3.1
Claude Tools

Tool Use · Computer Use

Integrem la teva app amb Claude via Tool Use i, quan aplica, Computer Use per a tasques de navegador. Guardrails, retries deterministes i logging per torn per dur-ho a producció.

Tool UseComputer UseAnthropic MCPStreaming
App Intents

Siri · Apple Intelligence

Implementem App Intents en Swift perquè la teva app sigui invocable des de Siri, Apple Intelligence, Shortcuts, Spotlight i la pantalla de bloqueig. Paràmetres, resultats i vistes en viu.

App IntentsShortcutsSpotlightLock Screen
App Actions

Gemini · Google Assistant

Registrem App Actions perquè Gemini i Google Assistant puguin llançar fluxos de la teva app Android amb intents comuns (ORDER_MENU_ITEM, GET_ORDER, etc.) o built-in intents personalitzats.

App ActionsCatàleg BIISlice widgetsGoogle Assistant
Webhooks

n8n · LangGraph · Zapier

Per a orquestració multi-agent connectem amb n8n, LangGraph, Pipedream, Zapier o Make. Webhooks bidireccionals, retries, idempotència i observabilitat per esdeveniment.

n8nLangGraphZapier / MakeEvent bus

Casos d'ús

On estem lliurant agents de veu.

🎧

Atenció al client 24/7

Agents de veu inbound i outbound que resolen FAQs, gestionen cites, qualifiquen leads i escalen a humà. Integrats amb CRM, Zendesk, HubSpot i telefonia Twilio.

Inbound / OutboundTwilioCRM24/7
🏥

Triatge i salut digital

Assistents de veu per al triatge pre-consulta, recordatoris de medicació i seguiment post-alta. Compliment GDPR, HIPAA i connexió amb EHR existents.

TriajeHIPAA / GDPREHRRecordatorios
🚗

Automoció i HMI

Assistents hands-free per a CarPlay i Android Auto. Control per veu de navegació, clima, música i funcions OEM amb focus en seguretat i eyes-on-road.

CarPlay / Android AutoHands-freeEyes-on-road
🏠

Smart home i accessibilitat

Interfícies voice-first per a IoT, Matter i accessibilitat. Wake word propi, on-device opcional i suport per a usuaris amb mobilitat o visió reduïdes.

AccesibilidadIoTMatterWake word
🛒

Drive-thru i retail

Presa de comandes per veu a drive-thru, quioscos i quiosc digital, amb POS i ERP. Multilingüe, robust al soroll de trànsit i adaptable a menús locals.

Drive-thruPOSERPMultilingual
🎓

Educació i idiomes

Tutors conversacionals per a la pràctica d'idiomes amb correcció de pronunciació, feedback CEFR i role-play. Sense fricció: parlar i aprendre, no teclejar.

EdTechConversationalPronunciationCEFR

Per què importa

Voice AI no són xatbots amb altaveu.

01

La latència és el producte

Per sobre de 800 ms de resposta, l'usuari percep que "la màquina no l'entén". Dissenyem el pipeline sencer —STT streaming, LLM, TTS per chunks, WebRTC— per quedar-nos per sota de 500 ms end-to-end.

02

Barge-in i turn-taking són el 80% de la feina

Qualsevol pot connectar Whisper i ElevenLabs. El difícil és tallar l'agent quan l'usuari parla, no trepitjar frases, gestionar pauses naturals i evitar que el model "al·lucini" respostes sense context.

03

L'entorn real no és una demo

Soroll de cafeteria, accents, persones grans, xarxa 4G inestable, bluetooth amb eco. Entrenem i provem contra condicions reals, no contra un micròfon d'estudi.

04

Dribba opera voice AI des del dia u

Treballem amb OpenAI Realtime, Gemini Live, ElevenLabs, Deepgram, LiveKit i Pipecat en projectes en producció. Sabem quina pila convé a cada cas i quines combinacions són una trampa.

El nostre stack tècnic

Flutter (iOS + Android + Web)Dart FFI / Platform ChannelsOpenAI Realtime APIGemini Live APIClaude via BedrockElevenLabs · Cartesia (TTS)Deepgram · Whisper (STT)Silero VADLiveKit · Daily.co (WebRTC)Pipecat · Vapi · RetellTwilio Voice · VonageWebRTC / SIP / PSTNMCP Server (TS / Python)OpenAI Apps SDK / GPT ActionsAnthropic Tool Use APIApple App Intents (iOS 18+)Google App Actionsn8n · LangGraph · Pipedream

Preguntes freqüents

Dubtes habituals sobre agents de veu.

Amb Realtime API (OpenAI o Gemini Live), STT streaming i TTS per chunks sobre WebRTC aconseguim 400–600 ms end-to-end en mòbil 4G i <300 ms en WiFi. En telefonia PSTN, entre 600–900 ms depenent del carrier.

Català, espanyol, anglès, francès, portuguès, italià i alemany funcionen a qualitat de producció. Per a altres idiomes analitzem quina combinació STT/TTS/LLM rendeix millor abans de comprometre'ns.

Combinem supressió de soroll (RNNoise / NVIDIA Broadcast), VAD robust (Silero), adaptació de domini al prompt i test sets reals gravats en entorns del client. Avaluem WER per cohort abans de llançar.

Sí. Integrem via Twilio Voice, Vonage, SIP trunk directe o WebRTC incrustat a la teva app Flutter / web. També enllacem amb el teu CRM, ERP, EHR o backend propi via function calling i webhooks.

Per a casos HIPAA, banca o defensa desplegem al teu VPC (Azure, AWS, GCP) amb models auto-allotjats (Whisper, Llama, veus locals). També fem modes híbrids: STT on-device i LLM en núvol europeu.

Des de 30.000€ per a un MVP d'agent de veu amb un cas d'ús acotat i mètriques clares. Projectes enterprise amb integració telefònica, multilingüe i SLA solen partir de 80.000€.

Sí. Implementem servidors MCP perquè Claude Desktop, Cursor i ChatGPT (via MCP i Apps SDK) invoquin la teva app. Per a Siri i Apple Intelligence creem App Intents en Swift; per a Gemini i Google Assistant, App Actions en Android. També desplegem GPT Actions amb OpenAPI si prefereixes una integració tradicional.

L'agent de veu viu dins de la teva app: l'usuari parla amb el teu producte. La integració amb agents inverteix la direcció: el teu producte es converteix en eina que ChatGPT, Claude, Siri o Gemini poden invocar per executar accions en nom de l'usuari. Tots dos es complementen i sovint es despleguen junts.

Voice AI · Dribba

Tens un cas d'ús per a voice AI?

Explica'ns el cas, el volum esperat i els canals. Et diem si té sentit, quina pila recomanem i quant costaria.

El nostre procés →