Disponibilita (prima solo orario ufficio)
Costi operatore (stima)
Tempo di attesa (da minuti)
Il Contesto
Il progetto e stato realizzato per un operatore energetico italiano con una base clienti dell'ordine delle migliaia di utenze. Per ragioni di riservatezza il nome del cliente, i volumi esatti di chiamate e i dettagli contrattuali non vengono divulgati: il contesto descritto e quello tipico di un fornitore di utility con un centralino di assistenza sotto pressione costante. Il customer service riceve un flusso continuo di richieste ricorrenti - stato fatture, letture contatore, attivazioni, spostamenti di fornitura, scadenze di pagamento - concentrate in fasce orarie ben precise e con picchi stagionali poco prevedibili.
Il Problema
Il centralino operava esclusivamente in orario d'ufficio e con personale dimensionato sulla media, non sui picchi. Questo generava tre criticita concrete:
- Code e tempi di attesa nell'ordine dei minuti nelle fasce di punta, con abbandoni di chiamata e clienti che richiamavano piu volte, gonfiando ulteriormente il volume.
- Nessuna copertura fuori orario: la sera, nei weekend e nei festivi le richieste restavano completamente scoperte, spostando il carico sul giorno successivo.
- Operatori saturati da richieste ripetitive a basso valore aggiunto, sottraendo tempo alle pratiche complesse che richiedono davvero una persona.
L'obiettivo concordato era assorbire la prima linea di chiamate ripetitive con un agente vocale AI, riducendo l'attesa a pochi secondi, estendendo la copertura a 24 ore su 24 e lasciando agli operatori umani solo le casistiche che ne giustificano il coinvolgimento.
La Soluzione
Il cuore del sistema e un agente vocale speech-to-speech costruito sull'OpenAI Realtime API: l'audio del chiamante viene trasmesso direttamente al modello, che ascolta e risponde in voce senza la classica catena trascrizione → LLM testuale → sintesi. Questo elimina i tre hop sequenziali che normalmente aggiungono latenza percepibile e rendono la conversazione innaturale.
Trasporto audio real-time
L'audio bidirezionale viaggia su WebRTC verso il client e su un canale WebSocket persistente verso il backend e il modello. Il backend Node.js fa da orchestratore: gestisce la sessione, lo streaming dei frame audio in entrambe le direzioni e il ciclo di vita della chiamata. Tutto e progettato attorno al vincolo della bassa latenza, perche in una conversazione vocale anche poche centinaia di millisecondi di ritardo rompono la naturalezza dello scambio.
Barge-in e function calling
Due capacita rendono l'agente effettivamente usabile in produzione. Il barge-in consente al cliente di interrompere l'agente mentre sta parlando - come accade nelle conversazioni reali - con cancellazione immediata dell'output in corso e ripresa dell'ascolto. Il function calling permette all'agente, durante la conversazione, di invocare funzioni applicative per interrogare i sistemi aziendali (es. recuperare lo stato di una pratica), eseguire azioni autorizzate o instradare la chiamata verso un operatore umano quando la richiesta esce dal perimetro automatizzabile.
Deploy e scalabilita
I servizi sono containerizzati con Docker e orchestrati su Kubernetes, in modo da scalare orizzontalmente le sessioni vocali in funzione dei picchi di traffico - critico per un carico che e tutto fuorche costante nell'arco della giornata.
Tecnologie Chiave
Lo stack e stato selezionato attorno a un unico vincolo dominante: conversazione vocale naturale a bassa latenza, in modo affidabile e scalabile.
OpenAI Realtime API
Pipeline speech-to-speech: ascolta e risponde in voce senza catena STT/LLM/TTS sequenziale.
WebRTC
Trasporto audio bidirezionale in tempo reale verso il client, ottimizzato per la latenza.
WebSocket
Canale persistente per lo streaming dei frame audio tra backend e modello.
Node.js
Orchestrazione sessione, ciclo di vita della chiamata e function calling verso i sistemi aziendali.
Docker
Containerizzazione dei servizi per build riproducibili e deploy uniforme.
Kubernetes
Scalabilita orizzontale delle sessioni vocali in funzione dei picchi di traffico.
Il Risultato
L'agente vocale ha spostato la prima linea di chiamate ripetitive dall'operatore umano all'AI, con impatto diretto su attesa, copertura e costi.
Disponibilita (prima solo orario ufficio)
Costi operatore (stima)
Tempo di attesa (da minuti)
Nota. Le metriche sopra sono indicative e stimate, su un progetto soggetto a riservatezza: non sono dati certificati da audit del cliente, ma ordini di grandezza basati sull'esperienza e sull'effetto atteso dello spostamento delle chiamate ripetitive dall'operatore all'AI.
Sfide Tecniche
Latenza percepita nella conversazione
In una chiamata vocale il margine di tolleranza e bassissimo: oltre una certa soglia il ritardo rompe la naturalezza e il cliente percepisce di "parlare con una macchina". La scelta dell'architettura speech-to-speech con OpenAI Realtime API - invece della catena classica trascrizione → LLM testuale → sintesi vocale - elimina gli hop sequenziali piu costosi. Il trasporto su WebRTC e un canale WebSocket persistente, con streaming dei frame audio in entrambe le direzioni, ha permesso di mantenere la latenza entro un budget compatibile con uno scambio naturale.
Interruzioni e turni di parola (barge-in)
Le persone interrompono. Un agente che continua imperterrito a parlare mentre il cliente prova a intervenire e immediatamente frustrante. Implementare il barge-in ha richiesto di rilevare la voce del cliente sopra l'output dell'agente, cancellare in tempo reale l'audio in riproduzione e riportare la sessione in ascolto senza perdere il contesto della conversazione. Questo, unito al function calling per interrogare i sistemi aziendali a meta conversazione e per l'escalation pulita verso un operatore umano, e cio che distingue un demo da un agente realmente utilizzabile in customer service.
Servizi Correlati
Se stai valutando un agente vocale o un chatbot AI per la tua azienda, questi contenuti approfondiscono metodo, casi d'uso e ROI:
Chatbot e Agenti AI Aziendali
Sviluppo di assistenti vocali e testuali AI per customer service, automazione delle richieste ripetitive e integrazione con i sistemi aziendali.
AI per Aziende: Guida Pratica 2026
Casi d'uso, costi e ROI dell'intelligenza artificiale per PMI ed enterprise, incluso il customer service automatizzato.
Per il profilo professionale e l'esperienza in applicazioni AI e agenti vocali vedi la pagina Chi sono; per gli altri progetti realizzati vedi il portfolio completo.