24/7

Disponibilita (prima solo orario ufficio)

−30/50%

Costi operatore (stima)

sec

Tempo di attesa (da minuti)

Il Contesto

Il progetto e stato realizzato per un operatore energetico italiano con una base clienti dell'ordine delle migliaia di utenze. Per ragioni di riservatezza il nome del cliente, i volumi esatti di chiamate e i dettagli contrattuali non vengono divulgati: il contesto descritto e quello tipico di un fornitore di utility con un centralino di assistenza sotto pressione costante. Il customer service riceve un flusso continuo di richieste ricorrenti - stato fatture, letture contatore, attivazioni, spostamenti di fornitura, scadenze di pagamento - concentrate in fasce orarie ben precise e con picchi stagionali poco prevedibili.

Il Problema

Il centralino operava esclusivamente in orario d'ufficio e con personale dimensionato sulla media, non sui picchi. Questo generava tre criticita concrete:

Code e tempi di attesa nell'ordine dei minuti nelle fasce di punta, con abbandoni di chiamata e clienti che richiamavano piu volte, gonfiando ulteriormente il volume.
Nessuna copertura fuori orario: la sera, nei weekend e nei festivi le richieste restavano completamente scoperte, spostando il carico sul giorno successivo.
Operatori saturati da richieste ripetitive a basso valore aggiunto, sottraendo tempo alle pratiche complesse che richiedono davvero una persona.

L'obiettivo concordato era assorbire la prima linea di chiamate ripetitive con un agente vocale AI, riducendo l'attesa a pochi secondi, estendendo la copertura a 24 ore su 24 e lasciando agli operatori umani solo le casistiche che ne giustificano il coinvolgimento.

La Soluzione

Il cuore del sistema e un agente vocale speech-to-speech costruito sull'OpenAI Realtime API: l'audio del chiamante viene trasmesso direttamente al modello, che ascolta e risponde in voce senza la classica catena trascrizione → LLM testuale → sintesi. Questo elimina i tre hop sequenziali che normalmente aggiungono latenza percepibile e rendono la conversazione innaturale.

Trasporto audio real-time

L'audio bidirezionale viaggia su WebRTC verso il client e su un canale WebSocket persistente verso il backend e il modello. Il backend Node.js fa da orchestratore: gestisce la sessione, lo streaming dei frame audio in entrambe le direzioni e il ciclo di vita della chiamata. Tutto e progettato attorno al vincolo della bassa latenza, perche in una conversazione vocale anche poche centinaia di millisecondi di ritardo rompono la naturalezza dello scambio.

Barge-in e function calling

Due capacita rendono l'agente effettivamente usabile in produzione. Il barge-in consente al cliente di interrompere l'agente mentre sta parlando - come accade nelle conversazioni reali - con cancellazione immediata dell'output in corso e ripresa dell'ascolto. Il function calling permette all'agente, durante la conversazione, di invocare funzioni applicative per interrogare i sistemi aziendali (es. recuperare lo stato di una pratica), eseguire azioni autorizzate o instradare la chiamata verso un operatore umano quando la richiesta esce dal perimetro automatizzabile.

Deploy e scalabilita

I servizi sono containerizzati con Docker e orchestrati su Kubernetes, in modo da scalare orizzontalmente le sessioni vocali in funzione dei picchi di traffico - critico per un carico che e tutto fuorche costante nell'arco della giornata.

Tecnologie Chiave

Lo stack e stato selezionato attorno a un unico vincolo dominante: conversazione vocale naturale a bassa latenza, in modo affidabile e scalabile.

OpenAI Realtime API

Pipeline speech-to-speech: ascolta e risponde in voce senza catena STT/LLM/TTS sequenziale.

OpenAI Realtime API

WebRTC

Trasporto audio bidirezionale in tempo reale verso il client, ottimizzato per la latenza.

WebRTC

WebSocket

Canale persistente per lo streaming dei frame audio tra backend e modello.

WebSocket

Node.js

Orchestrazione sessione, ciclo di vita della chiamata e function calling verso i sistemi aziendali.

Node.js

Docker

Containerizzazione dei servizi per build riproducibili e deploy uniforme.

Docker

Kubernetes

Scalabilita orizzontale delle sessioni vocali in funzione dei picchi di traffico.

Kubernetes

Il Risultato

L'agente vocale ha spostato la prima linea di chiamate ripetitive dall'operatore umano all'AI, con impatto diretto su attesa, copertura e costi.

24/7

Disponibilita (prima solo orario ufficio)

−30/50%

Costi operatore (stima)

sec

Tempo di attesa (da minuti)

Nota. Le metriche sopra sono indicative e stimate, su un progetto soggetto a riservatezza: non sono dati certificati da audit del cliente, ma ordini di grandezza basati sull'esperienza e sull'effetto atteso dello spostamento delle chiamate ripetitive dall'operatore all'AI.

Sfide Tecniche

Latenza percepita nella conversazione

In una chiamata vocale il margine di tolleranza e bassissimo: oltre una certa soglia il ritardo rompe la naturalezza e il cliente percepisce di "parlare con una macchina". La scelta dell'architettura speech-to-speech con OpenAI Realtime API - invece della catena classica trascrizione → LLM testuale → sintesi vocale - elimina gli hop sequenziali piu costosi. Il trasporto su WebRTC e un canale WebSocket persistente, con streaming dei frame audio in entrambe le direzioni, ha permesso di mantenere la latenza entro un budget compatibile con uno scambio naturale.

Interruzioni e turni di parola (barge-in)

Le persone interrompono. Un agente che continua imperterrito a parlare mentre il cliente prova a intervenire e immediatamente frustrante. Implementare il barge-in ha richiesto di rilevare la voce del cliente sopra l'output dell'agente, cancellare in tempo reale l'audio in riproduzione e riportare la sessione in ascolto senza perdere il contesto della conversazione. Questo, unito al function calling per interrogare i sistemi aziendali a meta conversazione e per l'escalation pulita verso un operatore umano, e cio che distingue un demo da un agente realmente utilizzabile in customer service.

Servizi Correlati

Se stai valutando un agente vocale o un chatbot AI per la tua azienda, questi contenuti approfondiscono metodo, casi d'uso e ROI:

Servizi

Chatbot e Agenti AI Aziendali

Sviluppo di assistenti vocali e testuali AI per customer service, automazione delle richieste ripetitive e integrazione con i sistemi aziendali.

Guida

AI per Aziende: Guida Pratica 2026

Casi d'uso, costi e ROI dell'intelligenza artificiale per PMI ed enterprise, incluso il customer service automatizzato.

Per il profilo professionale e l'esperienza in applicazioni AI e agenti vocali vedi la pagina Chi sono; per gli altri progetti realizzati vedi il portfolio completo.

Assistente Vocale AI per Customer Service

Il Contesto

Il Problema

La Soluzione

Trasporto audio real-time

Barge-in e function calling

Deploy e scalabilita

Tecnologie Chiave

OpenAI Realtime API

WebRTC

WebSocket

Node.js

Docker

Kubernetes

Il Risultato

Sfide Tecniche

Latenza percepita nella conversazione

Interruzioni e turni di parola (barge-in)

Servizi Correlati

Chatbot e Agenti AI Aziendali

AI per Aziende: Guida Pratica 2026

Hai un Problema Simile? Parliamone

Altri Case Study

Piattaforma No-Code per Automazione Processi

Microservizio Email Transazionale Enterprise

Estrazione Contenuti Web con Arricchimento AI