L'osservabilità è la capacità di comprendere lo stato interno di un sistema analizzando i suoi output esterni, principalmente attraverso dati di telemetria come metriche, eventi, registri e tracce, collettivamente denominati "dati MELT". Questa disciplina va oltre le soluzioni di monitoraggio tradizionali per fornire una conoscenza critica sui sistemi software e gli ambienti di cloud computing, aiutando i team IT a garantire la disponibilità, ottimizzare le prestazioni e rilevare le anomalie.

La maggior parte dei sistemi IT si comporta in modo deterministico, il che rende l'analisi della causa radice abbastanza semplice. Quando un'applicazione fallisce, gli strumenti di osservabilità possono utilizzare i dati MELT per correlare i segnali, localizzare i guasti e determinare se si tratta di una fuga di memoria, di un errore di connessione al database o di un timeout dell'API.

La sfida dell'IA generativa per l'osservabilità

Tuttavia, i modelli di linguaggio di grandi dimensioni (LLM) e altre applicazioni di intelligenza artificiale (IA) generativa complicano notevolmente l'osservabilità. A differenza del software tradizionale, gli LLM producono output probabilistici, il che significa che input identici possono generare risposte diverse. Questa mancanza di interpretabilità, ovvero la difficoltà nel tracciare come gli input influenzano gli output, può causare problemi agli strumenti di osservabilità convenzionali. Di conseguenza, la risoluzione dei problemi, il debug e il monitoraggio delle prestazioni diventano significativamente più complessi nei sistemi di IA generativa.

"L'osservabilità può rilevare se una risposta dell'IA contiene informazioni di identificazione personale (PII), ad esempio, ma non può impedire che ciò accada", spiega Drew Flowers, responsabile delle vendite di Instana in America di IBM. "Il processo decisionale del modello rimane una scatola nera".

Questo fenomeno di "scatola nera" evidenzia una sfida critica per l'osservabilità degli LLM. Sebbene gli strumenti di osservabilità possano rilevare i problemi che si sono verificati, non possono prevenirli perché hanno difficoltà con l'esplicabilità dell'IA, ovvero la capacità di offrire una ragione comprensibile per l'essere umano sul perché un modello ha preso una decisione specifica o ha generato un output concreto.

Finché il problema dell'esplicabilità non sarà risolto, le soluzioni di osservabilità dell'IA devono dare priorità agli aspetti che possono misurare e analizzare in modo efficace. Ciò include una combinazione di dati MELT tradizionali e metriche di osservabilità specifiche per l'IA. Per approfondire idee e notizie di esperti su IA, cloud e molto altro, è possibile consultare la newsletter settimanale Think.

Metriche tradizionali e specifiche per l'IA

Sebbene le metriche tradizionali non forniscano una visibilità completa sul comportamento dei modelli, rimangono componenti essenziali dell'osservabilità dell'IA. Le prestazioni della CPU, della memoria e della rete hanno un impatto diretto sulla funzionalità del sistema di IA e sull'esperienza dell'utente. Possono aiutare le organizzazioni a valutare l'efficienza con cui vengono eseguiti i carichi di lavoro di IA e se le limitazioni dell'infrastruttura stanno influenzando le prestazioni del modello e i tempi di risposta.

Tuttavia, l'osservabilità dell'IA richiede metriche che monitorino le qualità specifiche del comportamento e degli output del modello di IA, che includono:

Utilizzo dei token

Un token è un'unità individuale di linguaggio, generalmente una parola o parte di una parola, che un modello di IA è in grado di comprendere. Il numero di token che un modello elabora per comprendere un input o produrre un output influisce direttamente sul costo e sulle prestazioni di un'applicazione basata su LLM. Un maggiore consumo di token può aumentare le spese operative e la latenza di risposta.

Le metriche chiave per il monitoraggio dell'uso dei token includono:

  • Numero di token di input/output: il volume di token elaborati per ogni richiesta.
  • Costo per token: la spesa associata alla generazione di ciascun token.
  • Latenza dell'inferenza (compreso il tempo di elaborazione dei token): il tempo impiegato per generare una risposta.

Queste metriche possono aiutare le organizzazioni a identificare opportunità di ottimizzazione per ridurre il consumo di token, ad esempio, raffinando le istruzioni per trasmettere più informazioni con meno token. Ottimizzando l'utilizzo dei token, le organizzazioni possono mantenere un'alta qualità di risposta e, allo stesso tempo, ridurre potenzialmente i costi di inferenza per i carichi di lavoro di machine learning.

Deriva del modello

A differenza del software tradizionale, i modelli di IA possono cambiare gradualmente il loro comportamento man mano che i dati del mondo reale evolvono. Questo fenomeno, noto come deriva del modello, può influire significativamente sull'affidabilità e sulle prestazioni del sistema di IA.

Le metriche chiave per il monitoraggio della deriva del modello includono:

  • Accuratezza del modello: quanto bene le previsioni del modello corrispondono ai risultati reali.
  • Coerenza dei dati: la stabilità dei dati di input nel tempo.
  • Variabilità degli output: il grado di cambiamento degli output per input simili.

I meccanismi di rilevamento delle deviazioni possono fornire avvisi tempestivi quando la precisione di un modello diminuisce per casi d'uso specifici, consentendo ai team di intervenire prima che il modello interrompa le operazioni aziendali.

Qualità degli output dell'IA

Il monitoraggio della qualità degli output dell'IA è essenziale per mantenere la fiducia, l'affidabilità e la conformità. Le metriche chiave per il monitoraggio della qualità delle risposte includono:

  • Tasso di allucinazioni: output di fatti errati o fuorvianti.
  • Rilevamento del bias: output che favoriscono un particolare gruppo demografico o punto di vista.
  • Precisione della risposta: quanto bene la risposta del modello affronta la richiesta dell'utente.
  • Coerenza dei contenuti: se le risposte multiple alla stessa richiesta rimangono coerenti.
  • Rilevanza: quanto l'output è pertinente all'input.

Sebbene il monitoraggio di queste metriche possa aiutare a segnalare le risposte anomale, gli strumenti di osservabilità non possono spiegare completamente perché si verificano le allucinazioni, né possono determinare automaticamente la correttezza del contenuto generato dall'IA. Si tratta di sfide fondamentali per la fiducia e la governance dell'IA che non sono ancora state affrontate da nessuno.

IA responsabile

Garantire l'implementazione etica dell'IA e la conformità normativa richiede un monitoraggio esaustivo dei contenuti generati dall'IA.

Le metriche chiave per il monitoraggio dell'IA responsabile includono:

  • Rilevamento di informazioni di identificazione personale (PII): identificazione di dati sensibili negli output.
  • Screening dei contenuti: identificazione di linguaggio offensivo, discorsi d'odio, contenuti violenti.
  • Conformità normativa: rispetto di regolamenti sulla privacy dei dati (ad esempio, GDPR).
  • Audit trail di interazione: registri completi di tutte le interazioni del modello.

I pannelli di controllo di visualizzazione in tempo reale con rilevamento automatizzato delle anomalie possono avvisare i team quando i risultati dell'IA si discostano dalle norme attese. Questo approccio proattivo aiuta le organizzazioni ad affrontare rapidamente i problemi, monitorare le prestazioni dell'IA nel tempo e garantire un'implementazione responsabile dell'IA su vasta scala. È possibile unirsi a un panel di ingegneri, ricercatori, responsabili di prodotto e altri professionisti di fama mondiale che offrono le ultime notizie e intuizioni sull'IA.

OpenTelemetry per l'osservabilità dell'IA generativa

OpenTelemetry (OTel) è emerso come il framework standard del settore per la raccolta e la trasmissione dei dati di telemetria, e può anche aiutare con l'osservabilità dell'IA generativa. Questo progetto open-source fornisce un approccio indipendente dal fornitore all'osservabilità che è particolarmente prezioso negli ecosistemi di IA complessi.

Per i fornitori di IA, OpenTelemetry offre un modo per standardizzare la modalità di condivisione dei dati sulle prestazioni senza esporre i dettagli del modello proprietario o il codice sorgente. Per le aziende, garantisce che i dati di osservabilità fluiscano in modo coerente attraverso complesse pipeline di IA che possono includere più modelli, varie dipendenze e sistemi di generazione aumentata da recupero (RAG).

I principali vantaggi di OpenTelemetry per l'osservabilità dell'IA generativa includono:

  • Portabilità dei dati: i dati di telemetria possono essere facilmente spostati tra diversi strumenti di osservabilità, garantendo flessibilità e prevenendo il vendor lock-in.
  • Interoperabilità: OpenTelemetry supporta un'ampia gamma di linguaggi di programmazione e framework, consentendo un'integrazione senza soluzione di continuità in ambienti di IA eterogenei.
  • Riduzione del vendor lock-in: adottando uno standard aperto, le organizzazioni possono evitare di essere vincolate a un unico fornitore di osservabilità e mantenere la libertà di scegliere gli strumenti più adatti alle loro esigenze.
  • Visibilità end-to-end: OpenTelemetry offre un quadro completo delle interazioni dell'IA, dai dati di input iniziali agli output finali, consentendo ai team di tracciare e comprendere l'intero ciclo di vita dell'inferenza dell'IA.

Il costo del ritardo nell'osservabilità dell'IA

Le applicazioni di IA richiedono un investimento significativo, dai costi delle licenze dei modelli alle spese per l'infrastruttura e le risorse per gli sviluppatori. Le organizzazioni che ritardano l'implementazione dell'osservabilità dell'IA generativa rischiano di sprecare risorse se non riescono a scoprire problemi di prestazioni, problemi etici o implementazioni inefficienti.

"Per l'osservabilità dell'IA, il tempo di ottenimento del valore (TTV) è tutto", afferma Flowers. "Se non posso iniziare a ottenere conoscenze rapidamente, sto sprecando denaro e risorse."

IBM Instana Observability può aiutare a raggiungere un ROI del 219% e a ridurre il tempo di risoluzione dei problemi degli sviluppatori del 90%.