Come il RAG influenza la protezione dei dati nei sistemi di intelligenza artificiale

L'integrazione dell'intelligenza artificiale nei processi aziendali e governativi sta diventando sempre più diffusa, portando con sé notevoli opportunità ma anche importanti interrogativi, in particolare per quanto riguarda la protezione dei dati. Una delle tecniche emergenti in questo campo è la Generazione Aumentata dal Recupero (RAG), un approccio che promette di migliorare le capacità dei modelli linguistici di grandi dimensioni (LLM) pur mantenendo un focus sulla conformità e la sicurezza delle informazioni.

Il Fraunhofer-Institut für Experimentelles Software Engineering IESE definisce il Retrieval-augmented Generation (RAG) come una procedura di intelligenza artificiale che integra un modello linguistico di grandi dimensioni (LLM) con una capacità di ricerca efficiente, ad esempio all'interno di una raccolta di documenti, in un database o in un knowledge graph, per generare risposte. Questo approccio offre diversi vantaggi significativi: innanzitutto, può aumentare notevolmente l'affidabilità dell'intelligenza artificiale; in secondo luogo, consente di utilizzare gli LLM anche con i dati interni specifici dell'azienda o dell'ente che li impiega.

L'interesse per le implicazioni del RAG non si limita al mondo accademico, che esplora aspetti come l'affidabilità e la certezza giuridica dei contenuti generati dall'IA. Anche le autorità di protezione dei dati, infatti, stanno esaminando attentamente l'impatto del RAG sui sistemi di intelligenza artificiale, consapevoli delle potenziali sfide e opportunità che questa tecnologia porta con sé.

RAG e la protezione dei dati

Le autorità di protezione dei dati vedono un grande potenziale nel RAG. Ad esempio, il Garante statale per la protezione dei dati e la libertà di informazione del Baden-Württemberg ha commentato: "I sistemi RAG hanno un grande potenziale e offrono un nuovo punto di partenza innovativo per lo sviluppo digitale made in Europe." Ha aggiunto: "Aziende e autorità dispongono di un'enorme quantità di dati personali e non personali che finora sono stati spesso poco utilizzati. Con i sistemi RAG, possono rendersi più indipendenti dai grandi fornitori e sviluppare i loro sistemi in modo sovrano. Dal punto di vista della protezione dei dati, è assolutamente sensato operare sistemi controllabili che proteggano al meglio i dati personali." Questa visione sottolinea il ruolo del RAG nel favorire l'autonomia digitale e la gestione responsabile dei dati a livello locale o aziendale.

A testimonianza di questo crescente interesse e della necessità di linee guida chiare, la Conferenza delle autorità indipendenti per la protezione dei dati federali e statali (DSK) in Germania ha pubblicato una guida orientativa per aziende e autorità (disponibile in PDF). Questo documento è rivolto a coloro che già utilizzano o intendono utilizzare sistemi di IA basati su Retrieval-augmented Generation. La guida fornisce indicazioni legali e tecniche su come sfruttare il potenziale di tali sistemi di IA, riducendo al contempo i rischi per le persone interessate.

Meike Kamp, Garante di Berlino per la protezione dei dati e la libertà di informazione e presidente del DSK per il 2025, ha motivato la nuova guida, affermando: "I sistemi RAG possono supportare aziende e autorità nell'utilizzo dei vantaggi dell'IA moderna, riducendo al contempo i rischi associati per i diritti e le libertà delle persone interessate. È fondamentale, tuttavia, che il loro impiego sia progettato in conformità con la protezione dei dati fin dall'inizio. I responsabili devono garantire in ogni momento trasparenza, limitazione delle finalità e rispetto dei diritti degli interessati." Questo evidenzia la necessità di un approccio "privacy by design" fin dalle prime fasi di implementazione.

Tra i vantaggi del RAG nei sistemi di IA, le autorità di vigilanza evidenziano che i sistemi RAG possono essere sviluppati, gestiti e controllati in modo autonomo, incarnando così il concetto di Privacy by Design. Inoltre, possono favorire l'impiego di modelli più piccoli e operati localmente, il che, ad esempio, consente il funzionamento del sistema senza la trasmissione di dati personali a terzi, come i grandi fornitori di servizi cloud (hyperscaler). In questo modo, il metodo RAG può fornire un contributo importante alla sovranità digitale, secondo gli esperti di protezione dei dati. La capacità di mantenere i dati e i modelli sotto il controllo diretto dell'organizzazione utente riduce la dipendenza da entità esterne e migliora la sicurezza.

Anche con RAG, permangono i rischi per i dati

Tuttavia, anche nell'impiego del RAG, non devono essere trascurati i rischi per la protezione dei dati personali. I sistemi RAG, ad esempio, non eliminano i problemi di protezione dei dati di un Large Language Model (LLM) che potrebbe essere stato addestrato in modo illecito. Se il modello di base ha già delle vulnerabilità o è stato alimentato con dati non conformi, il RAG non è in grado di risolvere queste problematiche intrinseche.

Inoltre, dal punto di vista delle autorità di protezione dei dati, rimane una sfida garantire la trasparenza, la limitazione delle finalità e l'attuazione dei diritti degli interessati nell'intero sistema. Gli enti responsabili che intendono impiegare sistemi RAG devono quindi effettuare valutazioni di protezione dei dati per le singole elaborazioni caso per caso e mantenere le loro misure tecnico-organizzative sempre aggiornate. L'integrazione di fonti e dati interni o esterni alla base dati di un LLM non annulla, quindi, i problemi di protezione dei dati che possono sussistere in un LLM.

A questo proposito, le autorità di vigilanza sottolineano, tra l'altro, i seguenti punti critici:

Validità delle fonti di dati esterne: Nell'integrazione di fonti di dati esterne, la legittimità dell'uso, l'idoneità e la correttezza dei dati e dei risultati ottenuti devono essere adeguatamente verificate e garantite. È fondamentale assicurarsi che i dati provengano da fonti legali e siano pertinenti e accurati per lo scopo previsto.
Impatto sull'accuratezza e priorità: L'integrazione di dati esterni può far apparire i testi generati attuali o specifici, ma può anche influire sull'accuratezza e potrebbe rendere necessaria una prioritizzazione delle fonti di dati interne ed esterne nel sottosistema RAG. La gestione di informazioni contrastanti o non allineate richiede una strategia chiara.
Limiti della trasparenza: Un aumento della trasparenza in termini di protezione dei dati per quanto riguarda l'LLM impiegato non può essere raggiunto solo tramite RAG. La trasparenza in un sistema RAG è limitata alla possibilità di fornire informazioni sulle query estese inviate al componente LLM utilizzato, ma non sulle logiche interne o sui dati di addestramento dell'LLM stesso.
Misure per la riservatezza: Per quanto riguarda la riservatezza, nell'ambito del sottosistema RAG è necessario affrontare le esigenze di protezione dei dati per il database con misure consolidate. A tal fine, in un sottosistema RAG possono essere applicate misure tecniche e organizzative comprovate, come la separazione tra clienti/separazione funzionale e il concetto di diritti e ruoli.
Limitazione delle query mirate: La messa a disposizione di determinati documenti per l'LLM può consentire interrogazioni mirate di dati personali, che devono essere strettamente limitate alla finalità di elaborazione definita. A tal fine, tuttavia, ai dipendenti che utilizzano il sistema RAG per scopi diversi devono essere assegnati ruoli differenti, garantendo un controllo granulare degli accessi.

Indipendentemente dai vantaggi di un sistema RAG, i problemi relativi alla cancellazione dei dati all'interno del modello linguistico stesso persistono, secondo gli esperti di protezione dei dati. Ciò significa che, anche se il RAG aggiunge un livello di recupero esterno, il problema di come rimuovere dati specifici che potrebbero essere stati "appresi" dall'LLM durante la fase di addestramento rimane una questione aperta e complessa.

In sintesi, si può affermare che alcune sfide di protezione dei dati possono essere mitigate con l'uso del RAG, mentre altre permangono. Inoltre, anche per il sistema RAG devono essere adottate misure specifiche per garantire la protezione dei dati, ad esempio misure per la protezione della riservatezza dei dati nelle fonti di dati aggiuntive. Non da ultimo, l'utilizzo dei dati aggiuntivi richiede sempre una base giuridica specifica, oltre alla base giuridica necessaria per l'LLM stesso. Questo approccio a più livelli alla conformità è essenziale per implementare il RAG in modo responsabile.

Per approfondire le tematiche di privacy e compliance, si consiglia di consultare risorse dedicate, come ad esempio:

Digitale Omnibus: Tra semplificazione e attenuazione (di Oliver Schonschek)
Agentic RAG accende la prossima fase evolutiva dell'IA
RAG e MCP come elementi di svolta per i processi aziendali
Comprendere le basi dell'osservabilità degli LLM (di Kerry Doyle)