L'intelligenza artificiale (IA) sta trasformando rapidamente molti settori, e con essa emergono nuove sfide e opportunità, in particolare nell'ambito della protezione dei dati. Uno dei metodi più promettenti in questo contesto è la Retrieval-augmented Generation (RAG), un approccio che mira a migliorare l'accuratezza e la rilevanza delle risposte generate dai Large Language Model (LLM) integrando informazioni provenienti da fonti esterne affidabili. Secondo il Fraunhofer-Institut für Experimentelles Software Engineering IESE, "la Retrieval-augmented Generation (RAG) è un processo di IA che integra un Large Language Model (LLM) con una buona capacità di ricerca, ad esempio in una raccolta di documenti, in un database o in un Knowledge Graph, per generare risposte".

I vantaggi di RAG sono molteplici e significativi. Primo fra tutti, la sua capacità di aumentare notevolmente l'affidabilità dell'IA, fornendo risposte basate su fatti verificabili e attuali. In secondo luogo, il RAG permette di utilizzare gli LLM anche con i dati interni di un'azienda, sbloccando un potenziale finora inespresso per l'analisi e la generazione di contenuti pertinenti al contesto specifico dell'organizzazione. Questo aspetto è particolarmente cruciale in un'epoca in cui le imprese e le autorità dispongono di una quantità enorme di dati personali e non personali, spesso sottoutilizzati.

Tuttavia, le implicazioni di RAG non si limitano agli aspetti tecnici e prestazionali. La comunità scientifica, insieme alle autorità di protezione dei dati, sta esaminando attentamente le potenziali conseguenze di questa tecnologia, in particolare per quanto riguarda l'affidabilità e la certezza giuridica dei contenuti generati dall'IA attraverso il RAG. La protezione dei dati, la trasparenza e la conformità normativa sono al centro di questo dibattito, e le autorità stanno fornendo indicazioni chiare su come affrontare queste sfide.

RAG e la protezione dei dati

Le autorità di protezione dei dati in Europa vedono un grande potenziale nei sistemi RAG. Ad esempio, il Garante statale per la protezione dei dati e la libertà d'informazione del Baden-Württemberg ha commentato: "I sistemi RAG hanno un grande potenziale e offrono un nuovo punto di partenza innovativo per lo sviluppo digitale 'made in Europe'". Questa prospettiva sottolinea l'importanza di RAG come strumento per rafforzare la sovranità digitale e l'indipendenza tecnologica.

Il Garante prosegue evidenziando che "le aziende e le autorità dispongono di una quantità enorme di dati personali e non personali che finora sono stati spesso poco utilizzati. Con i sistemi RAG, possono rendersi più indipendenti dai grandi fornitori e sviluppare i propri sistemi in modo sovrano. Dal punto di vista della protezione dei dati, è assolutamente sensato operare sistemi controllabili che proteggano al meglio i dati personali." Questa visione promuove l'idea che RAG possa facilitare l'adozione di soluzioni IA che siano intrinsecamente più rispettose della privacy e della sovranità dei dati.

Per supportare le organizzazioni nell'implementazione conforme al GDPR, la Konferenz der unabhängigen Datenschutzbehörden von Bund und Ländern (DSK), ovvero la Conferenza delle autorità indipendenti per la protezione dei dati del governo federale e degli stati federati tedeschi, ha pubblicato una Guida all'orientamento per aziende e autorità (PDF). Questo documento è destinato a coloro che già utilizzano o intendono utilizzare sistemi IA con Retrieval-augmented Generation. La guida fornisce indicazioni legali e tecniche su come sfruttare il potenziale di tali sistemi IA e, allo stesso tempo, ridurre i rischi per gli interessati.

Meike Kamp, Garante di Berlino per la protezione dei dati e la libertà d'informazione e presidente della DSK nel 2025, ha giustificato la nuova guida spiegando: "I sistemi RAG possono aiutare le aziende e le autorità a sfruttare i vantaggi dell'IA moderna e, allo stesso tempo, a ridurre i rischi associati per i diritti e le libertà delle persone interessate. Tuttavia, è fondamentale che il loro utilizzo sia conforme alla protezione dei dati fin dall'inizio. I responsabili devono garantire in ogni momento trasparenza, limitazione delle finalità e rispetto dei diritti degli interessati." Questo evidenzia la necessità di un approccio "privacy by design" e "privacy by default" nell'implementazione di RAG.

Vantaggi di RAG per la protezione dei dati

Le autorità di vigilanza riconoscono diversi vantaggi dei sistemi RAG in relazione alla protezione dei dati, che contribuiscono a una maggiore conformità e sovranità digitale:

I sistemi RAG possono essere sviluppati, gestiti e controllati autonomamente, consentendo così di implementare il concetto di Privacy by Design. Questo significa che le considerazioni sulla protezione dei dati sono integrate fin dalle prime fasi di progettazione del sistema, piuttosto che essere aggiunte in un secondo momento.
Possono consentire l'utilizzo di modelli più piccoli e anche gestiti localmente. Questo è un aspetto cruciale perché permette, ad esempio, un funzionamento del sistema senza la trasmissione di dati personali a terzi come i grandi fornitori di servizi cloud (hyperscaler). La gestione locale riduce significativamente i rischi legati al trasferimento internazionale di dati e alla dipendenza da fornitori esterni.
Grazie a queste caratteristiche, il metodo RAG può dare un importante contributo alla sovranità digitale. Le organizzazioni possono mantenere un maggiore controllo sui propri dati e sulle proprie infrastrutture IA, rafforzando la loro capacità di operare in modo indipendente e sicuro.

Anche con RAG, ci sono rischi per i dati

Nonostante i numerosi vantaggi, è fondamentale non sottovalutare i rischi per la protezione dei dati anche nell'uso di RAG. È importante chiarire che i sistemi RAG non risolvono automaticamente i problemi di protezione dei dati derivanti da un Large Language Model (LLM) addestrato in modo illecito. Se il modello di base è stato addestrato su dati non conformi, l'aggiunta di RAG non renderà magicamente l'intero sistema conforme.

Inoltre, dal punto di vista delle autorità di protezione dei dati, rimane impegnativo garantire la trasparenza, la limitazione delle finalità e l'attuazione dei diritti degli interessati nell'intero sistema. I responsabili che intendono utilizzare sistemi RAG devono quindi effettuare valutazioni di protezione dei dati per le singole elaborazioni, caso per caso, e mantenere sempre aggiornate le proprie misure tecnico-organizzative. La semplice aggiunta di fonti e dati interni o esterni alla base dati di un LLM non annulla i problemi di protezione dei dati che possono esistere in un LLM.

Punti specifici di attenzione delle autorità di vigilanza

Le autorità di vigilanza sottolineano in particolare i seguenti aspetti critici e le misure necessarie:

Legalità e correttezza dei dati: Quando si integrano fonti di dati esterne, è necessario verificare e garantire in modo sufficiente la legittimità del loro utilizzo, l'idoneità e la correttezza dei dati stessi e dei risultati ottenuti. Ciò implica una due diligence rigorosa sulle fonti esterne.
Impatto sull'accuratezza e priorità delle fonti: L'integrazione di dati esterni può far apparire i testi generati più attuali o specifici, ma può anche influire sull'accuratezza. Potrebbe essere necessario stabilire una priorità tra le fonti di dati interne ed esterne all'interno del sottosistema RAG per garantire la coerenza e l'affidabilità delle risposte.
Trasparenza limitata dell'LLM: Un aumento della trasparenza in termini di protezione dei dati in relazione all'LLM utilizzato non può essere raggiunto solo tramite RAG. La trasparenza in un sistema RAG è limitata alla possibilità di fornire informazioni sulla query estesa inviata al componente LLM utilizzato, ma non sui processi interni o sui dati di addestramento originali dell'LLM.
Requisiti di riservatezza nel sottosistema RAG: Per quanto riguarda la riservatezza, le esigenze di protezione dei dati devono essere affrontate con misure consolidate all'interno del database del sottosistema RAG. A tal fine, possono essere applicate misure tecniche e organizzative comprovate, come la separazione dei tenant/separazione funzionale e il concetto di diritti e ruoli.
Interrogazioni mirate e ruoli degli utenti: La disponibilità di documenti specifici per l'LLM può consentire interrogazioni mirate di dati personali, che devono essere strettamente limitate allo scopo di elaborazione definito. A tal fine, è essenziale che ai dipendenti che utilizzano il sistema RAG per scopi diversi vengano assegnati ruoli diversi, con accessi e permessi configurati in modo granulare.

Inoltre, indipendentemente dai vantaggi di un sistema RAG, i problemi relativi alla cancellazione dei dati nel modello linguistico stesso persistono, secondo le autorità di protezione dei dati. Ciò significa che la gestione del diritto all'oblio e la rimozione di dati specifici da un modello addestrato rimangono sfide complesse, che RAG da solo non risolve.

In sintesi, si può affermare che alcune sfide di protezione dei dati possono essere mitigate dall'uso di RAG, mentre altre permangono. Inoltre, anche per il sistema RAG stesso devono essere adottate misure per salvaguardare la protezione dei dati, ad esempio misure per la protezione della riservatezza dei dati nelle fonti di dati aggiuntive. Non da ultimo, è sempre necessaria una base giuridica per l'utilizzo dei dati aggiuntivi, oltre alla base giuridica richiesta per l'LLM.

Ulteriori approfondimenti su protezione dei dati e conformità

L'omnibus digitale: tra semplificazione e ammorbidimento
di Oliver Schonschek
RAG con agenti accende la prossima fase evolutiva dell'IA
RAG e MCP come elementi di svolta per i processi aziendali
Comprendere i fondamenti dell'osservabilità degli LLM
di Kerry Doyle