Il 12 maggio 2025, il laboratorio AMURE dell'Università di Bretagna Occidentale (UBO) ha condiviso i risultati di una ricerca innovativa nel campo dell'intelligenza artificiale applicata al diritto. Pubblicata a gennaio 2025 sul blog del Library Innovation Lab (lil) dell'Università di Diritto di Harvard, l'indagine ha visto la collaborazione di Kristi Mukk, bibliotecaria, e Matteo Cargnelutti, informatico, entrambi del laboratorio lil, insieme a Betty Queffelec, docente-ricercatrice in diritto del mare presso il laboratorio AMURE. Il loro lavoro si è concentrato sull'utilizzo dell'intelligenza artificiale (IA) per la ricerca di informazioni nel diritto francese e, più in generale, nell'ambito della ricerca multilingue.

La ricerca di informazioni giuridiche da parte di non specialisti può rivelarsi particolarmente complessa, soprattutto in un contesto multilingue dove le barriere linguistiche e la specificità della terminologia legale rappresentano ostacoli significativi. L'intelligenza artificiale emerge in questo scenario come un potenziale strumento di supporto, capace di svolgere una duplice funzione: quella di traduttore e quella di esperto giuridico. Questo studio ha esaminato approfonditamente tale potenziale, basandosi su due tecnologie specifiche dell'IA: i Large Language Models (LLMs) e la Retrieval Augmented Generation (RAG).

I tre punti chiave dello studio

L'analisi condotta dagli esperti ha evidenziato tre aspetti fondamentali da tenere in considerazione:

L'IA è stata valutata per il suo potenziale come strumento di ricerca giuridica nel diritto francese, rivolta a non-specialisti e non-francofoni. Questa valutazione è stata possibile grazie all'uso di modelli di linguaggio (LLMs) arricchiti da un'architettura RAG.
La metodologia adottata si è basata sull'utilizzo di un corpus di dieci domande giuridiche, formulate sia in francese che in inglese, e poste a due modelli di IA, Chat GPT-4 e Llama2, sia con che senza l'implementazione del RAG, al fine di confrontare i dati ottenuti.
I risultati hanno rivelato un certo potenziale dell'IA per la ricerca di informazioni giuridiche multilingue. Tuttavia, la ricerca ha anche messo in luce importanti limiti, in particolare per quanto riguarda l'affidabilità e la pertinenza delle risposte generate e, soprattutto, l'accuratezza delle fonti citate.

Contesto e motivazioni della ricerca

Lo studio, condotto nel 2023, è stato il frutto della collaborazione di tre esperti, le cui specialità, seppur diverse, si sono rivelate complementari nell'analizzare come i LLMs, quando accoppiati a un'architettura RAG sviluppata per l'occasione, possano essere impiegati per accedere e comprendere informazioni giuridiche altamente specifiche in una lingua straniera. In questo contesto, l'attenzione si è focalizzata sul diritto francese.

La scelta del diritto francese come campo di studio non è stata casuale. Le sue peculiarità gli conferiscono una struttura particolarmente adatta alla configurazione RAG. Infatti, il diritto francese si basa in misura maggiore su testi giuridici, in particolare le leggi, piuttosto che sulla giurisprudenza. Questa caratteristica gli conferisce una natura più prevedibile e coerente con il modo di funzionamento dell'IA, che eccelle nell'elaborazione di dati strutturati. Nonostante ciò, l'accessibilità di questi testi, disponibili prevalentemente in francese, costituisce un ostacolo significativo per i non-francofoni, rendendo il diritto francese un terreno di studio scientifico particolarmente favorevole per esplorare le capacità dell'IA in contesti multilingue.

Le tecnologie al cuore dell’indagine

Per comprendere appieno le dinamiche di questa ricerca, è essenziale familiarizzare con le due tecnologie chiave dell'intelligenza artificiale su cui si è basato lo studio:

Large Language Models (LLMs)

I Large Language Models, o grandi modelli di linguaggio, rappresentano una tipologia avanzata di machine learning specificamente applicata all'elaborazione del linguaggio. Questi modelli si basano su un numero estremamente elevato di parametri per prevedere con precisione la sintassi e la semantica del linguaggio umano. La loro capacità di apprendere da vastissimi corpus di testo li rende capaci di generare testi coerenti, rispondere a domande, riassumere documenti e tradurre tra diverse lingue. Questa tecnologia è fondamentale per lo sviluppo e l'implementazione di agenti conversazionali e sistemi di intelligenza artificiale capaci di interagire in modo "naturale" con gli utenti.

Retrieval Augmented Generation (RAG)

La Retrieval Augmented Generation (RAG), o generazione aumentata di recupero, è un processo innovativo che mira a superare alcune delle limitazioni intrinseche dei LLMs, come la tendenza a "allucinare" (generare informazioni errate o inventate) o a basarsi solo sulle informazioni apprese durante l'addestramento, che potrebbero non essere sempre aggiornate o specifiche per un determinato dominio. Il RAG consiste nell'arricchire i dati a disposizione dei LLMs con informazioni supplementari recuperate da una fonte esterna, specifica e aggiornata, al momento della query dell'utente. Questo processo permette di ottimizzare le risposte generate dall'IA, rendendole più accurate, pertinenti e basate su fatti verificabili, riducendo al contempo il rischio di inesattezze e migliorando la tracciabilità delle fonti.

Dal codice ai dati: l’implementazione dell’IA

La prima fase del processo di ricerca, gestita da Matteo Cargnelutti, ingegnere software presso il Library Innovation Lab, ha previsto la creazione di un dispositivo sperimentale progettato per rispondere alle esigenze specifiche dell'esperimento. Questo dispositivo ha considerato due parametri essenziali: le fonti da fornire all'IA e le domande che le sarebbero state poste.

Le fonti per l'IA sono state costituite da una robusta base di dati comprendente 841.761 voci, estratte da LegiFrance, la piattaforma ufficiale del governo francese che raccoglie l'intera legislazione e regolamentazione nazionale. Su questi dati sono stati applicati diversi trattamenti tramite catene di elaborazione informatica. In particolare, i testi sono stati segmentati in estratti più piccoli per facilitare e accompagnare l'analisi dell'IA.

Una volta costruita la base di dati, è stata definita la serie di prompts, ovvero comandi specifici per l'IA, utilizzati per porre le domande. Sono stati definiti quattro tipi di prompts, disponibili sia in francese che in inglese, e configurati per essere utilizzati sia con che senza l'integrazione del sistema RAG.

L'infrastruttura realizzata si è basata su modelli esistenti, già addestrati e considerati affidabili, che sono stati adattati alla specifica problematica dello studio: la traduzione e l'analisi del diritto francese per un utente anglofono. L'impegno per la trasparenza e la riproducibilità della ricerca è stato sottolineato dalla decisione di rendere il codice sorgente ottenuto disponibile in libero accesso sulla piattaforma Github.

Un protocollo sperimentale per testare le competenze giuridiche dell’IA

Il protocollo sperimentale, definito da Kristi Mukk, coordinatrice dell'assistenza agli utenti presso la biblioteca dell'Università di Diritto di Harvard, ha impiegato un corpus di dieci domande giuridiche. Ciascuna domanda è stata formulata sia in francese che in inglese e presentava diversi livelli di complessità, ovvero richiedeva la ricerca di risposte in una o più fonti, con più o meno sfumature giuridiche. In base a questa complessità, le domande sono state suddivise in 7 categorie.

Alcuni esempi significativi delle domande poste all'IA includono:

Identificare se uno studio di impatto è necessario per aprire un campeggio.
Determinare chi ha l'obbligo di riparare i danni causati a un campo di mais da cinghiali selvatici.
Valutare se una vacca può essere considerata un immobile secondo il diritto francese.
Identificare e riassumere il diritto applicabile alla creazione di aree protette nel contesto del diritto ambientale.

L'accurata valutazione dei risultati ha rappresentato una fase cruciale dello studio. Sono stati definiti criteri affidabili per misurare l'esattezza della risposta, la fedeltà al contesto fornito, la pertinenza della risposta, nonché la precisione e la capacità dell'IA di richiamare il contesto rilevante.

Un’IA giuridica con potenziale, ma anche limiti

Una volta implementata la metodologia e completata la fase sperimentale con l'IA, si è passati all'analisi dettagliata dei risultati. Betty Queffelec ha condotto questa fase, esaminando in particolare le fonti citate nelle risposte e procedendo al rilevamento e alla classificazione degli errori. Questa analisi è stata eseguita su tutte le 80 risposte generate: le 10 domande, in francese e in inglese, per i prompt con e senza RAG, e per i due modelli di IA utilizzati (GPT-4 e Llama 2).

I risultati complessivi hanno mostrato che circa la metà delle risposte includeva delle fonti, le quali, tuttavia, non sempre si sono rivelate pertinenti. Per quanto riguarda l'affidabilità delle risposte, la maggior parte di esse era solo parzialmente corretta: un 10% delle risposte era completamente esatto (anche se a volte incompleto), un 77,5% era parzialmente esatto e un 12,5% era completamente inesatto. È fondamentale sottolineare che l'ampiezza limitata dello studio, basato su sole 10 domande, invita a interpretare questi risultati statistici con la dovuta cautela.

Tendenze e confronti chiave

Nella sua analisi, Betty Queffelec ha proposto anche diverse comparazioni per definire delle tendenze specifiche. Ha rilevato, ad esempio, che le risposte generate in inglese tendevano ad essere leggermente più performanti rispetto a quelle in francese. L'integrazione del sistema RAG ha mostrato un leggero aumento dell'efficacia delle risposte, ma ha anche introdotto nuove tipologie di errori. Tra i due modelli di IA testati, GPT-4 si è dimostrato più performante di Llama 2. In definitiva, la combinazione di GPT-4 con l'architettura RAG ha fornito le migliori prestazioni complessive in termini di precisione e pertinenza, sebbene un numero significativo di errori fosse ancora presente.

Conclusioni e prospettive future

Lo studio congiunto dell'Università di Harvard e dell'UBO offre una visione preziosa sul potenziale e sui limiti dell'intelligenza artificiale nell'ambito della ricerca giuridica, in particolare per il diritto francese e in contesti multilingue. Se da un lato l'IA, soprattutto quando supportata da tecnologie come LLMs e RAG, dimostra la capacità di facilitare l'accesso a informazioni legali complesse per un pubblico non specializzato e non francofono, dall'altro le sfide legate all'affidabilità, alla pertinenza delle risposte e all'accuratezza delle fonti restano significative.

I risultati, seppur incoraggianti per il futuro dell'IA come strumento di supporto giuridico, sottolineano la necessità di ulteriori ricerche e sviluppi per migliorare l'accuratezza e la completezza delle informazioni fornite. La cautela nell'interpretazione di questi dati, data la portata limitata dello studio a sole dieci domande, è un monito importante. Tuttavia, questa ricerca pionieristica apre la strada a nuove indagini e all'ottimizzazione degli strumenti di intelligenza artificiale, affinché possano diventare alleati sempre più affidabili per professionisti del diritto e cittadini che necessitano di orientarsi nel complesso panorama giuridico internazionale.