In un'epoca di crescente digitalizzazione e globalizzazione, l'accesso all'informazione giuridica, specialmente in contesti multilingue e per chi non è specialista del settore, rappresenta una sfida complessa. L'intelligenza artificiale (IA) emerge come un potenziale alleato in questo scenario, promettendo di fungere da traduttore e da esperto legale simultaneamente. Un'interessante ricerca, pubblicata nel gennaio 2025 sul blog del Library Innovation Lab (LIL) dell'Università di Diritto di Harvard, getta luce su questo potenziale, concentrandosi in particolare sul diritto francese.

Lo studio è frutto della collaborazione tra Kristi Mukk, bibliotecaria presso il LIL di Harvard, Matteo Cargnelutti, informatico nello stesso laboratorio, e Betty Queffelec, docente-ricercatrice in diritto del mare presso il laboratorio AMURE dell'Università di Bretagna Occidentale (UBO). I ricercatori hanno esaminato l'applicazione dell'IA per la ricerca di informazioni nel diritto francese e, più in generale, in contesti di ricerca multilingue, fornendo spunti cruciali sul futuro dell'interazione tra tecnologia e giurisprudenza.

I tre punti chiave dello studio

L'analisi condotta da Mukk, Cargnelutti e Queffelec si riassume in tre aspetti fondamentali, che guidano la comprensione del potenziale e dei limiti dell'intelligenza artificiale nel campo giuridico:

L'indagine valuta il potenziale dell'IA come strumento di ricerca giuridica nel diritto francese per non specialisti e non francofoni, grazie all'impiego di un modello di linguaggio (LLM) arricchito da un'architettura RAG.
La metodologia si basa su un corpus di dieci domande giuridiche, formulate sia in francese che in inglese, e poste, con e senza l'ausilio di RAG, a due modelli di IA: Chat GPT-4 e Llama2, al fine di comparare i dati ottenuti.
I risultati indicano un certo potenziale dell'IA per la ricerca di informazioni giuridiche multilingue, ma al contempo evidenziano limiti significativi, in particolare riguardo l'affidabilità e la pertinenza delle risposte in generale e delle fonti citate in particolare.

L'IA come strumento bivalente: traduttore ed esperto

La ricerca di informazioni giuridiche da parte di non specialisti è intrinsecamente complessa, e questa difficoltà si amplifica notevolmente in un contesto multilingue. L'intelligenza artificiale, in questo scenario, non si propone solo come un semplice ausilio, ma come uno strumento dotato di una duplice funzione: agisce da traduttore, abbattendo le barriere linguistiche, e da esperto giuridico, guidando l'utente attraverso la complessità delle normative. Gli autori dello studio si sono concentrati sull'utilizzo di due tecnologie specifiche dell'IA: i Large Language Models (LLM) e il Retrieval Augmented Generation (RAG), meccanismi fondamentali per le capacità di comprensione e generazione del linguaggio dell'IA.

Perché il diritto francese? Un terreno di studio privilegiato

Lo studio, realizzato nel 2023, ha coinvolto tre esperti con specialità diverse ma complementari, che hanno permesso di analizzare come gli LLM, abbinati a un'architettura RAG sviluppata per l'occasione, possano essere impiegati per accedere e comprendere informazioni giuridiche complesse in una lingua straniera. La scelta di focalizzarsi sul diritto francese non è casuale. Le peculiarità di questo sistema giuridico lo rendono particolarmente adatto alla configurazione RAG. Il diritto francese, infatti, si basa più sui testi giuridici, in particolare le leggi, che sulla giurisprudenza. Questo gli conferisce una natura più prevedibile e coerente con il funzionamento dell'IA, che eccelle nell'elaborazione di corpi testuali strutturati. Tuttavia, l'ostacolo principale per i non francofoni è la disponibilità di questi testi esclusivamente in francese, rendendo il diritto francese un campo di studio scientifico ideale per testare le capacità multilingue dell'IA.

Comprendere le tecnologie: LLM e RAG

Per cogliere appieno la portata della ricerca, è fondamentale comprendere le due tecnologie di IA al centro dell'indagine:

Large Language Models (LLM): Questi "grandi modelli di linguaggio" rappresentano un tipo di apprendimento automatico specificamente applicato al linguaggio. Si basano su un numero estremamente elevato di parametri per prevedere con precisione la sintassi o la semantica del linguaggio umano. Questa tecnologia è ampiamente utilizzata per l'implementazione di agenti conversazionali come i chatbot.
Retrieval Augmented Generation (RAG): Conosciuta come "generazione aumentata da recupero", questa è una procedura che integra i dati di un LLM con informazioni aggiuntive recuperate da fonti esterne. L'obiettivo è ottimizzare e arricchire le risposte generate dall'LLM, fornendo un contesto più ampio e informazioni più precise e aggiornate.

Il codice e i dati: la preparazione dell'IA

La prima fase del processo sperimentale, magistralmente condotta da Matteo Cargnelutti, ingegnere del software presso il Library Innovation Lab, è stata dedicata alla creazione di un dispositivo sperimentale su misura per le esigenze dell'esperimento. Questo dispositivo è stato progettato tenendo conto di due parametri essenziali: le fonti di informazione per l'IA e le domande che le sarebbero state poste.

Le fonti dati sono state costituite da una robusta base di dati di 841.761 voci, estratte da LegiFrance, la piattaforma ufficiale del governo francese che raccoglie l'intera legislazione e regolamentazione nazionale. Su questi dati sono stati applicati diversi trattamenti tramite catene di elaborazione informatica, inclusa la segmentazione dei testi in estratti per facilitare l'analisi da parte dell'IA.

Una volta costruita la base di dati, il passo successivo è stato la definizione dei "prompt", ovvero comandi specifici per l'IA che delineano le domande da porre. Sono stati definiti quattro tipi di prompt, sia in francese che in inglese, e in due configurazioni: con e senza l'integrazione del sistema RAG. L'infrastruttura sottostante si è basata su modelli esistenti, già affidabili e addestrati, ma adattati alla problematica specifica dello studio: la traduzione e l'analisi del diritto francese per un utente anglofono. L'impegno per la trasparenza e la riproducibilità è stato evidente, in quanto il codice sorgente ottenuto è stato reso liberamente accessibile su Github.

Un protocollo sperimentale rigoroso per testare le competenze giuridiche dell'IA

Il protocollo sperimentale, definito da Kristi Mukk, coordinatrice dell'assistenza agli utenti presso la biblioteca della facoltà di giurisprudenza di Harvard, si è basato su un corpus di dieci domande giuridiche. Queste domande, formulate sia in francese che in inglese, variavano in complessità, richiedendo la ricerca di risposte in una o più fonti e presentando diversi gradi di sfumatura legale. In base alla loro complessità, le domande sono state suddivise in sette categorie distinte. Alcuni esempi di domande includevano:

Identificare se uno studio di impatto è necessario per aprire un campeggio.
Chi ha l'obbligo di riparare i danni causati a un campo di mais da cinghiali selvatici?
Una mucca può essere considerata un immobile?
Identificare e riassumere il diritto applicabile alla creazione di aree protette nel diritto ambientale.

L'aspetto cruciale dell'esperimento è stato l'attenta valutazione dei risultati. Sono stati definiti criteri affidabili per misurare l'esattezza della risposta, la fedeltà al contesto fornito, la pertinenza della risposta, nonché la precisione e il richiamo del contesto da parte dell'IA. Questo approccio metodologico ha garantito una valutazione oggettiva e approfondita delle capacità dell'IA.

Potenziale e limiti: l'analisi dei risultati

Dopo aver implementato la metodologia e l'esperimento con l'IA, la fase successiva è stata l'analisi approfondita dei dati. Betty Queffelec ha condotto uno studio dettagliato, focalizzato sull'esame delle fonti citate nelle risposte e sulla rilevazione e classificazione degli errori. Queste analisi sono state eseguite su tutte le 80 risposte generate (10 domande x 2 lingue x 2 configurazioni RAG x 2 modelli di IA: GPT-4 e Llama 2), fornendo un quadro esaustivo.

I risultati complessivi hanno mostrato che circa la metà delle risposte includeva delle fonti, le quali, tuttavia, non erano sempre pertinenti. Per quanto riguarda l'affidabilità delle risposte, la maggior parte di esse si è rivelata solo parzialmente corretta: solo il 10% era completamente esatto (sebbene a volte incompleto), il 77,5% parzialmente esatto e il 12,5% completamente inesatto. È importante notare, tuttavia, che l'ambito limitato dello studio (dieci domande) suggerisce di interpretare questi risultati statistici con cautela.

Nella sua analisi, Betty Queffelec ha anche proposto diverse comparazioni per definire delle tendenze. Ha osservato, ad esempio, che le risposte generate in inglese tendevano a essere leggermente più performanti di quelle in francese. L'incorporazione del RAG ha dimostrato di aumentare leggermente l'efficacia delle risposte, ma ha anche introdotto nuove tipologie di errori. Tra i due modelli di IA testati, GPT-4 si è rivelato più performante di Llama 2. In definitiva, la combinazione di GPT-4 con RAG ha fornito le migliori prestazioni complessive in termini di precisione e pertinenza, anche se un numero significativo di errori persisteva. Questo evidenzia che, nonostante i progressi, la strada verso un'IA giuridica pienamente affidabile è ancora lunga, specialmente quando si tratta di garantire la totale accuratezza e la pertinenza delle fonti citate, aspetti fondamentali in campo legale.

In conclusione, lo studio condotto dall'Università di Harvard e dall'UBO offre una prospettiva preziosa sul ruolo emergente dell'IA nella ricerca giuridica multilingue. Se da un lato l'IA dimostra un notevole potenziale come facilitatore per non specialisti e non francofoni, dall'altro lato emergono limiti significativi in termini di affidabilità e pertinenza delle informazioni fornite. Questi risultati sottolineano l'importanza di un approccio cauto e critico nell'adozione di tali tecnologie in ambiti dove l'accuratezza e la veridicità delle informazioni sono di cruciale importanza.