AWS ha presentato un'importante serie di funzionalità all'interno del suo servizio Bedrock, mirate a migliorare l' valutazione delle applicazioni di intelligenza artificiale. Questi aggiornamenti, svelati durante la conferenza annuale re:Invent, tenutasi dal 2 al 6 dicembre, sono progettati per assistere le aziende nella razionalizzazione dei processi di test delle loro applicazioni IA prima che vengano implementate in produzione. Le novità si concentrano in particolare sulla valutazione delle applicazioni basate su RAG (retrieval augmented generation) e sull'introduzione di LLM referenziali, noti anche come "LLM-as-a-judge".

Le aziende possono ora beneficiare di un ecosistema più robusto per lo sviluppo e l'ottimizzazione delle loro soluzioni IA, garantendo che i modelli siano allineati ai loro specifici casi d'uso e forniscano risultati accurati e pertinenti. Le funzionalità annunciate semplificano notevolmente il ciclo di vita dello sviluppo delle applicazioni IA, dalla gestione dei dati alla valutazione delle prestazioni dei modelli.

Valutazione RAG avanzata nelle Knowledge Bases

Una delle principali novità è l'introduzione di uno strumento di valutazione RAG integrato nelle Knowledge Bases di Bedrock. Queste basi di conoscenza sono comunemente utilizzate dalle aziende per sfruttare i propri dati proprietari al fine di fornire un contesto più ricco ai modelli linguistici di grandi dimensioni (LLM), ottenendo in tal modo risposte più precise e pertinenti. Con il nuovo aggiornamento, le aziende possono ora implementare l'intero flusso RAG di un'applicazione, dall'ingestione dei dati all'estrazione e all'aumento delle richieste, senza la necessità di costruire integrazioni personalizzate in base alle diverse fonti di dati o di gestire manualmente i flussi di dati.

AWS ha chiarito in un post sul blog che "è ora possibile eseguire una valutazione automatica della base di conoscenza per valutare e ottimizzare le applicazioni RAG utilizzando le Knowledge Bases". Il fornitore ha inoltre specificato che il processo di valutazione prevede l'impiego di un LLM per il calcolo delle metriche di valutazione. Secondo AWS, queste valutazioni RAG permettono di confrontare diverse configurazioni e di affinare i loro parametri al fine di ottenere i risultati desiderati per specifici casi d'uso. Per accedere a questa funzionalità, gli utenti possono navigare nella console Bedrock, selezionando "Evaluations" all'interno della sezione "Inference and Assessment". Questa capacità è attualmente disponibile in anteprima.

Connettori personalizzati per un'ingestione dati semplificata

AWS ha anche annunciato il supporto per connettori personalizzati e la possibilità di riclassificare i modelli all'interno delle Knowledge Bases. I connettori sono un elemento cruciale per facilitare l'ingestione di dati da una vasta gamma di fonti, inclusi flussi di dati continui, direttamente nelle basi di conoscenza di Bedrock. Questa innovazione apporta un notevole miglioramento all'efficienza e alla convenienza della gestione dei dati per le applicazioni IA.

"Gli sviluppatori possono ora ingerire, aggiornare o eliminare dati in modo efficiente e conveniente con un'unica chiamata API, senza dover effettuare una sincronizzazione completa con la fonte dati periodicamente o dopo ogni modifica", ha spiegato AWS. Prima dell'introduzione di questi connettori personalizzati, le aziende erano spesso costrette a spostare i loro dati verso una fonte supportata da AWS, come S3, un processo che poteva risultare più complesso e oneroso. Questi nuovi componenti sono già disponibili e accessibili tramite la console Bedrock e il kit di sviluppo software (SDK) di AWS, offrendo maggiore flessibilità e integrazione.

L'API Rerank per una maggiore precisione nelle applicazioni RAG

Un'altra significativa aggiunta di AWS è l'introduzione dell'API Rerank all'interno delle Knowledge Bases. Questo strumento fornisce agli sviluppatori la capacità di sfruttare modelli di riclassificazione dinamica, o reranking, per migliorare le prestazioni delle loro applicazioni basate su RAG. L'obiettivo principale è duplice: migliorare la pertinenza e la precisione delle risposte generate, e contemporaneamente contribuire a ridurre i costi operativi.

Secondo AWS, i modelli di riclassificazione dinamica accessibili tramite la nuova API possono aiutare gli sviluppatori a superare le limitazioni intrinseche della ricerca semantica, un componente fondamentale spesso presente nelle applicazioni RAG. Una di queste limitazioni è l'incapacità di dare priorità ai documenti più appropriati basati sulle preferenze dell'utente o sul contesto della query, specialmente quando la query è complessa, ambigua o implica un contesto sfumato. "Ciò può portare al recupero di documenti che sono solo parzialmente pertinenti alla domanda dell'utente", ha precisato l'azienda. Il recupero di documenti solo parzialmente pertinenti può a sua volta creare un'ulteriore sfida legata all'attribuzione corretta delle fonti, compromettendo l'affidabilità delle risposte.

Grazie all'API Rerank, le applicazioni possono filtrare e ordinare i risultati della ricerca iniziale, presentando all'LLM solo i documenti più rilevanti. A oggi, l'API supporta i modelli Amazon Rerank 1.0 e Cohere Rerank 3.5, offrendo agli sviluppatori una scelta di soluzioni per ottimizzare le loro pipeline RAG.

LLM-as-a-judge nell'evaluazione dei modelli Bedrock

Per affrontare la complessità della scelta del modello più adatto per un dato caso d'uso, il fornitore di cloud ha anche aggiunto la funzionalità "LLM-as-a-judge" al modulo di valutazione dei modelli di Bedrock. Questo strumento innovativo di valutazione può guidare le aziende nella selezione dell'LLM che meglio si allinea alle loro esigenze specifiche. La funzionalità LLM-as-a-judge, anch'essa attualmente disponibile in anteprima, conferirà agli sviluppatori la capacità di eseguire test e valutare altri modelli con una qualità paragonabile a quella umana, ma a un costo significativamente inferiore.

"Grazie a LLM-as-a-judge, le aziende possono passare più facilmente alla produzione, fornendo una valutazione rapida e automatizzata delle applicazioni alimentate dall'IA, accorciando i cicli di feedback e accelerando i miglioramenti", ha affermato AWS. Questo significa che i team possono iterare più velocemente, identificare e correggere i problemi in modo più efficiente, e portare innovazioni sul mercato con maggiore rapidità.

Le valutazioni offerte da LLM-as-a-judge coprono una molteplicità di aspetti qualitativi cruciali per le applicazioni IA. Questi includono, ma non si limitano a:

Accuratezza: Misura la correttezza delle risposte generate.
Utilità: Valuta quanto le risposte siano utili e pertinenti all'utente.
Criteri di IA responsabile: Include metriche come il rifiuto di risposta (capacità del modello di rifiutare di rispondere a domande inappropriate o al di fuori del suo ambito) e la nocività (prevenzione di contenuti dannosi o offensivi).

Questa capacità di valutazione automatizzata e basata su LLM rappresenta un passo avanti significativo nella democratizzazione dello sviluppo di IA responsabile e performante, permettendo alle aziende di implementare modelli più affidabili e etici.