Di Jay Rao, architetto di soluzioni principale presso AWS, e Babu Kariyaden Parambath, specialista senior di IA/ML presso AWS.
Le organizzazioni si trovano di fronte a diverse sfide quando cercano di applicare l'intelligenza artificiale (IA) generativa, alimentata dai modelli fondazionali (Foundational Models - FMs), per generare valore di business. Questo articolo presenta una panoramica dei principali approcci nell'IA generativa, inclusi la prompt engineering, la generazione aumentata da recupero (Retrieval Augmented Generation - RAG) e la personalizzazione dei modelli, offrendo così diversi approcci che si possono considerare nella costruzione di applicazioni che utilizzano l'IA generativa.
Nell'applicare questi approcci, discutiamo considerazioni relative alle allucinazioni, all'integrazione con i dati aziendali, alla qualità degli output e ai costi. Alla fine, troverete un diagramma di flusso per aiutarvi a determinare il metodo migliore per sviluppare le vostre applicazioni basate su FM.
IA Generativa con AWS
L'adozione degli FM implica sfide significative per le organizzazioni che cercano di utilizzare questa tecnologia. Tra le più importanti, si distinguono le seguenti:
- Un sfida chiave è assicurare risultati coerenti e di alta qualità che si allineino con le esigenze aziendali, evitando le allucinazioni o informazioni false.
- Gestire attentamente i rischi di privacy e sicurezza dei dati che sorgono nel processo di elaborazione dei dati proprietari con gli FM.
- Disporre delle capacità necessarie per integrare, personalizzare e validare adeguatamente gli FM all'interno dei sistemi esistenti e con dati scarsi. Costruire grandi modelli linguistici (LLM) da zero o personalizzare modelli pre-addestrati richiede risorse tecnologiche significative, tempo, investimenti ed esperti per affrontare la complessità di tali processi.
Amazon Bedrock è un servizio completamente gestito che offre una selezione di modelli fondazionali (FMs) ad alte prestazioni di aziende leader nell'IA attraverso un'unica API. Con l'esperienza serverless di Amazon Bedrock, è possibile iniziare rapidamente, personalizzare privatamente gli FM con i propri dati e integrarli e distribuirli nelle proprie applicazioni utilizzando gli strumenti AWS senza dover gestire l'infrastruttura.
Amazon Bedrock soddisfa i requisiti per HIPAA e può essere utilizzato in conformità con il GDPR. Con Amazon Bedrock, il vostro contenuto non viene utilizzato per migliorare i modelli di base e non viene condiviso con terze parti, fornitori dei modelli. I vostri dati in Amazon Bedrock sono sempre crittografati in transito e a riposo e, facoltativamente, potete crittografare le vostre risorse utilizzando le vostre chiavi di crittografia. E utilizzando AWS PrivateLink con Amazon Bedrock, potete stabilire una connessione privata tra i vostri FM e la vostra VPC senza esporre il vostro traffico dati su internet.
Con le Basi di Conoscenza (Knowledge Bases) per Amazon Bedrock, è possibile fornire agli FM e agli agenti informazioni contestuali provenienti dalle fonti di dati private della vostra azienda, per fornire risposte più pertinenti, precise e personalizzate.
Lanciato nel 2017, Amazon SageMaker è un servizio completamente gestito che facilita la costruzione, l'addestramento e la distribuzione di modelli di ML. Sempre più spesso, i clienti stanno costruendo i propri FM utilizzando SageMaker e per aiutarvi a iniziare rapidamente, Amazon SageMaker JumpStart offre un hub di servizi di ML dove è possibile esplorare, addestrare e distribuire un'ampia selezione di FM pubblici, utilizzando strumenti specifici di SageMaker come esperimenti e pipeline.
Selezionando l'approccio corretto per sviluppare applicazioni di IA generativa
Quando si sviluppano applicazioni di IA generativa e prima di selezionare il modello adeguato, le organizzazioni devono considerare attentamente diversi fattori chiave, tra cui:
- Integrazione con sistemi aziendali – Affinché gli FM siano veramente utili in un contesto aziendale, devono interagire con i sistemi e i flussi di lavoro aziendali esistenti per utilizzare i dati aziendali e garantire una maggiore accuratezza e un'unica fonte di verità.
- Riduzione delle allucinazioni o informazioni false – Le allucinazioni si verificano quando un'applicazione di IA genera informazioni false che sembrano veritiere. Prevenire allucinazioni dannose mediante soluzioni tecniche e la curatela dei set di dati sarà fondamentale per garantire che gli FM possano essere affidabili in applicazioni critiche come la sanità, la finanza e l'ambito legale.
- Qualità negli output – La qualità dell'output generato dagli FM sarà fondamentale per determinarne l'adozione e l'uso, specialmente in applicazioni rivolte ai consumatori come i chatbot. La qualità dell'output comprende fattori come la rilevanza, l'accuratezza, la coerenza e la pertinenza, i quali contribuiscono alla soddisfazione generale dell'utente e a determinare il successo o il fallimento dell'adozione degli FM.
- Costo – L'elevata capacità computazionale richiesta per addestrare ed eseguire grandi modelli di IA come gli FM può generare costi significativi. È necessario per le organizzazioni che il modello selezionato si adatti ai vincoli di budget e soddisfi i benefici prefissati.
- Competenze e risorse – L'adozione di successo degli FM dipenderà in gran parte dal disporre delle competenze e delle risorse adeguate per utilizzare la tecnologia in modo efficace. Le organizzazioni necessitano di dipendenti con solide competenze tecniche e risorse computazionali, come hardware avanzato e capacità di calcolo cloud, per eseguire FM complessi.
Approcci comuni di IA Generativa
In questa sezione, discuteremo gli approcci comuni che vi aiuteranno a costruire soluzioni efficaci di IA generativa. Sebbene non sia possibile riprodurre il diagramma qui (Figura 1: Approcci per applicazioni di IA Generativa), l'analisi comparativa tra i vari approcci considera fattori come complessità, qualità dell'output, tempo di implementazione e costo, offrendo una guida nella comprensione di ciascuno.
Prompt engineering
La prompt engineering è la pratica di progettare attentamente le richieste (prompt) per sfruttare in modo efficiente le capacità degli FM. Ciò implica l'uso di prompt, che sono brevi frammenti di testo che guidano il modello a generare risposte più accurate e pertinenti. Con la prompt engineering, è possibile migliorare le prestazioni degli FM e renderli più efficienti per una varietà di applicazioni senza richiedere il ri-addestramento del modello.
Richieste con zero esempi (Zero-shot prompting)
La tecnica delle richieste con zero esempi richiede che gli FM generino una risposta senza fornire esempi espliciti del comportamento desiderato, basandosi unicamente sul loro pre-addestramento. Sebbene non sia possibile mostrare l'immagine specifica (Figura 2: Esempio di prompt engineering con zero esempi usando il modello Anthropic Claude 3 Sonnet), l'esempio tipico utilizza un modello come Anthropic Claude 3 Sonnet nella console di Amazon Bedrock. In queste istruzioni, non vengono forniti esempi. Tuttavia, il modello può comprendere il compito e generare un output adeguato. Le richieste con zero esempi sono la tecnica di prompting più semplice da cui iniziare quando si valuta un FM per il proprio caso d'uso. Tuttavia, anche se gli FM sono notevoli con le richieste con zero esempi, potrebbero non sempre produrre risultati precisi o desiderati per compiti più complessi. Quando le richieste con zero esempi si rivelano insufficienti, si raccomanda di fornire alcuni esempi nella richiesta (richieste con pochi esempi).
Richieste con pochi esempi (Few-shot prompting)
La tecnica delle richieste con pochi esempi consente agli FM di apprendere in contesto dagli esempi forniti nelle richieste e di eseguire il compito con maggiore efficacia.