Autori Cole Stryker Staff Editor, AI Models IBM Think Mark Scapicchio Editor, Topics & Insights IBM Think Cos'è l'intelligenza artificiale generativa? L’intelligenza artificiale generativa, talvolta chiamata genAI, è un tipo di intelligenza artificiale (AI) in grado di creare contenuti originali, come testi, immagini, video, audio o codice software, in risposta al prompt o alla richiesta di un utente. L’AI generativa si affida a sofisticati modelli di machine learning chiamati algoritmi di modelli di deep learning che simulano i processi di apprendimento e decisionali del cervello umano. Questi modelli funzionano identificando e codificando modelli e relazioni in enormi quantità di dati, quindi utilizzando tali informazioni per comprendere le richieste o le domande in linguaggio naturale degli utenti e rispondere con nuovi contenuti pertinenti. L’intelligenza artificiale (AI) è stata un tema tecnologico scottante negli ultimi dieci anni, ma l’AI generativa, e in particolare l’avvento di ChatGPT nel 2022, ha portato l’AI sui titoli di giornale di tutto il mondo e ha lanciato un’ondata di innovazione e adozione dell’AI senza precedenti. L’AI generativa offre enormi vantaggi in termini di produttività a individui e organizzazioni e, sebbene presenti anche sfide e rischi molto reali, le aziende continuano a esplorare i modi in cui la tecnologia può migliorare i workflow interni e arricchire i loro prodotti e servizi. Secondo una ricerca della società di consulenza aziendale McKinsey, un terzo delle organizzazioni utilizza già regolarmente l’AI generativa in almeno una funzione aziendale.¹ L’analista di settore Gartner prevede che entro il 2026 oltre l’80% delle organizzazioni avrò implementato applicazioni di AI generativa o utilizzato interfacce di programmazione delle applicazioni (API) di AI generativa. 2 Come funziona l'AI generativa Per la maggior parte, l'AI generativa opera in tre fasi: Formazione , per creare un foundation model che possa servire come base per più applicazioni di AI di nuova generazione. Ottimizzazione , per adattare il foundation model a una specifica applicazione AI di nuova generazione. Generazione , valutazione e riottimizzazione , per valutare i risultati dell'applicazione della GenAI e migliorarne continuamente qualità e accuratezza. Formazione L’intelligenza artificiale generativa parte da un foundation model, un modello di deep learning che funge da base per diversi tipi di applicazioni di AI generativa. Oggi i foundation model più comuni sono i modelli linguistici di grandi dimensioni (LMM) , creati per applicazioni di generazione di testo, ma esistono anche foundation model per la generazione di immagini, video, audio e musica, nonché foundation model multimodali in grado di supportare diversi tipi di contenuti. Per creare un foundation model, i professionisti addestrano un algoritmo di deep learning su enormi volumi di dati grezzi, non strutturati e non etichettati, come ad esempio terabyte di dati raccolti da Internet o da qualche altra enorme fonte di dati. Durante l’addestramento, l’algoritmo esegue e valuta milioni di esercizi di “riempimento degli spazi vuoti”, cercando di prevedere l’elemento successivo in una sequenza, ad esempio la parola successiva in una frase, l’elemento successivo in un’immagine, il comando successivo in una riga di codice, e regolandosi continuamente per ridurre al minimo la differenza tra le previsioni e i dati reali (o il risultato “corretto”). Il risultato di questo addestramento è una rete neurale di parametri, ovvero rappresentazioni codificate di entità, modelli e relazioni nei dati, in grado di generare contenuti in modo autonomo in risposta agli input o ai prompt. Questo processo di addestramento è ad alta intensità di calcolo, dispendioso in termini di tempo e molto costoso: richiede infatti migliaia di unità di elaborazione grafica (GPU) in cluster e settimane di elaborazione, il che costa milioni di dollari. I progetti di foundation model open source, come Llama-2 di Meta, consentono agli sviluppatori di GenAI di saltare questo passaggio e i relativi costi. Ottimizzazione Metaforicamente parlando, un foundation model è generalista: sa molte cose su molti tipi di contenuti, ma spesso non è in grado di generare tipi specifici di output con la precisione o la fedeltà desiderate. Per questo, il modello deve essere ottimizzato secondo un'attività di generazione di contenuti specifica. Questo può essere fatto in vari modi. Messa a punto La messa a punto consiste nell'alimentare il modello con dati etichettati specifici per le domande o i prompt che l'applicazione di generazione di contenuti potrebbe ricevere e le corrispondenti risposte corrette nel formato desiderato. Ad esempio, se un team di sviluppo sta tentando di creare un customer service chatbot, creerà centinaia o migliaia di documenti contenenti domande etichettate sul servizio clienti e le risposte corrette, quindi invierà tali documenti al modello. La messa a punto richiede molto lavoro. Gli sviluppatori spesso esternalizzano questa attività ad aziende con una grande forza lavoro per l'etichettatura dei dati. Apprendimento per rinforzo con feedback umano (RLHF) Nell' RLHF (Reinforcement Learning from Human Feedback), gli utenti umani rispondono ai contenuti generati con valutazioni che il modello può utilizzare per aggiornarsi e raggiungere una maggiore precisione o pertinenza. Spesso, l'RLHF coinvolge persone che assegnano risultati diversi in risposta allo stesso prompt, tuttavia può essere sufficiente chiedere alle persone di digitare o parlare con un chatbot o un assistente virtuale, correggendone l'output. Generazione, valutazione, ulteriore messa a punto Gli sviluppatori e gli utenti valutano continuamente i risultati delle loro app di AI generativa e ottimizzano ulteriormente il modello, anche una volta alla settimana, per una maggiore precisione o pertinenza (il foundation model, invece, viene aggiornato molto meno frequentemente, forse ogni anno o 18 mesi). Un'altra opzione per migliorare le prestazioni di un'applicazione di AI è la retrieval-augmented generation (RAG ). La RAG è un framework che estende il foundation model affinché utilizzi fonti rilevanti al di fuori dei dati di addestramento, integrando e perfezionando i parametri o le rappresentazioni nel modello originale. La RAG garantisce che un'app di AI generativa abbia sempre accesso alle informazioni più aggiornate. Inoltre, le fonti aggiuntive a cui si accede tramite RAG sono trasparenti per gli utenti, a differenza delle conoscenze del foundation model originale. Architetture di modelli di AI generativa e relativa evoluzione Negli ultimi dodici anni si sono evoluti modelli di AI veramente generativi, ovvero modelli di deep learning in grado di creare autonomamente contenuti su richiesta. Le architetture dei modelli cardine durante questo periodo includono: Autoencoder variazionali (VAE) , che hanno portato a scoperte rivoluzionarie nel riconoscimento delle immagini, nell'elaborazione del linguaggio naturale e nel rilevamento delle anomalie. Reti generative avversarie (GAN) e modelli di diffusione , che hanno migliorato l'accuratezza delle applicazioni precedenti e hanno reso possibili alcune delle prime soluzioni di AI per la generazione di immagini foto realistiche. Transformer , l'architettura dei modelli di deep learning alla base dei principali foundation model e delle soluzioni di AI generativa di oggi. Autoencoder variazionali (VAE) Un autoencoder è un modello di deep learning composto da due reti neurali connesse: una che codifica (o comprime) in parametri un'enorme quantità di dati di addestramento non strutturati e non e un'altra che decodifica tali parametri per ricostruire il contenuto. Tecnicamente, gli autoencoder possono generare nuovi contenuti, tuttavia sono più utili per comprimere i dati per lo storage o il trasferimento, e poi decomprimerli per l'uso, che per generare contenuti di alta qualità. Introdotti nel 2013, gli autoencoder variazionali (VAE) possono codificare i dati come un autoencoder, ma decodificare più nuove varianti del contenuto. Addestrando un VAE a generare variazioni verso un particolare obiettivo, questo può concentrarsi su contenuti più accurati e ad alta fedeltà nel tempo. Le prime applicazioni dei VAE includevano il rilevamento delle anomalie (ad esempio, l'analisi delle immagini mediche) e la generazione del linguaggio naturale. Reti generative avversarie (GAN) Anche le GAN, introdotte nel 2014, comprendono due reti neurali: un generatore, che genera nuovi contenuti e un discriminatore, che valuta l'accuratezza e la qualità dei dati generati. Questi algoritmi antagonisti spingono il modello a generare output di qualità sempre più elevata. Le GAN sono comunemente utilizzate per la generazione di immagini e video, ma possono generare contenuti realistici e di alta qualità in vari domini. Si sono dimostrate particolarmente efficaci in attività come il trasferimento dello stile (alterazione dello stile di un'immagine, ad esempio, da una foto a uno schizzo a matita) e l' aumento dei dati (creazione di nuovi dati sintetici per aumentare le dimensioni e la diversità di un set di dati di formazione). Modelli di diffusione Introdotti anch'essi nel 2014, i modelli di diffusione funzionano aggiungendo prima rumore ai dati di addestramento fino a renderli casuali e irriconoscibili, quindi addestrando l'algoritmo a disperdere iterativamente il rumore per rivelare l'output desiderato. I modelli di diffusione richiedono più tempo per l'addestramento rispetto ai VAE o alle GAN, ma offrono un controllo più preciso sull'output, in particolare per gli strumenti di generazione di immagini di alta qualità. DALL-E, lo strumento di generazione di immagini di Open AI, è guidato da un modello di diffusione. Transformer Documentati per la prima volta in un articolo del 2017 pubblicato da Ashish Vaswani e altri, i transformer evolvono il paradigma encoder-decoder per consentire un grande passo a