Cos'è l'intelligenza artificiale (IA) - IBM

Di Cole Stryker e Eda Kavlakoglu

Cos'è l'IA?

L'intelligenza artificiale (IA) è una tecnologia rivoluzionaria che consente a computer e macchine di simulare capacità umane fondamentali quali l'apprendimento, la comprensione, la risoluzione dei problemi, il processo decisionale, la creatività e l'autonomia. Le applicazioni e i dispositivi dotati di intelligenza artificiale sono in grado di vedere e identificare oggetti, di comprendere e rispondere al linguaggio umano, di apprendere da nuove informazioni ed esperienze, e di formulare raccomandazioni dettagliate a utenti ed esperti. Possono agire in modo indipendente, arrivando a sostituire l'intelligenza o l'intervento umano, come nel classico esempio delle vetture autonome.

Tuttavia, nel 2024, la maggior parte dei ricercatori e professionisti dell'IA, così come le notizie relative a questo campo, si concentra sui progressi dell'IA generativa, una tecnologia capace di creare testo, immagini, video e altri contenuti originali. Per comprendere appieno l'IA generativa, è cruciale partire dalle tecnologie su cui sono costruiti i suoi strumenti: il machine learning (ML) e l'apprendimento profondo.

Machine learning

Per semplificare, l'IA può essere vista come una serie di concetti interconnessi o derivati, emersi nell'arco di oltre 70 anni. Il machine learning è un ramo diretto dell'IA che si occupa di creare modelli addestrando un algoritmo a generare previsioni o a prendere decisioni basate sui dati. Comprende una vasta gamma di tecniche che permettono ai computer di imparare e fare inferenze basate sui dati senza essere esplicitamente programmati per compiti specifici. La sua essenza risiede nella capacità di un sistema di migliorare le proprie prestazioni nel tempo, man mano che gli viene fornita una maggiore quantità di dati.

Esistono numerose tecniche o algoritmi di machine learning, ognuna adatta a diversi tipi di problemi e di dati. Tra le più note troviamo:

la regressione lineare, utilizzata per modellare la relazione tra una variabile dipendente e una o più variabili indipendenti;
la regressione logistica, impiegata per problemi di classificazione binaria;
i decision trees (alberi decisionali), che prendono decisioni tramite un albero di ramificazioni;
le foreste aleatorie, che combinano più alberi decisionali per migliorare l'accuratezza;
le macchine a vettori di supporto (SVM), potenti per problemi di classificazione e regressione trovando l'iperpiano che separa le classi;
i k più vicini vicini (KNN), un algoritmo non parametrico per classificazione e regressione basato sulla vicinanza dei punti dati;
il clustering, che raggruppa dati simili senza etichette predefinite;
e altre metodologie avanzate.

Tra le tecniche di machine learning più utilizzate, una delle più note è la rete neurale. Le reti neurali si ispirano alla struttura e al funzionamento del cervello umano. Sono costituite da strati di nodi interconnessi (analoghi ai neuroni) che lavorano insieme per elaborare e analizzare dati complessi. Le reti neurali sono particolarmente adatte a compiti che implicano l'identificazione di schemi e relazioni complesse in grandi quantità di dati, come il riconoscimento di immagini o il processamento del linguaggio naturale.

La forma più semplice di machine learning è l'apprendimento supervisionato. Questo approccio si basa sull'utilizzo di set di dati etichettati per addestrare algoritmi a classificare i dati o a prevedere i risultati con precisione. Nell'apprendimento supervisionato, gli esseri umani associano a ogni esempio di addestramento un'etichetta di output. L'obiettivo del modello è imparare la mappatura tra gli input e gli output dei dati di addestramento, in modo da poter prevedere le etichette di nuovi dati mai visti prima. Questo è il fondamento di molte applicazioni pratiche, dalla previsione dei prezzi delle case alla diagnosi medica.

Deep Learning

Il deep learning è una sottocategoria del machine learning che si distingue per l'utilizzo di reti neurali multistrato, definite reti neurali profonde. Queste reti simulano in modo più fedele il complesso potere decisionale del cervello umano, grazie alla loro architettura stratificata. A differenza delle reti neurali utilizzate nei modelli classici di machine learning, che di solito presentano solo uno o due strati nascosti, le reti neurali profonde comprendono uno strato di input, almeno tre (ma di solito centinaia) di strati nascosti e uno strato di output. Questa profondità permette una maggiore capacità di astrazione e di apprendimento da dati complessi.

Questi molteplici strati consentono l'apprendimento non supervisionato: possono automatizzare l'estrazione di caratteristiche da vasti set di dati non etichettati e non strutturati, e formulare le proprie previsioni a partire dalle rappresentazioni di questi dati. Poiché l'apprendimento profondo non richiede un intervento umano costante per l'etichettatura dei dati, permette di implementare il machine learning su larga scala. È particolarmente adatto al trattamento automatico del linguaggio naturale (NLP), alla visione artificiale e ad altri compiti che implicano l'identificazione rapida e precisa di schemi e relazioni complesse in grandi quantità di dati. La maggior parte delle applicazioni di IA che utilizziamo quotidianamente, dai sistemi di riconoscimento vocale agli assistenti virtuali, sono alimentate da una qualche forma di apprendimento profondo.

In una rete neurale profonda, più strati di nodi possono estrarre significato e relazioni da grandi volumi di dati non strutturati e non etichettati. Questa capacità di auto-apprendimento è ciò che rende il deep learning così potente e flessibile. Il deep learning consente inoltre diverse altre modalità di apprendimento:

L'apprendimento semi-supervisionato, che combina l'apprendimento supervisionato e non supervisionato utilizzando sia dati etichettati che non etichettati per addestrare modelli di IA a compiti di classificazione e regressione. È utile quando l'etichettatura di tutti i dati è costosa o impossibile.
L'apprendimento autosupervisionato, che genera etichette implicite da dati non strutturati, piuttosto che fare affidamento su set di dati etichettati per i segnali di supervisione. Questa tecnica sta guadagnando terreno per la sua capacità di sfruttare grandi quantità di dati non etichettati.
L'apprendimento per rinforzo, che apprende per tentativi ed errori e ricompense, anziché estraendo informazioni da modelli nascosti. Questo approccio è spesso utilizzato per addestrare agenti in ambienti dinamici, come nei videogiochi o nella robotica.
L'apprendimento per trasferimento, in cui le conoscenze acquisite nell'ambito di un compito o di un set di dati vengono utilizzate per migliorare le prestazioni del modello in un'altra attività correlata o in un diverso set di dati. Questo accelera l'addestramento e riduce la necessità di enormi set di dati etichettati per ogni nuovo compito.

IA generativa

L'IA generativa, o "Gen AI", si riferisce a modelli di apprendimento profondo capaci di creare contenuti originali e complessi – come testo lungo, immagini realistiche e di alta qualità, video o audio – in risposta a prompt o richieste di un utente. In generale, i modelli generativi codificano una rappresentazione semplificata dei loro dati di addestramento, per poi basarsi su questa rappresentazione per produrre un risultato simile, ma non identico, al modello iniziale. Questa capacità di "creare" distingue l'IA generativa dalle forme tradizionali di IA che si concentrano più sull'analisi o sulla classificazione di dati esistenti.

I modelli generativi sono stati utilizzati per anni in statistica per analizzare dati numerici. Successivamente, si sono evoluti nell'ultimo decennio in modo da poter analizzare e generare tipi di dati più complessi. Questa evoluzione ha coinciso con l'emergere di tre tipi di modelli di deep learning sofisticati, che hanno rivoluzionato il campo:

Gli autoencoder variazionali (VAE), introdotti nel 2013, che hanno permesso di creare modelli capaci di generare molteplici varianti di contenuto in risposta a un prompt o a un'istruzione. Essi apprendono una distribuzione probabilistica dei dati di input, permettendo la generazione di nuovi campioni.
I modelli di diffusione, apparsi per la prima volta nel 2014, che aggiungono "rumore" alle immagini fino a renderle irriconoscibili, per poi rimuovere il rumore in modo iterativo per generare immagini originali in risposta alle istruzioni. Questa tecnica è alla base di molti generatori di immagini all'avanguardia.
I trasformatori (chiamati anche modelli di trasformazione), che sono addestrati su dati sequenziati per generare sequenze estese di contenuto, come parole in frasi, forme in un'immagine, immagini di un video o comandi in codice software. I trasformatori sono al centro della maggior parte degli strumenti di IA generativa che fanno notizia oggi, tra cui ChatGPT e GPT-4, Copilot, BERT, Bard e Midjourney. La loro architettura, basata su meccanismi di attenzione, permette di gestire dipendenze a lungo raggio nei dati sequenziali in modo estremamente efficiente.

AI Academy: diventa un esperto in IA

Per coloro che desiderano approfondire ulteriormente queste tematiche e guidare l'innovazione, è fondamentale acquisire le conoscenze necessarie per privilegiare gli investimenti nell'IA che promuovono la crescita aziendale. Puoi iniziare oggi stesso con l'AI Academy gratuita e farti promotore del futuro dell'IA all'interno della tua organizzazione. Guardare la serie di contenuti formativi offerti può fornire una base solida per affrontare le sfide e le opportunità presentate da queste tecnologie emergenti.

Funzionamento dell'IA generativa

In generale, l'IA generativa opera secondo tre fasi principali che ne scandiscono lo sviluppo e l'applicazione:

La fase di addestramento per creare un modello di fondazione. Questa fase comporta l'alimentazione di un'enorme quantità di dati al modello, permettendogli di apprendere schemi, strutture e relazioni complesse intrinseche ai dati. Il modello di fondazione risultante è altamente versatile e capace di svolgere una vasta gamma di compiti.
La fase di regolazione per adattare il modello a un'applicazione specifica. Durante questa fase, il modello di fondazione viene addestrato ulteriormente su un set di dati più piccolo e più specifico per un determinato compito o dominio. Questo affina le sue capacità e lo rende più efficace per l'uso desiderato, che sia generare codice, scrivere e-mail o creare immagini artistiche.
La fase di generazione, valutazione e nuovo regolazione per amélio. Questa fase è iterativa e comprende l'utilizzo del modello per generare contenuti, valutare la qualità e la pertinenza di tali contenuti e apportare ulteriori modifiche o regolazioni al modello per migliorarne continuamente le prestazioni e l'accuratezza.