Quando si sente la parola "sintetico", la si può associare a qualcosa di artificiale o fabbricato. Per esempio, le fibre sintetiche come il poliestere e il nylon sono prodotte attraverso processi chimici. Sebbene le fibre sintetiche siano più convenienti e più facili da produrre in massa, la loro qualità può rivaleggiare con quella delle fibre naturali. Sono spesso progettate per imitare le loro controparti naturali e sono destinate a usi specifici, che si tratti di elastam elasticizzato, acrilico che trattiene il calore o poliestere durevole.
Lo stesso vale per i dati sintetici. Queste informazioni generate artificialmente possono integrare o addirittura sostituire i dati del mondo reale durante l'addestramento o il test dei modelli di intelligenza artificiale (IA). Rispetto ai set di dati reali, che possono essere costosi da ottenere, difficili da accedere, lenti da etichettare e con una fornitura limitata, i set di dati sintetici possono essere sintetizzati tramite simulazioni al computer o modelli generativi. Questo li rende più economici da produrre su richiesta in volumi quasi illimitati e personalizzabili in base alle esigenze di un'organizzazione.
Nonostante i loro benefici, i dati sintetici comportano anche delle sfide. Il processo di generazione può essere complesso, poiché gli scienziati dei dati devono creare dati realistici mantenendo la qualità e la privacy. Tuttavia, i dati sintetici sono qui per restare. La società di ricerca Gartner prevede che entro il 2026, il 75% delle aziende utilizzerà l'IA generativa per creare dati sintetici dei clienti.
La rilevanza dei dati sintetici nell'era dell'IA
L'analogia con le fibre sintetiche è calzante: come queste ultime offrono soluzioni pratiche ed economiche pur mantenendo o superando la qualità delle controparti naturali per scopi specifici, così i dati sintetici stanno ridefinendo le modalità con cui le organizzazioni interagiscono con l'IA. La capacità di generare informazioni che mimano le caratteristiche dei dati reali, ma senza i vincoli di costo, accesso o privacy, apre nuove frontiere nello sviluppo e nel perfezionamento dei modelli intelligenti. La previsione di Gartner sottolinea un trend inequivocabile: l'adozione massiccia dell'IA generativa per la creazione di dati sintetici non è più una possibilità remota, ma una realtà imminente che trasformerà il panorama aziendale.
Questo cambiamento è spinto da esigenze concrete. In molti settori, l'accesso a grandi volumi di dati di alta qualità è limitato da normative sulla privacy, costi elevati di acquisizione o semplicemente dalla scarsità di eventi specifici (come nel caso delle frodi). I dati sintetici offrono una soluzione scalabile e controllabile, permettendo alle aziende di innovare più rapidamente e di implementare soluzioni IA robuste senza compromettere la conformità o la sicurezza. Tuttavia, per sfruttarne appieno il potenziale, è fondamentale seguire un approccio metodico e adottare le migliori pratiche.
Otto buone pratiche per la generazione di dati sintetici
Per aiutare le aziende a trarre il massimo vantaggio dai dati artificiali, ecco cinque delle otto buone pratiche fondamentali per la generazione di dati sintetici, dettagliate per garantirne l'efficacia e la sicurezza.
1. Comprendere gli scopi e i casi d'uso aziendali
È cruciale comprendere perché la propria azienda necessita di dati sintetici e in quali casi d'uso potrebbero essere più utili rispetto ai dati reali. Questa chiarezza iniziale guida l'intero processo di generazione. Nel settore sanitario, ad esempio, le cartelle cliniche dei pazienti o le immagini mediche possono essere generate artificialmente, senza contenere dati sensibili o informazioni di identificazione personale (PII). Ciò consente anche una condivisione sicura dei dati tra ricercatori e team di data science, facilitando la collaborazione e l'innovazione senza violare la privacy dei pazienti.
I dati sintetici possono essere utilizzati come dati di prova durante lo sviluppo del software, in sostituzione di dati di produzione sensibili, emulandone però le caratteristiche. Ciò consente inoltre alle aziende di evitare problemi di copyright e proprietà intellettuale, generando dati anziché utilizzare web scraper per estrarre e raccogliere informazioni dai siti web senza la conoscenza o il consenso degli utenti. Inoltre, i dati artificiali possono fungere da forma di aumento dei dati. Possono essere utilizzati per aumentare la diversità dei dati, specialmente per i gruppi sottorappresentati nell'addestramento dei modelli di IA. E quando le informazioni sono scarse, i dati sintetici possono colmare le lacune.
Un esempio eloquente è quello di JP Morgan, un'azienda di servizi finanziari, che ha riscontrato difficoltà nell'addestrare modelli di IA per il rilevamento delle frodi a causa della mancanza di casi fraudolenti rispetto a quelli non fraudolenti. L'organizzazione ha utilizzato la generazione di dati sintetici per creare più esempi di transazioni fraudolente, migliorando così significativamente l'addestramento del modello.
2. Garantire la qualità dei dati originali
La qualità dei dati sintetici è tanto buona quanto i dati del mondo reale che la supportano. Quando si preparano set di dati originali per la generazione di dati sintetici tramite algoritmi di machine learning (ML), assicurarsi di controllare e correggere eventuali errori, imprecisioni e incoerenze. Eliminare i duplicati e introdurre i valori mancanti è un passaggio fondamentale per garantire l'integrità del set di dati di partenza.
Considerare la possibilità di aggiungere casi estremi o valori anomali ai dati originali. Questi punti dati possono rappresentare eventi rari, scenari poco frequenti o casi estremi che riflettono l'imprevedibilità e la variabilità del mondo reale. Includere queste eccezioni aiuta a rendere i dati sintetici più robusti e realistici, preparandoli a gestire un'ampia gamma di situazioni che i modelli IA potrebbero incontrare nel mondo reale.
"Tutto si riduce agli esempi seme", afferma Akash Srivastava, architetto capo di InstructLab, un progetto open source di IBM e Red Hat che impiega un approccio collaborativo per aggiungere nuove conoscenze e competenze a un modello, alimentato dal nuovo metodo di generazione di dati sintetici di IBM e dal protocollo di formazione a fasi. "Gli esempi attraverso i quali viene seminata la generazione devono imitare il caso d'uso del mondo reale." Questo sottolinea l'importanza di una base di dati originali solida e rappresentativa.
3. Mitigare i bias intrinseci
I dati sintetici sono comunque soggetti a ereditare e riflettere i bias che potrebbero essere presenti nei dati originali su cui si basano. Questi bias possono portare a modelli IA iniqui o discriminatori. Combinare informazioni provenienti da più fonti, inclusi diversi gruppi demografici e regioni, può aiutare a mitigare il bias nei dati generati, promuovendo l'equità e l'inclusività.
Le diverse fonti di dati possono anche migliorare la qualità dei set di dati sintetici. Varie fonti possono offrire dettagli essenziali o un contesto vitale di cui una singola fonte o solo una manciata di fonti sono carenti. Inoltre, l'incorporazione della generazione aumentata dal recupero (Retrieval-Augmented Generation, RAG) nel processo di generazione di dati sintetici può fornire accesso a dati aggiornati e specifici del dominio, il che può aumentare la precisione e migliorare ulteriormente la qualità. Questo approccio ibrido combina la potenza dei modelli generativi con la precisione dei dati recuperati, garantendo che i dati sintetici non solo siano abbondanti, ma anche pertinenti e accurati.
4. Selezionare la tecnica di generazione appropriata
La selezione della tecnica adeguata di generazione di dati sintetici dipende da alcuni fattori, come il tipo di dati e la loro complessità. I dati relativamente semplici potrebbero beneficiare di metodi statistici, che sono meno intensivi computazionalmente e più diretti. I set di dati più intricati, come i dati strutturati (ad esempio, dati tabulari) o i dati non strutturati (come immagini o video), potrebbero richiedere modelli di deep learning, che sono in grado di catturare pattern complessi e relazioni non lineari. Le aziende possono anche optare per combinare tecniche di sintesi in funzione delle loro esigenze specifiche, sfruttando i punti di forza di ciascun approccio.
Meccanismi comuni per la generazione di dati sintetici:
- Metodi statistici: Gli scienziati dei dati possono analizzare le distribuzioni statistiche nei dati reali e generare campioni sintetici che riflettono tali distribuzioni. Questo approccio è efficace per dati con distribuzioni ben definite, ma richiede una conoscenza e un'esperienza significative, e non tutti i dati rientrano in una distribuzione nota. La sua applicazione è limitata a scenari dove le relazioni tra le variabili sono relativamente semplici e possono essere modellate matematicamente.
- Reti Generative Avversarie (GAN): Le GAN sono composte da due reti neurali: un generatore che crea dati sintetici e un discriminatore che agisce come avversario, distinguendo tra dati artificiali e reali. Entrambe le reti vengono addestrate in modo iterativo, con il feedback del discriminatore che migliora l'output del generatore fino a quando il discriminatore non è più in grado di distinguere i dati artificiali da quelli reali. Le GAN sono particolarmente potenti e possono essere utilizzate per generare immagini sintetiche per la visione artificiale e le attività di classificazione delle immagini, producendo risultati incredibilmente realistici.
- Autoencoder Variazionali (VAE): I VAE sono modelli di deep learning che generano variazioni dei dati con cui vengono addestrati. Un codificatore comprime i dati di input in uno spazio di minore dimensione, catturando l'informazione significativa contenuta nell'input. Successivamente, un decodificatore ricostruisce nuovi dati a partire da questa rappresentazione compressa. Similmente alle GAN, i VAE possono essere utilizzati per generare immagini, ma sono spesso preferiti quando si desidera un controllo maggiore sulla varietà e sulla diversità dei dati generati, o quando l'obiettivo è la riduzione della dimensionalità e la rappresentazione latente dei dati.
- Modelli Transformer (come i GPT): I modelli Transformer, come i trasformatori generativi pre-addestrati (GPT), eccellono nel comprendere la struttura e i pattern del linguaggio. Possono essere utilizzati per generare dati di testo sintetico per applicazioni di elaborazione del linguaggio naturale o per creare dati tabulari artificiali per attività di classificazione o regressione. La loro capacità di catturare dipendenze a lungo raggio e relazioni contestuali li rende strumenti estremamente versatili per la generazione di dati sequenziali e testuali.
5. Prevenire il "model collapse"
È importante tenere conto del collasso del modello, un fenomeno in cui le prestazioni di un modello diminuiscono man mano che viene addestrato ripetutamente con dati generati dall'IA. Questo accade perché il modello inizia a generare dati che sono sempre più simili tra loro, riducendo la diversità del set di dati di addestramento e portando a una perdita di capacità di generalizzazione. Per questo è essenziale fondare il processo di generazione di dati sintetici su dati reali, utilizzando questi ultimi come ancora per mantenere la qualità e la diversità.
In InstructLab, ad esempio, la generazione di dati sintetici è guidata da una tassonomia, che definisce il dominio o gli argomenti da cui provengono i dati originali. Questo approccio strutturato evita che il modello decida autonomamente i dati con cui deve addestrarsi, impedendo così la deriva e il collasso, e assicurando che i dati sintetici rimangano fedeli al loro scopo e alla loro base di conoscenze. Integrare una supervisione umana o basata su regole è fondamentale per mantenere i dati sintetici allineati con gli obiettivi di business e la realtà.
L'adozione di queste pratiche consente alle aziende non solo di sfruttare i benefici dei dati sintetici, ma anche di mitigare i rischi associati, garantendo che l'innovazione guidata dall'IA sia sostenibile, etica e di successo.