La creazione di una soluzione avanzata di intelligenza artificiale aziendale tramite grandi modelli linguistici (LLM) è stata finora sinonimo di costi proibitivi e risorse considerevoli, spesso nell'ordine di decine o centinaia di milioni di dollari. In Snowflake, il nostro team di ricerca sull'IA ha lavorato attivamente per anni per risolvere gli ostacoli che impediscono l'efficacia degli LLM in termini di addestramento e inferenza. I membri di questo team, portatori di innovazioni sotto molti aspetti, hanno sviluppato sistemi come ZeRO e DeepSpeed, PagedAttention/vLLM e LLM360, riducendo drasticamente il costo dell'addestramento e dell'inferenza degli LLM. Li hanno anche resi disponibili come open source per rendere gli LLM più accessibili ed economici per tutti.

Oggi, il team di ricerca sull'IA di Snowflake è lieto di presentare Snowflake Arctic, un LLM d'eccellenza dedicato alle aziende, che spinge i limiti dell'addestramento economico e dell'accessibilità. Arctic è un modello di efficienza, intelligente, performante e veramente aperto.

Disponibilità Immediata di Snowflake Arctic

Snowflake Arctic è disponibile da subito su Hugging Face, il catalogo API NVIDIA e Replicate. Nei prossimi giorni sarà inoltre accessibile tramite il Model Garden o il catalogo di vostra scelta, inclusi Snowflake Cortex, Amazon Web Services (AWS), Microsoft Azure, Lamini, Perplexity e Together. Questa ampia disponibilità garantisce che le aziende e gli sviluppatori possano iniziare rapidamente a esplorare e integrare le capacità di Arctic nelle loro applicazioni.

L'Intelligenza Aziendale: Rispondere alle Esigenze dei Clienti

In Snowflake, osserviamo una tendenza ricorrente tra i nostri clienti riguardo alle loro esigenze e ai casi d'uso in materia di IA. Queste aziende desiderano utilizzare gli LLM per costruire assistenti di dati SQL conversazionali o di codifica, oltre a chatbot RAG (Retrieval Augmented Generation). Dal punto di vista degli indicatori, questa necessità richiede che gli LLM dimostrino prestazioni eccezionali in termini di SQL, codice, capacità di seguire istruzioni complesse e produzione di risposte pertinenti.

Raggruppiamo queste capacità in un unico indicatore, che chiamiamo intelligenza aziendale, calcolando la media per la codifica (HumanEval+ e MBPP+), la produzione di SQL (Spider) e la capacità di seguire istruzioni (IFEval). Questo approccio ci permette di valutare in modo olistico l'idoneità di un LLM per le applicazioni aziendali critiche.

Prestazioni e Efficienza dei Costi Ineguagliabili di Arctic

Arctic offre un'intelligenza aziendale di alto livello rispetto ad altri LLM open source, e questo per un budget di calcolo per l'addestramento di poco meno di 2 milioni di dollari USD (meno di 3.000 settimane di GPU). In altre parole, Arctic è più performante di qualsiasi altro modello open source addestrato con un budget di calcolo simile. Soprattutto, eccelle nell'intelligenza aziendale, anche rispetto a modelli addestrati con un budget di calcolo nettamente superiore. L'efficienza eccezionale dell'addestramento di Arctic consente inoltre ai clienti di Snowflake e all'intera comunità IA di addestrare modelli personalizzati a un prezzo considerevolmente più accessibile, democratizzando l'accesso a soluzioni IA avanzate.

Le prestazioni di Arctic sono notevoli. Il modello si dimostra altrettanto efficace, se non superiore, a LLAMA 3 8B e LLAMA 2 70B sugli indicatori aziendali, con un budget di calcolo per l'apprendimento dimezzato. Allo stesso modo, nonostante un budget di calcolo 17 volte inferiore, Arctic si comporta bene quanto Llama3 70B per gli indicatori aziendali come la codifica (HumanEval+ e MBPP+), la produzione di SQL (Spider) e la capacità di seguire istruzioni (IFEval). Raggiunge questi risultati pur rimanendo competitivo in termini di prestazioni globali. Per esempio, pur utilizzando sette volte meno budget di calcolo rispetto a DBRX, rimane competitivo nel criterio di comprensione del linguaggio e ragionamento (un insieme di undici indicatori) e si rivela più performante in matematica (GSM8K). Questi risultati dimostrano la capacità di Arctic di offrire prestazioni di punta con una frazione dei costi di addestramento tipici.

Architettura Ibrida Innovativa per un'Efficienza Senza Precedenti

Per raggiungere questo livello di efficienza nell'addestramento, Arctic utilizza un'architettura ibrida trasformale dense-MoE (Mixture of Experts) unica. Questa combina un modello trasformale denso di 10 miliardi di parametri, con un MLP MoE residuo di 128x3,66 miliardi di parametri, il che porta a un totale di 480 miliardi di parametri e 17 miliardi di parametri attivi scelti tramite un meccanismo di gating basato sui due migliori esperti (Top-2). È stato progettato e addestrato utilizzando le seguenti tre informazioni e innovazioni chiave:

1) Esperti numerosi ma condensati con maggiore scelta

Alla fine del 2021, il team di DeepSpeed ha dimostrato che l'architettura MoE poteva essere applicata agli LLM autoregressivi per migliorare significativamente la qualità dei modelli senza aumentare il costo di calcolo. Durante la progettazione di Arctic, abbiamo notato che il miglioramento della qualità dei modelli dipendeva soprattutto dal numero di esperti e dal numero totale di parametri integrati nel modello MoE, nonché dal numero di combinazioni possibili tra gli esperti.

Basandosi su queste informazioni, Arctic è progettato per avere 480 miliardi di parametri distribuiti tra 128 esperti ultra-dettagliati e utilizza un meccanismo di gating Top-2 per scegliere tra 17 miliardi di parametri attivi. A differenza di altri modelli MoE recenti costruiti con un numero di esperti molto inferiore, Arctic sfrutta in modo intuitivo un gran numero di parametri totali e di esperti per ampliare la capacità del modello al fine di offrire un'intelligenza di primo piano. Parallelamente, sceglie giudiziosamente tra numerosi esperti condensati e sollecita un numero moderato di parametri attivi, per un addestramento e un'inferenza efficienti in termini di risorse.

2) Co-progettazione dell'architettura e del sistema

Addestrare un'architettura MoE convenzionale con un gran numero di esperti è assolutamente inefficiente, anche con l'hardware di addestramento IA più potente, a causa degli elevati costi di comunicazione collettiva (all-to-all) tra gli esperti. Tuttavia, è possibile assorbire questi costi se la comunicazione può sovrapporsi al calcolo.

La nostra seconda innovazione indica che la combinazione di un trasformatore denso e di un componente MoE residuo nell'architettura di Arctic consente al nostro sistema di addestramento di ottenere una buona efficienza di addestramento grazie alla sovrapposizione tra calcolo e comunicazione. In questo modo, una gran parte dei costi di comunicazione viene assorbita, permettendo al modello di scalare senza gli oneri prestazionali tipici di architetture simili.

3) Programma di dati focalizzato sull'azienda

L'ottenimento di risultati eccellenti sugli indicatori aziendali, come la produzione di codice e SQL, richiede un programma di dati molto diverso rispetto ai modelli di addestramento per gli indicatori generici. Grazie a centinaia di esperimenti di ablazione su piccola scala, abbiamo appreso che le competenze generiche, come il ragionamento di buon senso, potevano essere apprese fin dall'inizio. Al contrario, gli indicatori più complessi, come la codifica, la matematica e il SQL, possono essere acquisiti efficacemente solo nella parte finale dell'addestramento. Si potrebbe stabilire un parallelo con la vita e l'educazione degli esseri umani, dove si acquisiscono competenze partendo dalle più semplici per progredire verso le più complesse.

Allo stesso modo, Arctic ha seguito un addestramento in tre fasi, con una composizione di dati diversa incentrata sulle competenze generiche nella prima fase (1 trilione di token) e sulle competenze aziendali nelle due fasi successive (1,5 trilioni e 1 trilione di token). Questo programma di addestramento dinamico e mirato è stato fondamentale per ottimizzare le prestazioni di Arctic negli specifici ambiti dell'intelligenza aziendale.

Efficienza di Inferenza: Un Passo Avanti per i Modelli MoE

L'efficienza in materia di addestramento rappresenta solo un aspetto delle capacità di intelligenza ottimizzata di Arctic. L'efficienza in materia di inferenza è altrettanto strategica per consentire il dispiegamento pratico del modello a basso costo. Arctic rappresenta un progresso significativo per quanto riguarda la scala dei modelli MoE, in quanto utilizza più esperti e più parametri totali di qualsiasi altro modello MoE autoregressivo open source. Per questo motivo, sono necessarie diverse informazioni e innovazioni per garantire un'inferenza efficace su Arctic, garantendo che le sue prestazioni superiori possano essere sfruttate in ambienti di produzione con costi operativi minimi.