Una nuova studia suggerisce che al posto di ingrandire ulteriormente i modelli, potrebbe essere più efficiente aumentare deliberatamente la frequenza di attività specifiche nei dati di addestramento per istruire i modelli piccoli su capacità rare.
Secondo una ricognizione recente, compiuta tra l'altro da ricercatori di Anthropic e Stanford, si spiega perché modelli linguistici più grandi riescono ad imparare certe attività che i modelli più piccoli non riescono a gestire. Questi risultati vanno aldilà dell'idea comune che i modelli più grandi semplicemente apprendano in modo più rapido.
Nel contesto di alcune attività specifiche, modelli piccoli non riescono a riprodurre compiti rari nemmeno se addestrati per molto tempo. Alcune leggi basilari per la scalabilità indicano che modelli piccoli non raggiungeranno mai l'efficacia completa di modelli grandi, persino con dati illimitati.
Solo i modelli OLMo più grandi riescono a gestire con successo le compiti di frequenza bassa, visibili chiaramente nei campi arancioni in basso a destra. Figura di Huang et al.
Compiti frequenti dislocano quelli rari
Per isolare il meccanismo, gli esperti testano una combinazione di compiti con un’ampia varietà di frequenze e complessità. Un modello con N neuroni dedica queste ai principi più utili, dove l’utilità è un prodotto della frequenza e dell'importanza di un compito. Quelli frequenti e semplici prendono precedenza, mentre quelli rari e complessi vengono spesso tralasciati. Dalle simulazioni, i modelli sufficientemente grandi imparano compiti che rappresentavano soltanto lo 0,25% dei dati di training.
Con N neuroni, un modello dedica questi ai N caratteristiche più utili. Modelli più ampi catturano anche quei compiti rari. Figura di Huang et al.
Lavoro centrale di questo studio è l’osservazione del motivo per cui la dimensione aiuta: mentre le attività frequenti non sono ancora masterizzate, esse attraggono fortemente il modello in ogni fase del training e cancellano molto di ciò che è stato appreso da attività rare. Una volta che un modello di grandi dimensioni ha acquisito la maggior parte delle attività comuni, questa pressione si riduce. Le risorse inutilizzate diventano quindi accessibili per compiti rari; una volta imparato un segnale resta invariabilmente impresso.
I modelli piccoli, per lo studio, raramente raggiungono questa condizione e si incartano in un ciclo "aggiorna e dimentica". Ogni osservazione rara è appresa rapidamente, ma spazzata via da iterazioni successive dominate da attività frequenti. Il modello, a un successivo incontro con il compito raro, ricomincia praticamente da capo.
Un esperimento mira a separare chiaramente questo effetto. La frequenza complessiva di un compito raro rimane costante, ma cambia l’intervallo tra ciascuna delle singole osservazioni. Maggiore la distanza, maggiore la fragilità del segnale in modelli piccoli. Modelli più ampi conservano meglio informazioni di un’osservazione rara e vi aggiungono su di essa.
Verso i veri modelli linguistici
Per verificare la teoria durante l’addestramento iniziale, il gruppo addestra modelli OLMo con parametri che vanno da 4 milioni a 4 miliardi su fino a 210 miliardi di token del Dolma corpus. Nei dati vengono aggiunte due attività artificiali, un confronto di numeri e una somma modulare, con frequenze che vanno da circa 1000 istanze per batch a una istanza ogni dieci batch.
Si misura quanto ogni fase di training spinge verso la compito raro. Nella riga centrale tutti i modelli ricevono lo stesso segnale forte (picchi) in corrispondenza del compito. Nella riga inferiore emerge un chiaro contrasto: il piccolo modello da 20M (violaceo) riceve una serie di segnali casuali dal resto del training e disturbi il segnale, mentre modelli più grandi (300M e 1B) mantengono la linea vicino a zero, preservando il segnale non disturbato.
Solo modelli più grandi di OLMo hanno appreso le attività rare, non solo memorizzando singole istanze, ma captando l’idea sottostante e applicandola in nuovi casi.
Particolarmente evidente è il caso dell’addizione modulare: qui si è mostrato il fenomeno del Grokking, dove un modello gestisce inizialmente l’attività con una memorizzazione cieca e solo dopo un addestramento prolungato capisce improvvisamente il principio sottostante. Questo balzo è avvenuto soltanto nei modelli grandi, quando l’attività era abbastanza frequente da apparire nei dati di addestramento.
Un esame interno conferma questa immagine. Nei modelli da un miliardo, ogni fase di training in cui si verificava il compito raro avanzava chiaramente verso la sua soluzione. Nei modelli da 20 milioni, il segnale spariva nel rumore degli altri addestramenti, impedendo in pratica un apprendimento reale.
Memorizzazione come fondamento per generalizzazione
Da queste osservazioni emerge una conclusione insolita. Nella ricerca, la memorizzazione non è solo un effetto collaterale non voluto, ma una preparazione essenziale per la generalizzazione. Solo quando un modello riesce a mantenere osservazioni singole per un periodo sufficiente, una struttura generalizzabile potrebbe formarsi attraverso diversi batch.
Per fare fronte a questa situazione, gli esperti suggeriscono una via alternativa al mero allargamento del modello: chi desidera fissare specifiche capacità su un modello può aumentare la frequenza del compito obiettivo nei dati di addestramento, anziché ingrandire il modello.
Attualmente esiste più di una spiegazione per il perché le dimensioni aiutano. Un team del MIT, nel mese di maggio, ha attribuito i cosiddetti leggi di scalabilità alla geometria del modello che permette di contenere in superposition più concetti di quello che le sue dimensioni possibili consentirebbero. L’ultima ricerca in questo studio non si focalizza sull’output del modello, ma sui dati disponibili in fase di training. Dietro questi sviluppi, persiste un dibattito più antico attorno a se determinate capacità emergono veramente in modo improvviso con una certa dimensione del modello o se, in alcuni casi, siano solo un artefatto di misura.
Lettura di notizie su IA curata umanamente, senza eccessi di enfasi – Iscriviti all’abbonamento THE-DECODER per leggere senza sponsorizzazione e essere parte della comunità: Partecipazione al sistema dei commenti, ricezione del nostro newsletter sull’IA settimanale, sei volte l’anno riceverai inoltre ‘KI Radar’ – newsletter di approfondimento sugli sviluppi più importanti della ricerca sull’intelligenza artificiale, fino al 25% di sconto per eventi KI Pro, e accesso all’archivio completo degli ultimi dieci anni.
Iscrizione all’abbonamento.
Per i rest