La startup di intelligenza artificiale Subquadratic, con sede a Miami, è uscita di recente da una fase di stealth, annunciando una clamorosa affermazione: che avrebbe risolto un problema matematico che limita da quasi un decennio le grandi modello linguistico. Molti restavano scettici a causa della scarsità di dettagli, ma la startup ha cominciato a pubblicare risultati indipendenti che sembrano supportare le sue affermazioni.

Secondo Subquadratic, ha sviluppato un tipo innovativo di modello linguistico, denominato SubQ, molto più veloce, economico e risparmia energia rispetto alle altre modello sul mercato. La startup afferma anche che SubQ è in grado di gestire fino a 12 volte più testo al momento rispetto alla maggior parte degli altri modelli, permettendogli di svolgere compiti intensi in termini di dati, come analizzare centinaia di documenti o interi codici.

Maggiore è la velocità, migliore è la prestazione: i produttori di modello linguistico come Google DeepMind, OpenAI e Anthropic sono riconosciuti come leader in questa nicchia tecnologica. Ma Subquadratic sembra riuscire a eguagliare le loro prestazioni in termini di codifica.

Tuttavia, inizialmente, Subquadratic non aveva fornito molte prove oltre a una manciata di punteggi da test auto-pubblicati. Nonostante le aspettative, la community del settore era scettica. Dan McAteer, un ingegnere di intelligenza artificiale, ha espresso la reazione generale su X: "SubQ è o il più grande passo avanti da quando è stato introdotto il Transformer ... o è l'AI Theranos."

Dopo un mese, la società ha pubblicato ulteriori informazioni sul modello, incluso i risultati di test indipendenti effettuati da un’azienda terza, Appen. “Speravamo di ricevere un po’ di scetticismo,” ha detto Alex Whedon, cofondatore e CTO di Subquadratic.“ In retrospettiva, avremmo dovuto presentare i benchmark con i partner terzi con l’annuncio iniziale per prevenire questo scetticismo; è per questo che dedichiamo ora tempo a verificare completamente i risultati futuri prima di renderli pubblici.”

Subquadratic ha chiesto ad Appen, azienda che valuta modello di altre compagnie, di effettuare test su SubQ. I risultati sembrano corrispondere alle dichiarazioni di Subquadratic. “Mi è stata molto gratificante, ha validato la loro architettura,” ha detto Jeanine Sinanan-Singh, direttrice della ricerca sull’intelligenza artificiale generativa di Appen.

Per comprendere appieno l’importanza delle affermazioni di Subquadratic, è necessario analizzare come funziona la maggior parte di questi modelli linguistici. Il meccanismo centrale di un modello linguistico è una rete neurale chiamata transformer, che utilizza un processo noto come densa attenzione. Oggi, i modelli linguistici utilizzano spesso sequenze di molti transformers.

La densa attenzione funziona in questo modo: Quando un transformers elabora un blocco di testo, assegna a ogni parola, (o parte di parola, conosciuta come token) un numero, ed esso moltiplica ogni numero con ogni altra parola del testo. Ad esempio, un testo lungo 10.000 parole avrebbe quasi 50 milioni di singole moltiplicazioni. Questo è il motivo principale per cui i modelli linguistici sono noti per consumare molta energia.

“Se vuoi riassumere Il grande Gatsby, devi considerare la prima e l'ultima parola insieme e poi ogni altra combinazione,” ha spiegato Dangel.

Se il volume del testo aumenta, aumenta anche il numero di calcoli necessari. Questo avviene perché ogni aggiunta deve essere moltiplicata con tutte le precedenti. Raddoppiando il numero di parole, i calcoli richiesti aumentano quasi di quattro volte. Questo aumento è noto come espansione quadratica.

Una soluzione adottata da Subquadratic è di abbandonare l’attenzione densa, la chiave operazione in un transformer, per sostituirla con l’attenzione sparso, che riduce in modo efficace il numero di calcoli. Invece di moltiplicare i numeri di ogni token con ogni altro, l’attenzione sparso sceglie solo alcuni di questi numeri da moltiplicare. L’idea principale è che non tutte le relazioni tra le parole all’interno di un testo siano necessariamente importanti.

“L’attenzione sparso dice che non tutte queste relazioni sono importanti, perché non lo sono,” ha affermato Whedon. "Se stai leggendo un libro, non guarderai la prima e la seconda parola, né la prima e la terza. Che sarebbe folle."

Si tratta di un approccio semplice, e Subquadratic non è la prima a provarlo. “Quasi ogni idea immaginabile è stata testata,” ha affermato Will Depue, un ricercatore indipendente su AI che ha precedentemente lavorato a OpenAI. “Non è impossibile, ma è simile a correre un miglio in quattro minuti."

Metodi precedenti per selezionare i numeri da moltiplicare e quelli da ignorare non hanno prodotto un meccanismo in grado di catturare il significato di un documento meglio dell’attenzione densa. Subquadratic rivendica di aver risolto per la prima volta il problema e di proporre un modello sparso di attenzione che si avvicina al rendimento dei modelli principali.

“Storicamente, la maggior parte dei meccanismi ha utilizzato schemi fissi, ad esempio confrontando sempre la prima parola con la quinta,” ha spiegato Whedon. “Questo è piuttosto limitante. L’inglese è troppo complesso per questo. Una delle cose che rende unico il nostro meccanismo è che selezioniamo dinamicamente quelle che sono importanti.”

L’azienda non precisa esattamente come il SubQ seleziona le parole su cui concentrarsi, ma queste selezioni sono calcolate in tempo reale e variano per ogni testo fornito al modello. “In un certo senso, questo è il cuore del procedimento,” ha concluso Whedon.

Conseguenze concrete di questi nuovi modelli potrebbero portare a modelli più veloci ed economici da gestire rispetto ad altri modelli. Appen ha effettuato una valutazione di SubQ su diversi test standardizzati. In un test su velocità, Appen ha constatato che SubQ era 56 volte più veloce rispetto a modelli che utilizzano FlashAttention, una precedente tecnica sparso.

Nel test LiveCodeBench, che valuta le capacità dei modelli in base a problemi di programmazione competitivi reali, SubQ ha ottenuto il 89,7%, collocandosi nello stesso range dei modelli di codifica principali. “Questo modello continua a fornire performance di livello avanzato nel campo dei codici,” ha dichiarato Sinanan-Singh di Appen.

Le affermazioni di Subquadratic su costi di funzionamento sono più difficili da verificare perché SubQ non è ancora ampiamente disponibile al pubblico. Secondo Dangel, il costo di utilizzare l’LLM Op