Anthropic ha condotto un'analisi sistemica per rilevare quanto velocemente i modelli linguistici di grandi dimensioni possono sfruttare vulnerabilità conosciute in Firefox e Windows. I risultati dell’indagine hanno sollevato dubbi fondamentali sulle strategie dei patching fino ad oggi adottate.

Quando i produttori di software chiudono le vulnerabilità, iniziano una gara a tempo: gli aggressori possono analizzare i patch, ricostruire la vulnerabilità e attaccare i sistemi che non hanno ancora installato l’aggiornamento. Questi cosiddetti problemi "N-Day" rappresentano una parte significativa dei danni reali, e secondo il Data Breach Report di Verizon, tramite Anthropic, causano una grande quantità di danni concreti.

Fino ad oggi, l’ingegneria inversa di tali patch era un’attività lenta e richiedeva l’esperto. In una analisi Mandiant del 2020, 16 su 25 vulnerabilità analizzate hanno richiesto un mese o più per essere sfruttate. Secondo una nuova indagine condotta dal team di sicurezza di Anthropic, questo tempo di vantaggio è ormai quasi inesistente.

Procedura veloce di patching per gli aggressori

I patch di sicurezza contengono implicitamente un’indicazione su dove si trova l’errore. Gli aggressori confrontano il codice vecchio con quello nuovo per individuare la vulnerabilità. Storicamente, questo processo richiedeva settimane. In un’analisi Mandiant del 2020, 16 di 25 vulnerabilità analizzate hanno richiesto un mese o più per essere sfruttate.

Anthropic ha misurato quanto velocemente i modelli linguistici grandi possono accelerare questo processo. Sono stati testati sei modelli Claude, tra cui l’anteprima non ancora aperta al pubblico, Mythos Preview.

Nel primo test, i ricercatori hanno selezionato 18 patch di sicurezza per SpiderMonkey, l'engine JavaScript di Firefox. L’analisi si è focalizzata su Firefox perché, stando ad Anthropic, rappresenta il caso migliore per i difensori: si aggiorna automaticamente e l’azienda Mozilla ha recentemente accelerato la frequenza degli aggiornamenti da mensile a settimanale. Se persino queste brevi finestre di patch sono sufficienti per gli aggressori, le altre situazioni sono molto peggiori.

Mythos Preview ha provocato il crash mirato di 14 delle 18 vulnerabilità e ha dimostrato così di aver trovato e compreso i bug. I primi esiti sono apparsi dopo 12 minuti, e in totale 13 di essi si sono sviluppati entro 40 minuti. Il 14o risultato si è verificato dopo quasi tre ore. A confronto, Opus 4.5 ha prodotto solo 2 esiti positivi, Opus 4.8 ne ha ottenuti 11.

Negli esperimenti di affidabilità con 50 run per ogni vulnerabilità, Mythos Preview ha riprodotto sette delle 18 vulnerabilità in ciascun tentativo. Opus 4.8 e 4.6 hanno raggiunto tale costanza solo in una vulnerabilità ciascuna.

Tempo necessario per sviluppare il concetto di prova

Un tempo cruciale è rappresentato non solo dal crash, ma anche dal fatto che il modello riesca veramente a sfruttare la vulnerabilità per eseguire codice esterno sul sistema bersaglio. In questo aspetto Mythos Preview ha superato gli altri: in circa 12 ore ha prodotto 8 sfruttamenti funzionanti. Opus 4.8 ne ha creati solo due. Sonnet 4.6 ha prodotto ciascun modulo specifico, ma non un attacco completo. Il primo exploit fu realizzato una ora dopo la pubblicazione del patch, 18 giorni prima del rilascio di Firefox 148.

Kiern Windows senza codice sorgente: 8 catene di escalation dei privilegi

Il secondo test era chiaramente più complicato: 21 vulnerabilità in Windows Kiern, il nucleo del sistema operativo, da gennaio e febbraio 2026, che potrebbe consentire ad un utente con accesso limitato di ottenere i privilegi completa di amministratore.

A differenza del modello di Firefox, il codice sorgente del sistema Windows non è aperto al pubblico. Il modello è stato costretto ad utilizzare solo i file binari compilati, i simboli di debug pubblici, una traduzione macchina effettuata dal tool di analisi Ghidra, un confronto delle funzioni modificate, e il consiglio ufficiale di Microsoft.

Mythos Preview ha rilevato 18 delle 21 vulnerabilità in meno di 6 ore, a un costo totale di circa 2.200 dollari in crediti api. Opus 4.8 ha raggiunto 15, Sonnet 4.6 e Opus 4.7 hanno ottenuto ciascun 13 risultati.

Per quanto riguarda la completa escalation dei privilegi di un utente limitato all'autorità massima SYSTEM, solo Mythos Preview è riuscito nel compito: in totale ha prodotto 8 diverse catene di sfruttamento completamente funzionali, per un costo complessivo di circa 15.700 dollari, circa 2.000 dollari per ogni exploit. Opus 4.8 ha creato componenti di attacco diversi, ma non è riuscito a costruirne una catena completa.

Microsoft aveva catalogato 14 di 21 vulnerabilità analizzate come “sfruttamento probabilmente non realizzabile” o “sfruttamento improbabile”. Mythos Preview ha riuscito a sfruttarne 13 di queste 14 vulnerabilità inclusa una valutazione come “sfruttamento improbabile”. Secondo Anthropic, il sistema di valutazione di Microsoft si basa attualmente su esperti di sicurezza. Con la maggiore disponibilità di modelli come quelli della serie Mythos, questo sistema dev’essere rivisto.

La dimensione temporale rende il problema più acuto: Anche con Windows Autoupdates, il servizio automatico del sistema di aggiornamento, ci vogliono sette giorni per aggiornare il 90% dei dispositivi registrati, e 11 giorni fino al riavvio forzato. Tutte le otto catene degli sfruttamenti prodotte da Mythos Preview erano completate prima che qualsiasi dispositivo avesse potuto ricevere l’aggiornamento automatico.

Può generare exploit anche con modelli open-source

Anthropic ricorda, sebbene i modelli Claude siano stati testati in questa maniera, che i modelli Claude attualmente disponibili al pubico possono sviluppare exploit, pur con risultati meno completi. Altri produttori e modelli open-source probabilmente possiedono la stessa capacità: ciò espande considerevolmente il cerchio potenziale di aggressori.

Rimodulare le strategie di aggiornamento

I cicli di aggiornamento mensili e i rilasci a cascata siano ormai sorpassati, secondo Anthropic. Erano basati sull’ipotesi che l’esposizione di un patch richiedesse settimane di lavoro di esperti. Il termine tecnico attuale, "N-Day", che misura in giorni la distanza tra gli aggiornamenti e gli sfruttamenti, è diventato ormai fuorviante. "N