Anthropic ha rilasciato dati interni che dimostrano che il proprio modello di intelligenza artificiale Claude ormai produce autonomamente oltre l'80% degli aggiorni al proprio codice di produzione.
Introduzione
Anthropic sta conducendo un’analisi dettagliata sugli sviluppi dell’intelligenza artificiale, grazie al proprio Anthropic Institute, il cui lavoro ha portato il team a pubblicare un report significativo.
Il focus principale del report è l'aumento esponenziale del ruolo che Claude, l'AI sviluppata da Anthropic, sta assumendo nella sua stessa evoluzione. Si sottolinea come, anche se non si sia ancora raggiunta una completa autonomia di auto-miglioramento, l'arrivo di un sistema capace si profilerebbe più vicino di quanto molte istituzioni siano pronte a gestire.
Statistiche sulla produttività
Nel secondo trimestre del 2026, ingegneri ed esperti tecnici di Anthropic in media producono otto volte la quantità di codice giornalieri rispetto al 2024. La percentuale di codice prodotta autonomamente da Claude nella base di codice produttiva, che era ancora nell’ordine del singolo percento a inizio 2025, è oggi salita a oltre l’80%. Con l’aggiunta di script e codice sperimentale, Anthropic stima addirittura un coinvolgimento di Claude superiore al 90%.
Secondo un dipendente, “da circa cinque mesi non ho prodotto personalmente codice di produzione”.
Qualità del Codice e Analisi Post-Mortem
L’azienda riconosce che misurare la produttività in termini di linee di codice non è perfetto. Anche se i dati mostrano un aumento otto volte rispetto al passato, Anthropic ritiene che la stima sia probabilmente una sopravvalutazione. In una recente indagine condotta nel marzo 2026 su 130 collaboratori, il mediano stimava un incremento quadruplicato. Tuttavia, l'azienda sottolinea con riferimento a una ricerca METR, che i programmatori tendono a sovrastimare il vantaggio produttivo fornito dagli strumenti di AI.
Come riguarda la qualità del codice, Anthropic riferisce che alla fine del 2025 il codice prodotto da Claude era leggermente inferiore a quello umano. Oggi è paragonabile e si prevede che possa superarlo entro l’anno.
Autorevisione e Bug Detection
Durante un’analisi retrospettiva, un sistema di auto-revisione di Claude è riuscito a individuare un terzo dei bug che avevano causato problemi su claude.ai, prima che venissero rilasciati in produzione. Un altro esempio di efficacia: nel Aprile 2026, Claude ha prodotto 800 correzioni per ridurre un particolare tipo di errore api di 1000 volte; un umano avrebbe impiegato anni per ottenere lo stesso risultato.
Evoluzione su Problemi Complessi
Secondo lo studio, la capacità di Claude di risolvere compiti complessi si è migliorata significativamente. Dal febbraio 2026, Claude è stato in grado di completare compiti che inizialmente potevano durare quattro minuti e ad oggi riesce a occuparsi di compiti di dodici ore. Se il trend prosegue, potrebbe svolgere in breve tempo compiti che richiedono giorni o settimane.
Secondo il report, i processi decisionali di ricerca che inizialmente richiedevano ore a un singolo ricercatore, richiedono pochi giorni a Claude Mythos Preview.
Ricerca e Capacità di Giudizio
L’azienda ha evidenziato il progressivo sviluppo delle capacità di giudizio decisionale di Claude. Ad esempio, in una situazione specifica di ottimizzazione, Claude Opus 4 nel 2025 aveva migliorato il codice di circa tre volte. Nel 2026, Claude Mythos Preview migliorava di 52 volte rispetto al codice umano. Ciò equivale a un’abilità decisiva che in precedenza richiedeva ore di lavoro umano.
Limite: Gusto Ricerca e Progettazione
Il punto cieco rimane però nella capacità di scelta di problemi rilevanti per la ricerca e nella valutazione preventiva di eventuali vicoli ciechi. L’azienda spiega che mentre Claude sta imparando a gestire il 99% del processo come "transpirazione", l’1% di "ispirazione"—quello che i ricercatori definiscono "gusto di ricerca"—rimane prerogativa umana.
Anthropic riconosce tuttavia che, sebbene la capacità di giudizio decisionale non sia ancora interamente automatizzata, in molti ambiti critici, l’AI sta ormai guidando l'output.
Sviluppi Tecnologici e Cambiamenti di Paradigma
I progressi tecnologici non seguono sempre un modello lineare e i cambiamenti strutturali, come la transizione dai network neurali ai transformer, si realizzano su lunghe scale temporali. Sia Anthropic che Edisons’ "genio è l’1% di ispirazione e il 99% di lavoro" vedono un progresso in cui l’IA sta prendendo sempre più il comando.
Anche se non sarà mai in grado di emulare completamente il gusto umano verso un buon problema di ricerca, l’IA ha comunque il potenziale di moltiplicare il lavoro che ogni individuo può svolgere, specialmente quando i decisori sfruttano le sue capacità in modo mirato.
Sospensione Controllata e Rischi Etici
Anticipando l’arrivo di un’AI capace di auto-miglioramento completo, Anthropic non esclude la possibilità di un interruttore di emergenza a livello globale. Riconosce però che un singolo intervento, ad operato di una sola azienda, non basterà. Per evitare rischi non controllati—come la manipolazione a livello di massa o il potenziale aumento di sistemi di sorveglianza autorevole—potrebbe rendersi necessario introdurre accordi verificabili su base internazionale.
Sull’idea di avanzare una sospensione globale, Anthropic ha anche delineato tre scenari:
- Primo, l'AI potrebbe non progredire esponenzialmente come previsto.
- Secondo, i vantaggi potrebbero protrarsi ma con un coinvolgimento umano limitato a decisioni strategiche.
- Terzo, si potrebbe arrivare a un’accelerazione tale da creare nuove sfide sociali, tecnologiche ed etiche.
Di questi, Anthropic considera il secondo e il terzo scenario di particolare rilevanza per lo sviluppare rischi globali.
Conclusioni
In sintesi, Anthropic ha mostrato come il modello Claude stia acquisendo ruoli crescenti nel proprio sviluppo, con progressi tecnici evidenti. La sfida più urgente sembra essere l’equilibrare la crescente autonomia dell’intelligenza artificiale con una guida etica internazionale e una governance condivisa per gestire i nuovi paradigmi del lavoro umano