Un semplice file Markdown appare sufficiente per aumentare le prestazioni di GPT-5.5 di oltre 20 punti in compiti procedurali. È questa la promessa offerta da SkillOpt, una metodologia introdotta da Microsoft insieme a tre università cinesi che addestra documenti di istruzione per gli agenti di intelligenza artificiale nel medesimo modo in cui vengono addestrati i pesi modelli.
Un approccio rivoluzionario agli “skills”
I documenti di istruzione noti come “skills” sono un elemento comune in molti prodotti commerciali. Ad esempio, Anthropic ha integrato un sistema modulare di skills in Claude l'anno scorso, permettendo al sistema di caricare automaticamente istruzioni, script e risorse specifiche della materia trattata in base al compito.
Le skills solitamente racchiudono procedure, regole di utilizzo degli strumenti, formati di output e errori noti, e hanno
sempre rappresentato un approccio consolidato.
Fino ad oggi, invece, i team Microsoft hanno rilevato che queste skills venivano o scritte a mano, o generate in un unico passo da un modello linguistico, o solo approssimativamente rivedute. Nessuna di queste strategie comporta il funzionamento di un vero ottimizzatore e non garantisce affatto un miglioramento reale.
Il funzionamento di SkillOpt
SkillOpt addestra il documento di skill esattamente come si addestrerebbero i pesi modelli, mantenendo però modifiche solo quando si ottiene un effettivo ritorno. Il documento di skill diventa uno stato esterno e addestrabile per il modello “target”.
Un modello linguistico separato serve da ottimizzatore: esamina i log corrispondenti alle esecuzioni dell’agente, individua schemi ricorrenti di errori e successi, e presenta modifiche ristrette al solo documento skill: aggiungere, eliminare o sostituire singoli paragrafi.
Ogni modifica viene accettata solo se si dimostra efficace in un insieme di validazione esterno.
Concetti di apprendimento profondo applicati al livello testuale
Gli autori proiettano diversi concetti di apprendimento profondo al livello testuale. Una sorta di learning rate limita il numero di modifiche per un singolo passo. Un scheduler riduce la dimensione degli step durante gli epoch. Le modifiche rifiutate vengono memorizzate in una coda e servono come esempi negativi per riflettere negli step successivi. Un'aggiornamento lento alla fine di ogni epoch conserva le direzioni di editing stabili attraverso i round di addestramento, simile a come funziona il smoothing dei gradienti in un addestramento tradizionale.
Divario tra allenamento e inferenza
Ciò che rende pratico tutto il processo è la chiara divisione tra fase di addestramento e di esecuzione. Il modello addestratore è in funzione soltanto durante la fase di allenamento e una volta completata la sua parte viene disattivato. Durante l’inferenza, il modello riceve semplicemente un file Markdown di 300-2000 token come contesto.
Superamento dei metodi di confronto
Gli autori hanno testato l’approccio in sei benchmark coprendo ambiti diversi come la ricerca, le tavole di Excel, l’analisi di documenti, la matematica e l’azione fisica. Sette sistemi hanno funto da modelli target, tra essi GPT-5.5 e il più piccolo Qwen3.5-4B. I task sono stati condotti sia in chat diretta che in ambienti agenti Codex e ClaudeCode.
In ogni combinazione, SkillOpt guida o pari con il risultato migliore rispetto ai metodi di confronto, compresi quelli manuali, generati in un colpo solo e modelli specializzati come Trace2Skill, TextGrad, GEPA ed EvoSkill. Su GPT-5.5 in chat diretta, la medio prestazione su tutti i sei benchmark aumenta di circa 23 punti.
I compiti che richiedono formato rigoroso traggono maggior benefit
I miglioramenti più significativi si registrano per i task con requisiti rigorosi di formato e utilizzo degli strumenti, come l'editing di fogli di calcolo. I modelli più piccoli beneficiano anch’essi, cosa che gli autori interpretano come una prova che una skill ben addestrata fornisce conoscenze procedurali mancanti nei pesi modelli.
Durante i round di addestramento, il metodo preferisce di solito le skill che si mostrano efficaci anche quando testate in dati inediti.
Trasferibilità dei risultati
Un elemento cruciale emerge: la trasferibilità. Una skill addestrata su un modello più grande migliora anche i modelli più piccoli della stessa famiglia. Una skill su fogli di calcolo addestrata in Codex si rivela efficace anche in Claude Code, raggiungendo gli stessi livelli di una skill generata direttamente in Claude Code.
Una skill matematica addestrata con problemi di gara mantiene vantaggi anche in test secondari senza dover riallenare. I test di ablazione spiegano perché il metodo si mantiene stabile: senza un budget limitato di modifiche, il documento skill risulta instabile con ogni revisione. Senza l’archiviazione di modifiche rifiutate, l’ottimizzatore ripete semplicemente fallimenti già sperimentati.
La perdita di punti quando rimuove la fase di aggiornamento
L’eliminazione dell’aggiornamento lento alla fine di ogni epoca riduce di più di 20 punti su SpreadsheetBench, la più grande flessione sperimentata in tutto il test. Solo la combinata di dimensione step limitata, gate di validazione, feedback negativo e consolidamento a lungo termine permette il funzionamento controllato del processo ottimizzante, come affermano gli autori.
Documenti compatti che svolgono un ruolo essenziale
Le ultime skills rimangono compatte: i documenti completi raramente superano i 2000 token, e i miglioramenti derivano da un massimo di 1 a 4 modifiche accettate in quattro epoche. Su OfficeQA, il guadagno massimo deriva da una singola modifica accettata.
I regolamenti appresi sembrano quelli che un praticone esperto avrebbe annotato dopo un intero lavoro con il benchmark. Per i fogli di calcolo, la skill insegna a controllare innanzitutto la struttura del foglio e a digitare direttamente i valori calcolati interi nell'intervallo obiettivo, evitando formule di Excel.
Per ALFWorld, essa mantiene un registro log delle zone visitate e si nega di andare verso la meta finché l’oggetto bersaglio non sia stato raccolto. Per domande su documenti, collega la domanda alla riga della tabella giusta prima di accettare una risposta. Nessuna di queste regole fa riferimento a compiti specifici: esse descrivono procedimenti generali.
Limiti e riconoscimenti
I ricercatori riconoscono però che il metodo dipende da un giudizio automatico affidabile. Nei compiti aperti in cui la riuscita è difficile da valutare, il passo di validazione richiede giudizi di tipo modello o umano. SkillOpt