Microsoft-Forscher und Wissenschaftler von drei chinesischen Universitäten haben eine Methode namens SkillOpt entwickelt, die KI-Agenten effektiv verbessert, ohne die Modelle selbst zu verändern. Statt die Gewichte der KI-Modelle anzupassen trainiert SkillOpt ein dokumentiertes Handlungsleitfaden, das prozedurales Wissen sammelt und für Agenten zur Verfügung stellt. Das Verfahren setzt auf Ideen des Deep Learning an, um solche Skill-Dokumente iterativ und validiert verbessern zu können, wodurch es sich von anderen Selbstverbesserungsansätzen abhebt.

Skills als Kriterium für KI-Agenten

Skills sind in der KI-Welt keine neue Innovation – sie wurden bereits in kommerziellen Anwendungen wie Anthropics Claude implementiert. Skills umfassen Vorgehensweisen, Regeln zur Werkzeugnutzung, Formatvorgaben und bekannte Fehlerfall-Präventionen. Bisher mussten solche Skills meist manuell erstellt oder durch ein einziges Sprachmodell generiert werden. Laut einem Whitepaper von Microsoft-Expert:innen ist jedoch bei keiner dieser Standardmethoden eine sichere Verbesserung der Skills garantiert. SkillOpt zielt darauf ab, diese Lücken zu schließen.

Weitere etablierte Techniken wie Trace2Skill und TextGrad nutzen ebenfalls verschiedene Wege zur Erstellung oder Anpassung automatischer Handlungsprogramme. SkillOpt hingegen folgt einer einzigartigen Vorgehensweise, bei der die KI-Akteure nicht über das Modell selbst lernen, sondern ihr Skill-Dokument über kontrollierte Trainingsschritte verbessert.

Die Struktur von SkillOpt

Bei SkillOpt wird das Ziel-KI-Modell wie üblich fixiert – es werden also weder Gewichte noch Parametrisierungen verändert. Die Verbesserung erfolgt über ein separates Optimierer-Modell, das Änderungsvorschläge an das Skill-Dokument macht. Dabei liest dieses Modell die Protokolle der Agent-Aktivitäten, erkennt wiederkehrende Problempunkte und Fehler und formuliert vorgeschlagene Änderungen, wie das Hinzufügen, Löschen oder Anpassen von Passagen. Nur Vorschläge, die sich auf neuen Testdaten als wirksam zeigen, werden übernommen.

Key-Design-Elemente in SkillOpt entstammen der Deep-Learning-Praxis:

Ein begrenztes Edit-Budget sorgt dafür, dass nicht zu viele Änderungen pro Schritt vorgenommen werden.
Ein Scheduler reduziert die Schrittgröße über Epochen hinweg, um den Prozess stabil ablaufen zu lassen.
Nicht erfolgreiche Änderungen werden in einen Puffer eingefügt, um dem System ein negatives Beispiel vorzugeben.
Ein langfristiges Update konsolidiert stabile Verbesserungen über mehrere Epochen.

Training vs. Einsatz

Ein wesentlicher Vorteil von SkillOpt ist die Trennung zwischen Training und Produktivbetrieb. Während des Trainings läuft das Optimierer-Modell, um die Skill-Dokumente zu verfeinern. Im Live-Betrieb hingegen bleibt nur eine Markdown-Datei übrig, die dem Ziel-Modell als Kontext zur Verfügung gestellt wird und keine weiteren Rechenoperationen benötigt.

Testumgebung und Leistungsverbesserung

Die Forschenden testeten SkillOpt an sechs Benchmarks mit unterschiedlichen Fokusbereichen: Suche, Tabellenkalkulation, Dokumentenanalyse, Mathematik und körperliche Handlungs-Akte. Ziel-Modelle waren unter anderem GPT-5.5, Qwen3.5-4B, und verschiedene Kombinationen in Agent-Umgebungen wie Codex oder Claude Code.

In allen geprüften Szenarien erreichte SkillOpt entweder die bestmögliche Leistung oder war mindestens gleichwertig mit den führenden Konkurrenzverfahren. Besonders deutlich ist der Gewinn bei Tabellenbearbeitungsaufgaben und bei Aufgaben mit strengen Formatvorgaben. Selbst kleine Modelle profitieren – ein Indiz dafür, dass gute Skills auch prozedurales Wissen transportieren, das kleineren KI-Modellen fehlt.

Stabilität und Validität

Ein besonders beeindruckendes Ergebnis ist die Stabilität des Verfahrens: Änderungen an den Skills werden nur übernommen, wenn sie sich im Rahmen der Validierung als nützlich erweisen. Dies führt dazu, dass die Skills robust gegen Overfitting sind und sich gut auf neue Testdaten anwenden lassen. Die Forscher führten auch Ablationsexperimente durch, bei denen sie einzelne Komponenten wie das langsame Update oder das Edit-Budget deaktivierten. In solchen Fällen verschlechterte sich die Leistung deutlich, was unterstreicht die Notwendigkeit der komplexen Architektur.

Übertragbarkeit und Wiederverwendung

Ein weiteres wichtiges Kennzeichen von SkillOpt ist die Übertragbarkeit der Skills. Ein Skill, der beispielsweise für GPT-5.5 trainiert wurde, verbessert die Leistung auch bei kleineren Modellen, wie Qwen3.5-4B. Ein Tabellen-Skill, der in der Codex-Umgebung trainiert wurde, funktioniert nahezu identisch in anderen Umgebungen wie Claude Code, ohne zusätzliche Anpassungen zu benötigen. Ebenso profitiert ein Mathematik-Skill aus dem Olympiadensetting von Benchmarks anderer Domänen. Dies macht die Skills besonders flexibel einsetzbar.

Kompaktheit der Ergebnisse

Auffallend ist auch die Kompaktheit der Skills: Die endgültigen Dokumente sind meist kurz (maximal 2000 Token), und die Verbesserungen ergeben sich oft aus nur einem bis vier Änderungsvorschlägen. Die Regeln in diesen Skills sind selten spezifisch für eine Aufgabe. Sie orientieren sich an generischen Handlungsanweisungen wie:

Prüfe die Struktur der Tabelle, bevor du Werte auswertest.
Speichere ausgewertete Werte direkt, anstatt komplexe Formeln zurückzulassen.
Vermeide das Erreichen eines Ziels, bevor ein Objekt aufgenommen wurde.
Binde Frage und Antworttabellen einheitlich, um Kontextverlust zu vermeiden.

Die Regeln sind klar, handlich und erweisen sich für das System als wirksam. Gleichzeitig sind sie leicht interpretierbar und für Entwickler nachvollziehbar.

Limits und Herausforderungen

Trotz der beeindruckenden Erfolge betonen die Forschenden auch die Limitationen. SkillOpt benötigt eine verlässliche und automatisierte Bewertungsumgebung. Bei Aufgaben, bei denen menschliches Urteilen erforderlich ist oder Erfolg nicht objektiv gemessen werden kann, müsste der Prozess angepasst werden. Ein weiterer Haken liegt im Fokus auf einem einzelnen Dokument. Bei komplexeren Domänen mit vielen Skills wird diese Anpassung weniger effektiv, da dann mehrfache Iterationen nötig sind.

Verbindung zu anderen Selbstverbesserungsansätzen

Auch wenn SkillOpt in der KI