Mira Muratis Start-up will mit Interaction Models das größte Problem heutiger Sprach-KI lösen
Mira Muratis Start-up will mit Interaction Models das größte Problem heutiger Sprach-KI lösen
Maximilian Schreiner
View the LinkedIn Profile of Maximilian Schreiner
12. Mai 2026
Thinking Machines Lab
Kurz & Knapp
Das Start-up Thinking Machines Lab von Mira Murati präsentiert ein KI-Modell, das Audio, Video und Text direkt in 200-Millisekunden-Takten verarbeitet, um fließende Unterhaltungen ohne starre Frage-Antwort-Muster zu ermöglichen.
Das System verzichtet auf externe Erkennungsprogramme. Es nutzt ein schnelles Modell für die direkte Echtzeit-Interaktion und lagert komplexe Denkaufgaben oder Recherchen an ein zweites Hintergrundmodell aus.
Mit einer Reaktionszeit von 0,40 Sekunden schlägt es in Tests Konkurrenten wie OpenAIs GPT-Realtime-2. Für das Unternehmen ist die Veröffentlichung nach einer geplatzten Finanzierungsrunde und Abgängen im Team ein wichtiger Schritt zur Marktpositionierung.
Mira Muratis Start-up stellt sein erstes KI-Modell vor und will damit Sprach-KI vom Frage-Antwort-Schema lösen. Das Modell verarbeitet Audio, Video und Text in 200-Millisekunden-Häppchen parallel und soll damit OpenAIs GPT-Realtime-2 und Googles Gemini Live bei der Interaktionsqualität schlagen.
Thinking Machines Lab hat eine Forschungsvorschau seines ersten eigenen Modells veröffentlicht. Laut
Blogpost
handelt es sich um sogenannte Interaction Models, die Interaktion nativ verarbeiten statt über externe Hilfssysteme. Die These: Interaktivität müsse mit der Intelligenz eines Modells mitwachsen und dürfe nicht länger nachträglich aufgesetzt werden.
Das Harness-Problem heutiger Sprach-KI
Heutige Echtzeit-Systeme wie GPT-Realtime oder Gemini Live nehmen zwar dauerhaft Audio entgegen, das eigentliche Sprachmodell sieht davon aber nichts. Davor sitzt laut Thinking Machines ein "Harness" aus separaten Komponenten, etwa ein Voice-Activity-Detector, der entscheidet, wann ein Sprecher-Turn zu Ende ist. Erst dann wird die fertige Äußerung an das Modell übergeben, das wiederum eine komplette Antwort generiert. Während es spricht, nimmt es nichts Neues mehr auf, bis es fertig ist oder unterbrochen wird.
Anzeige
Diese Komponenten sind deutlich weniger intelligent als das Modell selbst. Damit fallen laut Thinking Machines Verhaltensweisen weg, die ein echtes Gespräch ausmachen: proaktiv einwerfen ("unterbrich mich, wenn ich etwas Falsches sage"), auf visuelle Hinweise reagieren ("sag mir, wenn ich einen Bug geschrieben habe") oder gleichzeitig zu sprechen, etwa für Live-Übersetzung. Mit Verweis auf Suttons "Bitter Lesson" argumentiert das Lab, solche handgebauten Konstruktionen würden langfristig durch skalierende Methoden überholt.
Anzeige
DEC_D_Incontent-1
Mit den Interaction Models ersetzt Thinking Machines das Harness durch ein Modell, das den Audio- und Videostrom selbst verarbeitet, statt fertig segmentierte Äußerungen zu erhalten. Das ähnelt Full-Duplex-Modellen wie
Moshi
oder
Nemotron VoiceChat
, die ähnlich verschränkt arbeiten, aber auf Latenz statt Intelligenz optimiert sind.
Zwei Modelle, 200-Millisekunden-Takt
Der Bruch mit gängigen Architekturen sind dabei zeitlich ausgerichtete Mikro-Turns: Das Modell verarbeitet kontinuierlich 200 Millisekunden Eingabe und erzeugt 200 Millisekunden Ausgabe, beide Token-Ströme laufen verschränkt. Eingabe und Ausgabe sind also nicht mehr nacheinander geschaltet, sondern teilen sich denselben Takt.
Anzeige
Damit fallen künstliche Turn-Grenzen weg, und das Modell entscheidet selbst, ob es schweigt, einwirft oder parallel zum Nutzer spricht. Audio und Bilder werden dabei nicht über große, separate Encoder vorverarbeitet, sondern in minimaler Form direkt in den Transformer eingespeist. Das spart Latenz, allerdings könnte es auch zu Einschränkungen führen, etwa bei der visuellen Wahrnehmung feiner Details wie Text.
Das Echtzeitmodell hat zudem noch ein Problem: Wer in 200-Millisekunden-Takten antworten muss, kann nicht gleichzeitig minutenlang nachdenken oder im Web recherchieren. Thinking Machines koppelt das Interaktionsmodell deshalb an ein zweites, asynchrones Hintergrundmodell, das langwierigere Aufgaben übernimmt – Reasoning, Tool-Nutzung, Recherchen.
Anzeige
DEC_D_Incontent-2
Beide Modelle teilen denselben Gesprächskontext. Das Interaktionsmodell delegiert Aufgaben, hält währenddessen das Gespräch offen und webt die Ergebnisse des Hintergrundmodells ein, sobald sie eintreffen. Damit will das Lab die Reaktionszeit eines schnellen Modells mit der Tiefe eines Reasoning-Modells verbinden.
Anzeige
Benchmarks: Spitze bei Interaktivität
Das Modell heißt TML-Interaction-Small und ist ein 276-Milliarden-Parameter-MoE mit 12 Milliarden aktiven Parametern. Auf FD-bench schneidet es deutlich besser ab als OpenAIs GPT-Realtime-2 und Googles Gemini-3.1-flash-live. Bei der Antwortlatenz erreicht es 0,40 Sekunden, gegenüber 1,18 Sekunden für GPT-Realtime-2 (minimal) und 0,57 Sekunden für Gemini.
Auf Audio MultiChallenge liegt das Modell mit 43,4 Prozent über den Schnellvarianten der Konkurrenz, aber unter
GPT-Realtime-2
im "xhigh"-Reasoning-Modus mit 48,5 Prozent. Auf eigenen Benchmarks für Zeitwahrnehmung (TimeSpeak, CueSpeak) und visuelle Proaktivität (RepCount-A, ProactiveVideoQA, Charades) berichtet das Lab, kein bestehendes Modell könne diese Aufgaben sinnvoll lösen – getestete Konkurrenten bleiben laut Thinking Machines stumm oder antworten falsch.
Druck zu liefern
Thinking Machines Lab wurde im Februar 2025 von Mira Murati und weiteren Ex-OpenAI-Forschern gegründet. Im Juli 2025 schloss die Firma eine Seed-Runde von 2 Milliarden Dollar bei einer Bewertung von 12 Milliarden Dollar ab - ohne Produkt. Eine im November 2025 berichtete Folgerunde bei rund 50 Milliarden Dollar Bewertung kam Ende 2025 allerdings nicht zustande. Mehrere wichtige Mitarbeiter haben das
Unternehmen in der Zwischenzeit wieder verlassen
. Das Interaction Model ist das erste eigene KI-Modell, mit dem Murati den Anspruch unterlegt, ein echtes Angebot neben OpenAI, Anthropic und Google Deepmind aufzubauen.
Davor hatte das Unternehmen mit
Tinker
ein Werkzeug veröffentlicht, das Entwicklern effizientes Finetuning offener Modelle per LoRAs erlauben sollte, ohne sich um verteiltes Training zu kümmern.
KI-News ohne Hype – von Menschen kuratiert
Mit dem
THE‑DECODER‑Abo
liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren
wöchentlichen KI‑Newsletter, 6× im Jahr den "KI Radar"‑Frontier‑Newsletter
mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf
KI Pro‑Events
und Zugriff auf
das komplette Archiv der letzten zehn Jahre.
Jetzt abonnieren
Quelle:
ThinkingMachines
← Zurück zu den Nachrichten