Con l'inizio dell'estate, anche nel campo dei modelli linguistici le innovazioni si rincorrono. Nuovi modelli cinesi di StepFun e MiniMax promettono un Reasoning economico e sono ottimizzati per workflow agent. I modelli Liquid Foundation sono leggeri grazie alla loro architettura speciale ma non sacrificano la potenza.

Reasoning-Modell Step 3.7 Flash

StepFun, azienda di intelligenza artificiale basata a Shanghai, ha lanciato un nuovo modello di Reasoning chiamato Step 3.7 Flash. Questo modello presenta una struttura simile al predecessore Step 3.5 e offre miglioramenti significativi. Ad esempio, è stato aggiunto un Vision Encoder, permettendo al modello di interpretare anche le immagini. Le capacità di Reasoning sono configurabili in base alla complessità della richiesta.

Inoltre, per domande semplici, il modello non accumula automaticamente un gran numero di token, fattore fondamentale per il funzionamento su agenti autonomi. Tuttavia, come molti modelli cinesi, anche Step 3.7 Flash mostra una certa censura. Tuttavia, il modello fornisce fatti rilevanti durante il processo di Reasoning prima di ridurre l’output finale.

Un aspetto notevole è che Step 3.7 Flash mostra una capacità di Reasoning prevalentemente in tedesco per le domande in tedesco, con interruzioni occasionali in inglese. I dati del modello presenti sul sito ufficiale di StepFun superano spesso le performance di DeepSeek V4 Flash. La rete di utenti ne ha lodato il comportamento speciale con gli agenti di coding. Per vedere l’effettiva longevità del modello, bisognerà attendere i risultati pubblicati su LM Arena.

I risultati completivi di Step 3.7 Flash sono scaricabili dal GitHub relativo a questa pubblicazione.

Performance-Zuwachs mit MiniMax M3

Anche MiniMax ha lanciato un nuovo modello, chiamato MiniMax M3, che promette grandi aumenti di velocità. Sebbene MiniMax si definisca come un modello "Open Weight", i pesi non sono ancora scaricabili da Hugging Face. Il modello può però essere testato utilizzando MiniMax.ai o su OpenRouter. In confronto ad altri modelli cinesi, MiniMax offre risultati equilibrati e meno restrittivi.

MiniMax ha ottimizzato l'architettura dell’attenzione, suddividendola in due fasi principali dove la fase iniziale seleziona i token rilevanti per la fase successiva. Secondo MiniMax, il modello MiniMax M3 riesce a valutare le richieste circa 10 volte più velocemente del modello precedente e genera output fino a 15 volte più velocemente.

Sebbene non siano ancora disponibili benchmark ufficiali, i rapporti di MiniMax suggeriscono che M3 possa competere con i modelli di coding più avanzati. I dati del modello sono accessibili su GitHub come indicato in questa pubblicazione.

Schlanke Liquid Foundation Models

liquid.ai ha adottato un approccio completamente diverso con i Liquid Foundation Models. Questi modelli utilizzano un'architettura unica, che permette una generazione estremamente efficiente dei token e il funzionamento anche sulle CPU. L'ultimo modello rilasciato, chiamato LFM2.5-8B-A1B, presenta un numero ridotto di parametri (appena un miliardo) e ha lo stesso compito di sfidare strumenti molto più grandi come gpt-oss-20b, Qwen3-30B-A3B-Thinking-2507 e Gemma-4-26B-A4B-IT.

La versione LFM2.5-8B-A1B è notevolmente veloce. Su un Mac Studio M2 Ultra, è risultato in grado di gestire quasi 200 token al secondo. I risultati, benché non siano al livello dei modelli grandi, sono idonei per applicazioni specializzate e scenario agent.

I risultati completi di LFM2.5-8B-A1B sono accessibili dal repository GitHub menzionato in questa pubblicazione.

Bildanalyse und mehr von Nvidia

Nvidia dimostra di mantenere una posizione dominante con nuovi modelli in uscita. Un esempio è LocateAnything, un modello per l'analisi di immagini che genera contenitori intorno agli oggetti di interesse, rendendone più semplice l’analisi. Il modello è altamente parallelo e riesce persino a processare documenti scansionati.

Un altro prodotto notevole è il Pixel Diffusion Decoder di Nvidia che introduce un modello di diffusione innovativo nello spazio dei pixel. Sebbene richieda una grande quantità di memoria, presenta caratteristiche promettenti, anche se il funzionamento è piuttosto complicato al momento del download.

I modelli Nemotron di Nvidia sono notevoli per la loro potenza. L'ultimo lanciato, il modello Ultra, presenta 550 miliardi di parametri, di cui 55 miliardi attivi. I modelli di Nemotron mostrano una inferenza molto veloce grazie all’uso di tipi NVFP4 e di meccanismi di attenzione ottimizzati. I modelli nematron vengono spesso forniti con codici e dataset utili per ulteriore test e addestramento.