Il modello Count Anything, o "Contabilizzare qualsiasi cosa", fa esattamente ciò che promette: contare oggetti in immagini, una capacità che sembra semplice ma è molto più complessa di quanto si possa immaginare. Si tratta di una soluzione avanzata sviluppata da ricercatori dell’Università di Tsinghua e istituti partner, capace di analizzare immagini di ogni tipo, che vadano dagli scansioni medici alle immagini satellitari. Per fare questo, si utilizza esclusivamente una richiesta testuale.

Due metodi per un obiettivo comune

Un punto fondamentale del modello è la combinazione di due metodi differenti che si completano a vicenda. Uno si concentra sugli oggetti di grandi dimensioni, disegnando attorno a loro una cornice rettangolare. L’altro gestisce oggetti piccoli e densamente confezionati, piazzando un punto su ciascun oggetto rilevato.

Il risultato finale è l’unione delle due previsioni: un insieme di punti che rappresenta il conteggio complessivo di tutti gli oggetti nell’immagine. Per evitare errori di doppio conteggio, il sistema applica una semplice regola: se entrambi i metodi identificano lo stesso oggetto, viene selezionata la predizione con il livello di fiducia più alto.

Sistema basato su Meta SAM3

Il modello Count Anything si basa su Meta SAM3, una rete neurale addestrata in precedenza in grado di elaborare immagini insieme a testo. A differenza di un’addestramento completamente nuovo, gli autori di Count Anything hanno aggiunto componenti adattatori mirati al compito specifico del conteggio.

Un dataset che unisce sei domini visivi

Per consentire all’IA di apprendere in modo generale, i ricercatori hanno creato il dataset personalizzato CLOC. I dataset esistenti in precedenza erano solitamente costruiti per scopi specifici, come cellule tumorali o immagini satellitari. CLOC unisce diversi tipi di dati, pulendo e normalizzando i dati per ottenere una risorsa più completa.

I dati CLOC comprendono 220.000 immagini

619 categorie

Più di 15 milioni di oggetti etichettati

Coprono sei domini: foto quotidiane, immagini satellitari, immagini microscopiche, analisi istopatologiche, immagini agricole (come ghiande di frumento) e foto di colture batteriche

Prestazione competitiva su benchmark personalizzato

Nei test interni, Count Anything ha dimostrato una significativa vantaggio rispetto a concorrenti come CountGD, CLIP-Count, e Grounding DINO. In media, il modello effettua un conteggio errato di circa nove oggetti per categoria interrogata in un'immagine, mentre i migliori modelli concorrenti hanno un errore pari al doppio. Nel conteggio delle persone, Count Anything rimane competitivo, ma non supera i migliori modelli specializzati.

Contabilizzare qualsiasi cosa si posiziona costantemente più vicino al numero effettivo degli oggetti rispetto a CLIP-Count, CountGD++ e SAM3 in tutte le query testate.

Limiti e sfide aperte

I ricercatori riconoscono che il modello presenta ancora alcuni limiti. Quando un termine è ambiguo o altamente specializzato, Count Anything può mancare alcuni oggetti o catalogarli erroneamente. Nei paesaggi estremamente densi con alta occlusione, inoltre, diventa difficile riconoscere se due previsioni corrispondano a due oggetti distinti o a uno solo.

La disponibilità del codice e altre iniziative

Il codice sorgente del modello è attualmente

disponibile su GitHub

per un utilizzo e sviluppo da parte di terzi. Un esempio recente che mostra le difficoltà degli attuali modelli AI su compiti visivi di base è il benchmark BabyVision. Nei test effettuati con 80 bambini, quasi tutti i modelli di frontiera hanno ottenuto punteggi inferiori all’età media di tre anni. Modelli come Gemini 3 Pro hanno raggiunto appena il 50 percento, mentre gli adulti hanno superato il 94 percento. Il divario è stato particolarmente evidente nell’analisi di blocchi 3D parzialmente nascosti, dove il miglior modello ha raggiunto appena il 20,5 percento. Gli umani, invece, hanno risolto il compito senza errori.

Ecco dove trovare ulteriori informazioni

Il codice GitHub per Count Anything

Il dataset CLOC

Il benchmark BabyVision

I dettagli completi degli esperimenti su Arxiv