Il nuovo modello KI "Count Anything" consente di contare e marcare, tramite immagini, oggetti in vari tipi di immagini come satelliti, immagini mediche od ordinarie. Si basa su un sistema che combina due approcci differenti: tracciare un cerchio intorno agli oggetti grandi e posizionare dei punti per quelli piccoli e concentrati, in modo da evitare sovrapposizioni e doppie contate.

Uno sguardo su "Count Anything"

"Count Anything" cerca di risolve il problema di contare oggetti di varie dimensioni, forme e tipi in immagini molto diverse tra loro. Questo modello è stato sviluppato per poter contare cose come teste in una folla, automobili in immagini satellitari, cellule in immagini mediche oppure colonie di batteri in laboratorio.

Il problema centrale rimane sempre lo stesso: sistemi KI attualmente non riescono a contare oggetti di dimensioni molto diverse nel medesimo contesto. Ad esempio, un sistema specializzato nel contare teste in una folla non funziona bene nell’analisi microscopica o in immagini aeree. "Count Anything" mira a risolvere questo problema grazie a un comando testuale, un segnalamento visivo e un’abilità versatile di gestione immagini.

Due contatori combinati insieme

Il modello si basa sull’unione di due metodi diversi. Uno specializzato in oggetti grandi e riconoscibili, dove vengono disegnati contorni; l’altro per piccoli oggetti e concentrati dove vengono posti dei punti visivi.

Questi due approcci sono poi fusi insieme per ottenere un’unica risposta. È implementata una regola semplice: se entrambi i contatori identificano lo stesso oggetto, si tiene la previsione con la maggiore sicurezza.

L'idea centrale utilizza un modello pre-addestrato di Meta, chiamato SAM3, che è in grado di analizzare sia testo che immagini con una struttura multimodale. "Count Anything" si basa su SAM3 aggiungendo nuovi componente ad hoc senza dover ricreare l’intero modello da zero.

Costruzione del dataset CLOC

La base per l’apprendimento del modello è data da un dataset unico chiamato CLOC.
CLOC è stato costruito unendo, filtrando e normalizzando dati esistenti.
Tale dataset ha lo scopo di coprire più campi applicativi e contesti.

Ciocca di immagini e ambiti coperti

Il dataset CLOC unisce svariati ambiti con immagini estremamente diverse. Questi includono:

Foto quotidiane;

Immagini satellitari e aeree;

Panorami di tessuti medici;

Microfotografie;

Foto agricole, ad esempio di grano;

Foto colture batteriche.

Il CLOC contiene circa 220.000 immagini distribuite su 619 categorie principali. La quantità di dettagli è elevatissima, con 15 milioni di oggetti marcati e tracciabili.

Test e confronto con competitor

Secondo i risultati del test condotto dai ricercatori, il modello "Count Anything" ha ottenuto risultati sensibilmente superiori a quelli di modelli concorrenti, come CountGD, CLIP-Count e Grounding DINO.

L’errore medio per categoria è inferiore di circa la metà rispetto al modello di riferimento. Nel caso specifico del conteggio dei membri di una folla, rimane competitivo ma non supera i modelli specializzati.

Tuttavia, i ricercatori ammettono che il sistema possa incorrere in errori in casi complessi come:

Moltiplicazioni di termini;

Brevi espressioni non comuni;

Scarse definizioni;

Situazioni sovradensate e sovrapposte, dove non è facile distinguere gli oggetti.

Il codice open source per realizzare il modello "Count Anything" è disponibile pubblicamente su GitHub.

Una prospettiva sperimentale: benchmarks

L’incapacità di alcuni modelli KI a gestire compiti semplici è stata evidenziata in recenti test. Il cosiddetto BabyVision-Benchmark ha mostrato che modelli avanzati come Gemini 3 Pro non hanno raggiunto performance vicine a quelle dei bambini di tre anni, fallendo in modo pesante sul conteggio tridimensionale di blocchi.

Questo evidenzia le debolezze fondamentali delle moderne IA quando si tratta di affrontare compiti visivi in contesti diversi.

Un’alternativa alle newsletter standard

I sostenitori di THE-DECODER hanno accesso ad articoli di intelligenza artificiale curati con attenzione, senza eccessi di Hype. I vantaggi includono:

Un abbonamento senza pubblicità;

La capacità di discutere in un sistema di commenti;

Accesso a newsletter regolari e in approfondimento;

Sconti su eventi dedicati;

Accesso completo all'archivio degli ultimi dieci anni.

Per ulteriori informazioni sull’algoritmo "Count Anything" è possibile visitare l’archivio Arxiv.