La startup AI Decart ha lanciato Oasis 3, una versione aggiornata del suo modello di simulazione ambientale che consente di creare ambienti driving in tempo reale con dettagli fotografici, come esclusivamente riferito da TechCrunch. Il modello è già disponibile via API e rappresenta un'evoluzione del fondamento del prodotto Lucy, inizialmente utilizzato principalmente in e-commerce e dirette streaming.

Target e obiettivi di mercato

Decart si rivolge principalmente ad aziende che sviluppano veicoli autonomi, fornendo scenari rari e complessi da testare su larga scala. L’azienda però punta decisamente sugli sviluppatori, cercando di creare un ecosistema simile a quanto fatto in precedenza da OpenAI con i modelli linguistici.

«Questo sarà il primo modello utile su cui le persone riusciranno veramente a costruire», ha detto Dean Leitersdorf, co-fondatore e CEO di Decart. «Penso che emergerà una comunità di sviluppatori davvero forte sopra a questa base». Già oggi, Decart ha una community di oltre 100.000 sviluppatori, molti dei quali utilizzano video in tempo reale per scopi commerciali.

Fondamento tecnico e costi accessibili

Oasis 3 si basa sul DOS (Decart Optimization Stack), che permette ai modelli di funzionare in modo efficiente su hardware diversi come quelli di Nvidia, Amazon e Google. Questo rende i modelli più economici da usare rispetto ai concorrenti.

Per quanto concerne il prezzo, il costo è di 0,02 dollari al secondo per accesso API, mentre le tariffe per le grandi aziende dipendono dai diversi casi d’uso. «Grazie all'integrazione verticale, siamo molto più economici degli altri», ha sottolineato Leitersdorf.

Concetti concorrenti e contesto di mercato

Il mercato dei modelli ambientali è molto affollato, con avversari come Genie 3 di Google, Marble di World Labs, e startup video come Luma e Runway. Decart si distingue per l’accuratezza fotografica e la generazione infinita di scenari.

Cosa fa Oasis 3?

Il modello genera ambienti fisicamente corretti e dotati di diverse telecamere (una anteriore e due laterali) ideali per il training e i test di sistemi autonomi. Inoltre, permette agli sviluppatori di creare infiniti scenari, rispondendo alle esigenze dei produttori di veicoli autonomi.

Confrontandolo con competitor come Genie 3 o Marble, Oasis 3 offre ambienti fotorealistici molto superiori da un singolo prompt testuale e permette l’interazione per ore.

Problemi di coerenza ambientale

    • In alcune situazioni, l’ambiente perde la sua coerenza tematica
    • La fisica non viene sempre rispettata, con veicoli che attraversano altri veicoli
    • Il controllo dell’auto non è sempre responsivo

Leitersdorf ha riconosciuto che la coerenza è un problema da affrontare: «Siamo a lavoro per allungare la memoria del modello», ha detto, spiegando che i singoli fotogrammi generati sono molto complessi.

Architettura e ottimizzazione

Oasis 3 utilizza un approccio auto-riproduttivo, generando un frame alla volta e basandosi su quanto precedentemente generato per decidere cosa produrre in seguito. Questo rende la simulazione calcolisticamente intensa.

Decart sta lavorando per risolvere il problema del "ricordo breve" del modello: «Ogni fotogramma richiede circa 8.000 token, ma a 10 fotogrammi al secondo sono centinaia di migliaia. Stiamo esplorando modi per comprimere e allungare il numero di token memorizzabili», ha raccontato Leitersdorf.

Visione futura e sviluppo

Malgrado le sue attuali limitazioni, Leitersdorf sembra concentrarsi più sul potenziale di Oasis 3 quando messo a disposizione dei programmatori. «Ricordo gli inizi dei modelli linguistici. Ci siamo concentrati molto di più su cosa poteva emergere», ha detto.

Gli sviluppatori potrebbero iniziare a sperimentare con ambienti video invece che immagini in una versione futura del modello. «Se ci incontriamo tra tre mesi, potremmo vedere 100 sviluppatori con 100 applicazioni diverse», ha concluso.