Un agente ha creato una galleria 3D di Parigi con solo il supporto di due Hugging Face Spaces. L'autore dell'articolo ha chiesto all'agente di costruire un sito web attraente che mostri i monumenti parigini come splat 3D. Nessun generatore di immagini è stato utilizzato, né alcun strumento per la ricostruzione tridimensionale. Tutti gli asset (immagini e splat 3D) sono stati prodotti dall’agente chiamando direttamente due Hugging Face Spaces e poi integrati in un viewer cinematografico.

Gli elementi fondamentali: l'economia dei blocchi costruttivi

Recentemente, Mitchell Hashimoto ha espresso un’idea che definisce l’"economia dei blocchi costruttivi". Secondo lui, il percorso più efficace per creare software non è più sviluppare un monolite polacco, ma assemblare piccoli componenti ben documentati che altri, o agenti automatici, possono utilizzare. La chiave del suo approccio è osservare che se l’intelligenza artificiale è brava a costruire da zero, eccelle ancora di più nel collegare componenti provati.

Finora questa teoria si è applicata soprattutto alle librerie di codice, ma gli stessi principi si applicano anche all’AI multimediale. Il problema non è tanto creare modelli avanzati, come di immagini, video, sintesi vocale o ricostruzione 3D, ma integrarli. SDK, pesi modelli, GPU, formati di input e polling sono stati tradizionalmente complicati. Tuttavia, se ciascuno di questi elementi fosse un blocco chiaramente chiamabile, un agente li potrebbe collegare facilmente, esattamente come farà con le librerie JavaScript come npm.

I blocchi di Hugging Face Spaces

Precisamente quest’approccio è emerso con Hugging Face Spaces. Il loro Hub ospita migliaia di modelli avanzati, molti dei quali con pesi aperti e distribuiti in forma interattiva per gli utenti. A partire da ora, ogni Space costruito con Gradio espone anche un file agents.md che spiega esattamente a un agente come utilizzarlo. Include la schema URL, i modelli per la chiamata e la poll, le informazioni per caricare file e gli hint per l'autenticazione.

Non richiede una libreria client né un'interfaccia codificata in anticipo. Un agente legge il file e lo gestisce end-to-end. Basta impostare un token HF e si va. Non importa se il modello in uso è avanzato; il punto cruciale è il collegamento. Il vero sviluppo sta nel concatenare il flusso: un prompigenera un’immagine, l’immagine genera un’output 3D. Questo è il processo dietro a questa galleria.

Il lavoro dell'agente: dal rendering al deployment

L’agente ha prodotto sei immagini isolate su fondo nero, adatte a una ricostruzione 3D da singola immagine. Ha eseguito il lavoro "collante" anche lui, notando che gli output TripoSplat presentavano una prospettiva Y-down. Ha ribaltato i monumenti, li ha auto-ritagliati, ha compresso i file .ply in .ksplat (3 volte più piccoli e quindi più veloci da caricare), ha creato un viewer Three.js con un'interfaccia di scrolling per passare gli elementi e interazione con il mouse, e infine ha caricato l’intera gallery come uno spazio statico.

L’unica input umana è stata del tipo estetico: "ingrandiscilo", "sostituisci l’obelisco con qualcosa più adatto per il rendering", "lo switch tra immagini è troppo lento". In diverse occasioni, l’agente ha reagito a limiti reali, come il fatto che un tetto di vetro ampio rendesse il processo di splat poco efficace o che un’obelisco sottile risultasse poco interessante.

Costruire i propri spazi con agenti

Qualsiasi agente dotato di un token HF può esplorare il file agents.md di uno spazio e avviare l'elaborazione. Gli sviluppatori possono semplicemente incollare uno degli URL nei loro agenti di coding (Claude Code, etc.) e richiedere la costruzione di un progetto. Il pipeline completo per questa galleria, insieme agli script che chiamano i due endpoint agents.md, è ora ospitato nel repository dello spazio.

I blocchi costruttivi esistono già sull’Hub di Hugging Face. Gli agenti hanno già le capacità per connetterli. Questa combinazione mostra un futuro dove l’AI collabora con gli utenti, gestendo attività che in passato richiedevano competenze specifiche, permettendo iterazioni rapide e sperimentazioni creative di alta qualità.