Amazon ha recentemente svelato Amazon Nova, una serie rivoluzionaria di modelli di base (foundation model) che promettono di rimodellare il panorama dell'intelligenza artificiale generativa. Questi modelli avanzati sono stati specificamente concepiti per l'elaborazione simultanea di testo, immagini e video, offrendo ai clienti l'opportunità di sfruttare applicazioni di AI generativa per comprendere e creare contenuti multimediali complessi con una facilità e un'efficacia senza precedenti. Questa innovazione è destinata a trasformare radicalmente il modo in cui le aziende utilizzano l'AI, non solo per la creazione di contenuti ma anche per processi decisionali strategici, il tutto supportato da una piattaforma integrata e intrinsecamente sicura.

L'obiettivo primario dei modelli Nova, come evidenziato da Rohit Prasad, SVP di Amazon Artificial General Intelligence, è quello di affrontare e superare le sfide persistenti che i costruttori di applicazioni, sia interni che esterni all'ecosistema Amazon, incontrano regolarmente. Questi modelli sono stati ingegnerizzati per fornire un'intelligenza convincente e capacità di generazione di contenuti eccezionali, garantendo al contempo notevoli progressi in termini di riduzione della latenza, ottimizzazione dell'efficienza dei costi, potenziamento della personalizzazione, miglioramento della fondazione delle informazioni e incremento delle capacità agenziali.

Amazon vanta già un ecosistema di AI generativa (Gen AI) molto robusto e diversificato. Questo spazia dai chip personalizzati, come Inferentia e Trainium, che sono alla base dell'infrastruttura di calcolo per l'AI, all'offerta di un'ampia gamma dei migliori modelli di base tramite Amazon Bedrock, una piattaforma di riferimento nel settore. L'impegno di Amazon nell'AI si estende anche a esperienze basate sull'AI che sono ormai parte integrante della vita quotidiana di milioni di persone, come Rufus e l'assistente vocale Alexa. I modelli Nova rappresentano l'ultima e significativa evoluzione in questo percorso, consolidando la leadership di Amazon nel settore.

In termini più tecnici, Amazon Nova è una vera e propria nuova generazione di modelli di base multimodali. La sua caratteristica distintiva risiede nella capacità di elaborare non solo testo, ma anche immagini e video come input (prompt). Questo significa che le applicazioni di AI generativa alimentate da Amazon Nova possono essere utilizzate per un'ampia varietà di scopi, tra cui la comprensione approfondita di video complessi, l'interpretazione di grafici e l'analisi di documenti, oltre alla generazione di video e altri contenuti multimediali altamente realistici e personalizzati.

Rohit Prasad ha ulteriormente chiarito la visione alla base di questa innovazione, affermando: "All'interno di Amazon abbiamo circa mille applicazioni di AI generativa in funzione e abbiamo avuto una visione d'insieme di ciò che i costruttori di applicazioni stanno ancora affrontando. I nostri nuovi modelli Amazon Nova sono destinati ad aiutare a risolvere queste sfide per i costruttori interni ed esterni, e forniscono un'intelligenza e una generazione di contenuti convincenti, offrendo al contempo progressi significativi in termini di latenza, efficienza dei costi, personalizzazione, fondamento delle informazioni e capacità agenziali".

i modelli amazon nova disponibili in amazon bedrock

I nuovi modelli Amazon Nova sono integrati e disponibili attraverso Amazon Bedrock, un servizio completamente gestito che rende accessibili modelli di base ad alte prestazioni sia di aziende leader nel settore dell'intelligenza artificiale che di Amazon stessa, il tutto tramite un'unica e intuitiva API. Attualmente, i modelli Amazon Nova disponibili in Amazon Bedrock includono:

  • Amazon Nova Micro
  • Amazon Nova Lite
  • Amazon Nova Pro

Utilizzando Amazon Bedrock, i clienti hanno la possibilità di sperimentare e valutare con facilità i modelli Nova, così come altri modelli di base, per identificare quello più adatto alle esigenze specifiche di una determinata applicazione. Questa flessibilità permette agli sviluppatori di trovare la soluzione ottimale per le loro esigenze, garantendo prestazioni elevate e risultati accurati.

caratteristiche e vantaggi principali dei modelli nova

Tutti i modelli Amazon Nova sono stati progettati con un'attenzione particolare alla facilità d'uso e all'integrazione con i sistemi e i dati esistenti dei clienti. Supportano un'ampia gamma di attività, operando in oltre 200 lingue e attraverso diverse modalità, rendendoli estremamente versatili. Un vantaggio economico significativo è rappresentato dal costo: Amazon Nova Micro, Nova Lite e Nova Pro costano almeno il 75% in meno rispetto ai modelli più performanti delle rispettive classi di intelligenza disponibili su Amazon Bedrock. Non solo sono più convenienti, ma sono anche i modelli più veloci nelle rispettive classi di intelligenza sulla piattaforma, garantendo prestazioni elevate a costi ridotti.

Oltre ai benefici in termini di costo ed efficienza, i modelli Nova offrono robuste funzionalità di personalizzazione avanzate. Supportano la messa a punto personalizzata (fine-tuning), che permette ai clienti di addestrare i modelli su esempi specifici presenti nei loro dati proprietari, accuratamente etichettati per aumentare la precisione. Il modello Amazon Nova impara ciò che è più rilevante per il cliente dai suoi dati – inclusi testi, immagini e video – e successivamente Amazon Bedrock addestra un modello privato di fine-tuning che è in grado di fornire risposte su misura e altamente pertinenti.

Un'altra caratteristica all'avanguardia è il supporto per la distillazione. Questa tecnica consente di trasferire conoscenze specifiche da un "modello insegnante" più grande e altamente capace a un modello più piccolo ed efficiente. Il risultato è un modello "studente" che, pur essendo più compatto, mantiene un'elevata accuratezza, ed è anche più veloce ed economico da eseguire, ottimizzando così l'utilizzo delle risorse computazionali.

I modelli Nova sono inoltre profondamente integrati con le basi di conoscenza di Amazon Bedrock ed eccellono nella Retrieval Augmented Generation (RAG). Questa funzionalità permette ai clienti di garantire la massima precisione e pertinenza delle risposte basandole sui dati specifici dell'organizzazione, riducendo significativamente il rischio di "allucinazioni" e migliorando l'affidabilità dell'output generato dall'AI.

I modelli Nova sono stati meticolosamente ottimizzati per essere facilmente utilizzabili ed efficaci nelle applicazioni agenziali. Queste applicazioni richiedono la capacità di interagire con i sistemi e i dati proprietari di un'organizzazione attraverso molteplici API, al fine di eseguire attività complesse e multifase. Questa capacità di operare in modo autonomo e coordinato su diverse piattaforme rappresenta un passo avanti significativo nell'automazione intelligente.

impatto nel mondo reale: amazon ads e creatività pubblicitaria

Grazie all'eccezionale qualità dell'output, alla piattaforma API intuitiva e alle avanzate opportunità di personalizzazione, i modelli di generazione creativa di Amazon Nova, specificamente Nova Canvas e Nova Reel, stanno già contribuendo in modo significativo ad aiutare Amazon Ads a rimuovere le barriere per venditori e inserzionisti. Questo sta portando a nuovi livelli di creatività e innovazione nel settore pubblicitario.

Tra le nuove possibilità offerte, si annovera l'utilizzo della pubblicità video per la prima volta per molti marchi, la creazione di campagne display e video per un numero maggiore di prodotti del catalogo e la sperimentazione di nuove strategie come la creatività a livello di parole chiave. I risultati sono tangibili: in media, i marchi che utilizzano questi strumenti pubblicizzano un numero di prodotti cinque volte superiore e un numero doppio di immagini per prodotto pubblicizzato, spostando i budget verso le strategie che producono i risultati migliori.

esempi concreti di utilizzo

Un esempio calzante delle capacità di Nova Reel è stato dimostrato con la creazione di un video pubblicitario per un marchio fittizio di pasta in scatola. Nello spot, ambientato in una stravagante "Città della pasta", gli edifici sono scolpiti in tubi di cannelloni, il quartiere è cosparso di spezie italiane e le strade sono costeggiate da saporita salsa marinara, fusilli e tenere polpette. Questo spot illustra vividamente come gli inserzionisti possano dare vita ai loro prodotti e creare contenuti di alta qualità e visivamente accattivanti utilizzando i modelli di Amazon Nova, trasformando idee creative in realtà.

Per mettere alla prova le capacità di comprensione dei video di Amazon Nova Pro, è stato chiesto al modello di esaminare e descrivere un breve filmato muto di una partita di calcio. I risultati ottenuti sono stati sorprendentemente dettagliati, includendo descrizioni accurate sull'ambientazione della partita, sulle uniformi delle squadre, sulle azioni specifiche compiute dai giocatori e sul modo in cui l'azione culmina. Il risultato fornito dal modello è stato il seguente:

“Il video mostra una partita di calcio in corso su un campo verde. I giocatori di due squadre, una in divisa gialla e l'altra bianca, sono impegnati in un'azione di gioco. Il quarterback della squadra gialla lancia un passaggio a un ricevitore, che prende la palla e inizia a correre lungo il campo. I difensori della squadra bianca lo inseguono, cercando di placcarlo. L'azione culmina con un placcaggio che fa cadere il ricevitore sul campo.”

Questa capacità di comprensione visiva non si limita alla descrizione, ma può anche essere sfruttata per aiutare i clienti a generare ulteriore materiale creativo. Ad esempio, Amazon Nova Pro è in grado di suggerire diverse didascalie per i social media per lo stesso video della partita di calcio, adattandole a contesti e toni differenti, ampliando così le possibilità di engagement.

performance e benchmark

I modelli Amazon Nova sono stati sottoposti a rigorosi test con un'ampia gamma di benchmark standard del settore per valutarne le prestazioni e l'accuratezza. I risultati dimostrano che Amazon Nova Micro, Nova Lite e Nova Pro hanno ottenuto punteggi estremamente competitivi rispetto ai migliori modelli delle rispettive categorie, confermando la loro eccellenza.

Nello specifico, oltre a garantire un'elevata accuratezza nei benchmark testuali, Amazon Nova Lite si distingue notevolmente nella comprensione di video, grafici e documenti, come misurato da benchmark quali VATEX, ChartQA e DocVQA. Inoltre, Nova Lite eccelle nei flussi di lavoro agenziali, evidenziato dalla sua performance nella chiamata di funzioni, misurata dalla Berkeley Function Calling Leaderboard, e nelle capacità fondamentali di comprensione degli elementi visivi per l'esecuzione di azioni su browser e schermi di computer, misurate da VisualWebBench (un benchmark per la messa a terra di azioni su browser web) e Mind2Web (un benchmark generalista per agenti multimodali).

Per quanto riguarda Amazon Nova Pro, le sue prestazioni sono state eccezionali: ha ottenuto risultati uguali o migliori su 17 dei 20 benchmark rispetto a GPT-4o di OpenAI, uguali o migliori su 16 dei 21 benchmark rispetto a Gemini 1.5 Pro di Google e uguali o migliori su 9 dei 20 benchmark rispetto ad Anthropic Claude Sonnet 3.5v2. Oltre all'accuratezza nei benchmark di testo e intelligenza visiva, Amazon Nova Pro eccelle nel seguire le istruzioni e nei flussi di lavoro agenziali multimodali, come misurato dal Comprehensive RAG Benchmark (CRAG), dalla Berkeley Function Calling Leaderboard e da Mind2Web. Questi dati sottolineano la superiorità e la versatilità di Nova Pro in un'ampia gamma di compiti complessi.

Infine, un aspetto cruciale per l'adozione globale è il supporto linguistico. Amazon Nova Micro, Lite e Pro supportano oltre 200 lingue, garantendo una portata internazionale e la capacità di operare efficacemente in contesti multilingue. La capacità di Nova Micro di supportare una lunghezza specifica (sebbene la frase originale sia troncata, si può dedurre che si riferisca alla lunghezza del contesto supportato) contribuisce ulteriormente alla sua flessibilità.