Oggi, annunciamo che il modello Pixtral Large 25.02 è ora disponibile su Amazon Bedrock come offerta completamente gestita e serverless. AWS è il primo grande provider di servizi cloud a fornire Pixtral Large come modello completamente gestito e serverless.

Lavorare con i modelli di fondazione (FM) di grandi dimensioni richiede spesso una significativa pianificazione dell'infrastruttura, competenze specializzate e un'ottimizzazione continua per gestire efficacemente le richieste computazionali. Molti clienti si trovano a gestire ambienti complessi o a dover scendere a compromessi tra prestazioni e costi quando implementano questi modelli sofisticati.

Il modello Pixtral Large, sviluppato da Mistral AI, rappresenta il loro primo modello multimodale che combina capacità di visione avanzate con una potente comprensione del linguaggio. Una finestra di contesto di 128K lo rende ideale per compiti complessi di ragionamento visivo. Il modello offre prestazioni eccezionali su benchmark chiave, inclusi MathVista, DocVQA e VQAv2, dimostrando la sua efficacia nell'analisi di documenti, nell'interpretazione di grafici e nella comprensione di immagini naturali.

Uno degli aspetti più potenti di Pixtral Large è la sua capacità multilingue. Il modello supporta decine di lingue tra cui inglese, francese, tedesco, spagnolo, italiano, cinese, giapponese, coreano, portoghese, olandese e polacco, rendendolo accessibile a team e applicazioni globali. È inoltre addestrato su oltre 80 linguaggi di programmazione, inclusi Python, Java, C, C++, JavaScript, Bash, Swift e Fortran, fornendo robuste capacità di generazione e interpretazione del codice.

Gli sviluppatori apprezzeranno il design del modello incentrato sugli agenti con funzionalità di chiamata di funzione integrate e formattazione dell'output JSON, che semplifica l'integrazione con i sistemi esistenti. La sua forte adesione al prompt di sistema migliora l'affidabilità quando si lavora con applicazioni di Retrieval Augmented Generation (RAG) e scenari con contesti ampi.

Con Pixtral Large su Amazon Bedrock, ora è possibile accedere a questo modello avanzato senza dover effettuare il provisioning o gestire alcuna infrastruttura. L'approccio serverless consente di scalare l'utilizzo in base alla domanda effettiva senza impegni anticipati o pianificazione della capacità. Si paga solo per ciò che si usa, senza risorse inattive.

Inferenza cross-region

Pixtral Large è ora disponibile su Amazon Bedrock in diverse regioni AWS tramite inferenza cross-region.

Con l'inferenza cross-region di Amazon Bedrock, è possibile accedere a un singolo FM in più regioni geografiche mantenendo alta disponibilità e bassa latenza per le applicazioni globali. Ad esempio, quando un modello viene distribuito sia nelle regioni europee che in quelle statunitensi, è possibile accedervi tramite endpoint API specifici per regione utilizzando prefissi distinti:

  • eu.model-id per le regioni europee
  • us.model-id per le regioni statunitensi

Questo approccio consente ad Amazon Bedrock di instradare le richieste di inferenza all'endpoint geograficamente più vicino, riducendo la latenza e contribuendo a soddisfare la conformità normativa mantenendo l'elaborazione dei dati all'interno dei confini geografici desiderati. Il sistema gestisce automaticamente l'instradamento del traffico e il bilanciamento del carico tra queste distribuzioni regionali, fornendo scalabilità e ridondanza senza soluzione di continuità senza richiedere di tenere traccia delle singole regioni in cui il modello è effettivamente distribuito.

Vederlo in azione

In qualità di developer advocate, esploro costantemente come le nostre nuove funzionalità possano risolvere problemi reali. Recentemente, ho avuto l'opportunità perfetta per testare le nuove capacità multimodali nell'API Amazon Bedrock Converse quando mia figlia mi ha chiesto aiuto per la preparazione dell'esame di fisica.

Lo scorso fine settimana, il mio tavolo della cucina era coperto di esami pratici pieni di diagrammi complessi, vettori di forza ed equazioni. Mia figlia faticava a concettualizzare come affrontare questi problemi. È stato allora che ho capito che questo era il caso d'uso perfetto per le capacità multimodali che avevamo appena lanciato. Ho scattato foto di un foglio di problemi particolarmente impegnativo contenente diversi grafici e notazioni matematiche, quindi ho utilizzato l'API Converse per creare una semplice applicazione in grado di analizzare le immagini. Insieme, abbiamo caricato i materiali dell'esame di fisica e abbiamo chiesto al modello di spiegare l'approccio alla soluzione.

Ciò che è successo dopo ha impressionato entrambi: il modello ha interpretato i diagrammi, ha riconosciuto la lingua francese e la notazione matematica e ha fornito una spiegazione passo-passo su come risolvere ogni problema. Mentre ponevamo domande di approfondimento su concetti specifici, il modello ha mantenuto il contesto per tutta la nostra conversazione, creando un'esperienza di tutoraggio che è sembrata notevolmente naturale.

Effet Doppler avec une Source Sonore en Rotation

Analyse du problème

Ce problème concerne l'effet Doppler produit par une source sonore en rotation. Une source émettant un son à 1500 Hz tourne sur une table tournante dans le sens antihoraire, et nous devons déterminer comment les fréquences sont perçues par un microphone fixe.

Concepts clés

L'effet Doppler se produit lorsqu'il y a un mouvement relatif entre une source sonore et un observateur. La fréquence perçue dépend de si la source se rapproche ou s'éloigne de l'observateur.

La formule de l'effet Doppler est:

  • Pour une source qui se rapproche: $f_{observée} = f_{source} \cdot \frac{v_{son}}{v_{son} - v_{source}}$
  • Pour une source qui s'éloigne: $f_{observée} = f_{source} \cdot \frac{v_{son}}{v_{son} + v_{source}}$

Solution étape par étape

Étape 1: Analyser le mouvement de la source

La source tourne sur un cercle et le microphone est fixe à 40 cm du centre de rotation. Aux différentes positions (a, b, c), la source a des vitesses radiales différentes par rapport au microphone:

  • Position a: La source se déplace perpendiculairement à la ligne source-microphone (vitesse radiale nulle)
  • Position b: La source s'éloigne du microphone (vitesse radiale positive)
  • Position c: La source se rapproche du microphone (vitesse radiale négative)
Étape 2: Déterminer l'effet sur les fréquences perçues
  • À la position a: Pas d'effet Doppler car la vitesse radiale est nulle, donc $f_a = f_{source} = 1500$ Hz
  • À la position b: La source s'éloigne, donc $f_b < f_{source}$, donc $f_b < 1500$ Hz
  • À la position c: La source se rapproche, donc $f_c > f_{source}$, donc $f_c > 1500$ Hz
Étape 3: Comparer les fréquences

D'après notre analyse:

  • $f_a = 1500$ Hz
  • $f_b < 1500$ Hz
  • $f_c > 1500$ Hz

Donc: $f_c > f_a > f_b$

Conclusion

La proposition correcte est: $f_c > f_a > f_b$

Cette réponse correspond à la troisième proposition dans l'énoncé. Lorsque la source tourne, la fréquence perçue est plus élevée quand la source se rapproche (position c), égale à la fréquence émise quand la source se déplace perpendiculairement (position a), et plus basse quand la source s'éloigne (position b).

Il modello utilizza la lingua della domanda per rispondere. Dopo un'attenta analisi, afferma che la risposta corretta è f_c > f_a > f_b (ed è giusta!).

La bellezza di questa interazione è stata la fluidità con cui l'API Converse ha gestito gli input multimodali. Come sviluppatore, non ho dovuto preoccuparmi della complessità di elaborare immagini insieme al testo; l'API ha gestito quella complessità e ha restituito risposte strutturate che la mia semplice applicazione poteva presentare direttamente a mia figlia.

Ecco il codice che ho scritto. Ho usato il linguaggio di programmazione Swift, solo per dimostrare che Python non è l'unica opzione che avete ?.

private let modelId = "us.mistral.pixtral-large-2502-v1:0"

// Define the system prompt that instructs Claude how to respond
let systemPrompt = """
You are a math and physics tutor. Your task is to:
1. Read and understand the math or physics problem in the image
2. Provide a clear, step-by-step solution to the problem
3. Briefly explain any relevant concepts used in solving the problem
4. Be precise and accurate in your calculations
5. Use mathematical notation when appropriate

Format your response with clear section headings and numbered steps.
"""
let system: BedrockRuntimeClientTypes.SystemContentBlock = .text(systemPrompt)

// Create the user message with text pr