Il Google Research team ha annunciato il lancio di Gemini-SQL2, una innovativa capacità di conversione testo-SQL, alimentata dal modello Gemini 3.1 Pro. Secondo Google, il sistema ha raggiunto un livello di accuratezza dell’esecuzione dell’80,04% nel BIRD Text-to-SQL Leaderboard (Single Model), superando il precedente modello Gemini-SQL e molti altri concorrenti.

Cos’è Gemini-SQL2

Gemini-SQL2 non è un modello fondamentale autonomo, ma una capacità integrata che converte domande naturali in query SQL eseguibili. Google chiama queste query “SQL execution-ready”, sottolineando che vengono generate in modo da poter essere eseguite correttamente sui database esistenti. Il modello è costruito sull’architettura Gemini 3.1 Pro e mira a migliorare notevolmente la capacità di creare query SQL complesse.

Più precisamente, Google ha dichiarato che "le complessità dei dati e il contesto aziendale rendono estremamente difficile generare SQL corretto da un linguaggio naturale." I benefici principali includono il miglioramento delle competenze SQL all'interno delle suite di dati Google come BigQuery Studio, AlloyDB AI e Cloud SQL Studio, che già offrono funzioni di generazione SQL basate su Gemini.

Per chiarire, Google non ha confermato ufficialmente quali di questi prodotti riceveranno Gemini-SQL2, ma sembra chiaro che l’integrazione è un obiettivo centrale del roadmap del modello.

Ottimizzazione per benchmark BIRD

Il benchmark BIRD (BIg Bench for LaRge-scale Database Grounded Text-to-SQL Evaluation) è uno standard ampiamente riconosciuto per valutare l'accuratezza delle query SQL generate su domande elaborate in linguaggio naturale. Questo benchmark contiene 12.751 coppie di domande e query SQL, distribuite su 95 database che coprono 37 settori professionali, per un totale di 33,4 GB di dati. A differenza di benchmarks precedenti come Spider, i database BIRD contengono valori non elaborati e richiedono una comprensione esterna per generare query eseguibili correttamente.

BIRD misura l’accuratezza dell’esecuzione (Execution Accuracy, EX): non basta che la query sembri corretta, deve poter eseguire e produrre risultati esatti come i benchmark. Google ha ribadito che "secondo il benchmark BIRD, l’S-SQL di Gemini-SQL2 non solo sembra corretto, ma esegue con successo"

Classifica dei modelli

Sulla classifica BIRD, Gemini-SQL2 è attualmente al primo posto, seguito da Gemini-SQL (77,2%) e da altri modelli di aziende tecnologiche come AWS, Snowflake, Alibaba e OpenAI. La seguente tabella riassume le principali metriche e le stime per i modelli più significativi:

Gemini-SQL2 (Google) - 80,04% - Giugno 2026

Gemini-SQL (Google) - ~77,2% - Marzo 2026

Databricks RLVR 32B (Databricks) - ~75,7% - Luglio 2025

SiriusAI-Text2SQL-32B-v2 (Tencent) - ~75,00% - Dicembre 2025

Arctic-Text2SQL-R1-32B (Snowflake) - ~73,9% - Giugno 2025

GPT-5.5-xhigh (OpenAI) - ~72,5% - Aprile 2026

SQLWeaver-32B (Alibaba) - ~71,7% - Maggio 2026

Claude Opus 4.6 (Anthropic) - ~70,1% - Febbraio 2026

AWS Q-SQL - ~76,5% - Dicembre 2025

Si noti che Google occupa le prime due posizioni con i suoi modelli, segno di una crescita significativa. Inoltre, diverse soluzioni specifiche per SQL con 32B di parametri si collocano sopra alcuni modelli generici, mostrando come le specializzazioni stiano emergendo come un vantaggio nella capacità di gestire complessità SQL.

Casi d’uso e vantaggi pratici

Va ricordato che le applicazioni di Gemini-SQL2 non sono solo ristrette al benchmarking, ma mirano a essere utili in diversi ambiti aziendali:

1. Analisi di auto-servizio

Esempio: Un responsabile del ricavo chiede il ricavo mensile ricorrente per regione per conti che hanno abbandonato entro 90 giorni dal rinnovo. Questo richiede operazioni di join, logica finestra, calcolo date e richiede che la generazione SQL restituisca risultati esatti.

2. Drafting in ingegneria dati

i sviluppatori possono creare trasformazioni BigQuery basate su linguaggio inglese e controllarle, piuttosto che scriverle ex novo. Google ha riscontrato che la comprensione dello schema è la parte più difficile: punteggi più alti su BIRD riflettono una migliore capacità di gestire colonne ambigue e valori non elaborati.

3. Integrazione “ask your data”

Gli sviluppatori SaaS che integrano funzionalità di interrogazione tramite linguaggio naturale possono beneficiarne. Tuttavia, a 80% di accuratezza, un utente su cinque potrebbe trovare risultati errati. Il punteggio dà un’idea delle prestazioni, ma non elimina la necessità di revisione manuale.

Dati sulle ricezione comunitaria

Il lancio di Gemini-SQL2 ha riscosso apprezzamenti e partecipazione nel settore tecnologico:

Engagement su X

Visualizzazioni: 144.4mila

Likes: 2.800

Condivisioni: 267

Preferiti: 1.300

Risposte: 64

Tasso di coinvolgimento: 3,1%

Engagement su LinkedIn

Reazioni: 349+

Commenti: 12

Condivisioni: 27

Il rapporto tra salvataggi e risposte mostra un alto livello di apprezzamento da parte del pubblico. Il commento generale sembra positivo, anche se il sentiment esatto non è stato completamente analizzato a causa del carico ridotto di commenti.

Implementazione e sviluppo

Fino ad oggi, Google non ha rilasciato un SDK specifico per Gemini-SQL2 né una sua stringa di modello. Per utilizzarlo, gli sviluppatori devono utilizzare l’attuale piattaforma Google GenAI SDK e sperimentare con le modifiche necessarie. L’esempio riportato include una struttura di base per la connessione API con lo