Una recente studio pubblicato su Nature Medicine ha confrontato sistemi di intelligenza artificiale medica specializzati, come OpenEvidence e UpToDate Expert AI, con i modelli linguistici di grandi dimensioni (LLM) di aziende leader in intelligenza artificiale, tra cui OpenAI, Google e Anthropic. Gli LLM, che vengono addestrati su grandi quantità di dati generali, si sono dimostrati chiaramente superiori in una serie di test medici.

Confronto tra KI specifiche per la medicina e LLM di grandi dimensioni

I sistemi KI medici specializzati vengono promossi per la loro capacità di rispondere a domande mediche complesse, grazie a un addestramento mirato su dati specifici di settore o l’utilizzo di tecniche come la generazione con rilevamento (Retrieval-Augmented Generation, RAG). Tuttavia, un team di ricerca del NYU Langone Health ha riferito che i grandi modelli linguistici di OpenAI, Google e Anthropic superano chiaramente questi strumenti specifici per il settore sanitario.

Studio pubblicato su Nature Medicine con tre diversi test medici

L’indagine, basata su tre test diversi, ha analizzato il rendimento di sistemi come OpenEvidence e UpToDate Expert AI rispetto agli strumenti di AI OpenAI, Google e Anthropic. I test includevano 500 domande in stile dell'esame di abilitazione medica statunitense (MedQA), 500 questionari in base ai criteri sanitari forniti da HealthBench e infine un confronto tra 100 domande anonime ricevute da utenti medici.

Queste 100 domande reali, utilizzate nel benchmark reale (Real-Clinical-Queries-Benchmark, o RCQ), sono state valutate da dodici professionisti medici, i quali hanno valutato le risposte in base a correttezza clinica, completezza, sicurezza e chiarezza sul livello compreso tra 1 e 4. Complessivamente sono state valutate 1800 risposte di modelli su domande specifiche.

LLM con migliori risultati su test di conoscenza medica

Nel benchmark classico per test di conoscenze mediche (MedQA), Gemini ha conseguito un'accuratezza del 97,4 %, seguito da GPT-5.2 al 94,2 % e Claude al 90,2 %. I sistemi medicali specifici OpenEvidence e UpToDate Expert AI hanno conseguito rispettivamente il 89,6 % e 88,4 %.

OpenEvidence: 89,6 % (MedQA)

UpToDate Expert AI: 88,4 % (MedQA)

GPT-5.2: 94,2 % (MedQA)

Gemini: 97,4 % (MedQA)

Claude: 90,2 % (MedQA)

Nel benchmark HealthBench, inoltre, gli LLM hanno conseguito risultati superiori. GPT-5.2 ha ottenuto 88,0 punti su 100, mentre Gemini ha totalizzato 79,3 punti e Claude 77,0 punti. Mentre OpenEvidence e UpToDate Expert AI sono rimasti significativamente indietro, rispettivamente con 62,6 e 61,3 punti.

Risultati positivi anche per risposte su richieste reali

I modelli linguistici generali hanno anche risposto meglio alle domande mediche reali in cui si richiedeva informazione pratica. Nel benchmark RCQ i modelli LLM hanno ottenuto una media di 3,62 su 4 punti per Gemini e 3,54 per GPT-5.2. Invece, i modelli specifici come OpenEvidence e UpToDate Expert AI hanno raggiunto rispettivamente 3,24 e 3,17 punti su 4. Google AI Overview, integrato con KI, ha ottenuto un punteggio medio di 3,27 punti, posizionandosi vicino ai modelli medici.

Contraddizione con i benefici attesi del modello specializzato

I risultati sembrano contraddire l’aspettativa generale che un modello medico addestrato specializzato si comporti meglio in domande mediche rispetto ai modelli generali. Secondo i ricercatori, i grandi modelli di intelligenza artificiale potrebbero beneficiare di un training su dati più ampi e di cicli di sviluppo più veloci, rendendoli in molti casi più adatti rispetto a un modello limitato a informazioni mediche specializzate.

Problemi di struttura, completezza e omissione

Le valutazioni da parte di medici non hanno portato a differenze statisticamente significative per quanto riguarda la sicurezza. Tuttavia, alcune annotazioni indicate da giudici medici hanno evidenziato una mancanza di completezza e omissioni di dati clinici nei modelli OpenEvidence e Google AI Overview. In particolare, OpenEvidence è stato spesso criticato per la sua struttura poco chiara o difficile da seguire.

UpToDate Expert AI ha inoltre rifiutato di rispondere ad una percentuale significativamente più alta di interrogativi. Nello specifico studio, il 19 percento delle richieste ha ricevuto un rifiuto da parte del sistema, rispetto al 1-3 percento registrato nei modelli LLM generali.

Perché non sempre la specializzazione paga

I ricercatori sottolineano che la struttura proprietaria dei modelli limita la capacità di comprendere le motivazioni precise per cui i modelli di intelligenza artificiale medica hanno svolto peggio. Un fattore possibile potrebbe essere che i modelli LLM più grandi, combinando una vasta conoscenza generale con argomentazione medica, riescono a produrre un risultato migliore. Tuttavia, lo studio sconsiglia di interpretarlo come un ranking assoluto di ogni approccio: sottolinea che settori molto specializzati, workflow locali complessi o modelli interni potrebbero produrre risultati differenti.

Riportare efficacia prima del mercato

I risultati dell’indagine potrebbero rappresentare un cambio di rotta importante nel settore sanitario e per la regolamentazione. I prodotti KI specializzati, promossi spesso con un'immagine istituzionale credibile, si sono rivelati inadeguati rispetto ai modelli generali di AI in compiti reali e specifici. I ricercatori propongono quindi di adottare valutazioni rigorose e indipendenti prima dell’introduzione massiva di sistemi KI nell'ambiente sanitario.

Conseguenze per scelta, rimborso e regolamentazione

Sono state evidenziare implicazioni significative per la descrizione, finanziamento e regolamentazione degli strumenti KI per la salute. L’importante, affermano gli autori, non è se un programma venga promosso come specializzato in salute, ma quanto possa risultare efficace da verifiche indipendenti su test realistici. I ricercatori propongono di applicare valutazioni rigorose prima di integrare nuovi strumenti di intelligenza artificiale nei processi sanitari.