Che Cos'è LifeSciBench

LifeSciBench contiene 750 compiti scritti da esperti, che coprono sette workflow e sette domini biologici. Ogni compito include un prompt, materiali di supporto e un rubrica di valutazione.

I sette workflow coprono la gestione e l'analisi della prova scientifica, il design, l'ottimizzazione, la validazione, le operazioni, la traduzione e la comunicazione scientifica.

I sette domini spaziano dalla genomica e chimica medica alla scienza clinica e traslazionale. I compiti vengono presentati nei modi in cui uno scienziato istruirebbe un collega, richiedendo risposte estese e non a risposta multipla. Circa il 79% dei compiti richiede più passaggi di ragionamento o decisionali, con una media di quattro passaggi ciascuno.

Come è stato Costruito il Benchmark

Gli esperti hanno contribuito con 173 autori, ognuno con Laurea in Biochimica o esperienza nel settore biotech. I compiti accettati hanno subito in media sei cicli automatizzati e almeno due revisioni esperte.

Più della metà dei compiti richiede almeno un oggetto di supporto, e il benchmark include in totale 1.062 oggetti. Quest'ultimo include sequenze, tavole, figure, PDF e struttured chimiche.

Gli esperti hanno verificato la qualità con 453 revisori, il 97% dei quali dotati di Dottorato. L'accordo generale supera il 96% in rilevanza, ragionamento, validità e utilità.

Il Sistema del Rubrica

Il sistema di rubrica è il meccanismo centrale. Essi contengono 19.020 criteri in tutto il benchmark, circa 25 criteri per compito. Ogni criterio premia una proprietà concreta. Gli esempi includono informazioni specifiche, un passo di ragionamento o un valore numerico all'interno di tolleranza.

Due indicatori riassumono le prestazioni. Il punteggio rubrica normalizzato esprime il rapporto tra i punti guadagnati e il totale. Il tasso di superamento del compito considera i compiti con 70% o più.

Questi due indicatori sono importanti per interpretare. Una risposta può ottenere un credito parziale pur non superando il compito. La soglia di passaggio è rigorosa per design.

Logica della Valutazione

Ecco la logica di valutazione in puro Python:

def grade(rubrica, awarded_ids):

total = sum(c["pts"] for c in rubrica)

earned = sum(c["pts"] for c in rubrica if c["id"] in awarded_ids)

normalized = earned / total

passed = normalized >= 0.70

return normalized, passed

Le Prestazioni dei Modelli

OpenAI ha valutato cinque modelli in un setting a singola esecuzione. Ogni modello ha visto una volta il prompt e gli oggetti. L'accesso illimitato a internet era consentito.

    • GPT-Rosalind: punteggio normalizzato 0.576; tasso di superamento del compito 36.1%
    • GPT-5.5: punteggio normalizzato 0.519; tasso di superamento del compito 25.7%
    • Gemini 3.1 Pro: punteggio normalizzato 0.515; tasso di superamento del compito 23.6%
    • GPT-5.4: punteggio normalizzato 0.479; tasso di superamento del compito 20.7%
    • Grok 4.3: punteggio normalizzato 0.399; tasso di superamento del compito 13.0%

Dove i Modelli Si Impappinano

Gli agenti Ai fanno meglio in giudizi strutturati. GPT-Rosalind ha registrato un punteggio medio del 0.712 in traduzione e un punteggio in comunicazione scientifica del 0.718, sebbene questa ultima area sia piccola, e quindi va interpretata con cautela.

Ci sono due aree che rimangono complesse. Il design, ottimizzazione e previsione sono state tra le più difficili, con GPT-Rosalind che riesce a superarne solo il 30.7%. L'analisi è appena dietro con il 30.3%.

L'uso di oggetti è stato un collo di bottiglia. GPT-Rosalind passa da un punteggio del 45.1% su compiti solo testo a un 28.1% quando si usano gli oggetti. GPT-5.5 segue lo stesso modello, passando da 29.9% a 21.9%.

Risultare esatti è stato più difficile di tutti. La successo sui criteri delle sequenze e strutturale va da 46.9% a 18.0% a seconda del modello. Il guadagno di GPT-Rosalind su GPT-5.5 sui criteri generare/costruire è +0.001.

I modelli non riescono a completare i compiti. Per GPT-Rosalind, 109 compiti hanno guadagnato almeno il 50% del punteggio rubrica ma hanno ottenuto comunque meno del 20%.

Spazio e Limiti

    • Spazio disponibile: nessun modello ha superato 171 compiti (22,8%)
    • Alcuni hanno una percentuale di passaggio del modello migliore di meno del 20%: 261 compiti (34,8%)
    • Il benchmark non copre ogni specialità scientifica
    • OpenAI ha prodotto LifeSciBench e valutato la maggior parte dei modelli esaminati
    • Liberare al pubblico potrebbe essere limitato da motivi di sicurezza e licenze

Che Cos'è il Grader Interattivo

Prova il Demo Grader Interattivo. Questo strumento mostra il funzionamento della valutazione rubrica in un compito reale. Puoi attivare i criteri che un modello "ha ottenuto" e osserverai in tempo reale il punteggio normalizzato e la soglia di passaggio.