Che Cos'è LifeSciBench
LifeSciBench contiene 750 compiti scritti da esperti, che coprono sette workflow e sette domini biologici. Ogni compito include un prompt, materiali di supporto e un rubrica di valutazione.
I sette workflow coprono la gestione e l'analisi della prova scientifica, il design, l'ottimizzazione, la validazione, le operazioni, la traduzione e la comunicazione scientifica.
I sette domini spaziano dalla genomica e chimica medica alla scienza clinica e traslazionale. I compiti vengono presentati nei modi in cui uno scienziato istruirebbe un collega, richiedendo risposte estese e non a risposta multipla. Circa il 79% dei compiti richiede più passaggi di ragionamento o decisionali, con una media di quattro passaggi ciascuno.
Come è stato Costruito il Benchmark
Gli esperti hanno contribuito con 173 autori, ognuno con Laurea in Biochimica o esperienza nel settore biotech. I compiti accettati hanno subito in media sei cicli automatizzati e almeno due revisioni esperte.
Più della metà dei compiti richiede almeno un oggetto di supporto, e il benchmark include in totale 1.062 oggetti. Quest'ultimo include sequenze, tavole, figure, PDF e struttured chimiche.
Gli esperti hanno verificato la qualità con 453 revisori, il 97% dei quali dotati di Dottorato. L'accordo generale supera il 96% in rilevanza, ragionamento, validità e utilità.
Il Sistema del Rubrica
Il sistema di rubrica è il meccanismo centrale. Essi contengono 19.020 criteri in tutto il benchmark, circa 25 criteri per compito. Ogni criterio premia una proprietà concreta. Gli esempi includono informazioni specifiche, un passo di ragionamento o un valore numerico all'interno di tolleranza.
Due indicatori riassumono le prestazioni. Il punteggio rubrica normalizzato esprime il rapporto tra i punti guadagnati e il totale. Il tasso di superamento del compito considera i compiti con 70% o più.
Questi due indicatori sono importanti per interpretare. Una risposta può ottenere un credito parziale pur non superando il compito. La soglia di passaggio è rigorosa per design.
Logica della Valutazione
Ecco la logica di valutazione in puro Python:
def grade(rubrica, awarded_ids):
total = sum(c["pts"] for c in rubrica)
earned = sum(c["pts"] for c in rubrica if c["id"] in awarded_ids)
normalized = earned / total
passed = normalized >= 0.70
return normalized, passed
Le Prestazioni dei Modelli
OpenAI ha valutato cinque modelli in un setting a singola esecuzione. Ogni modello ha visto una volta il prompt e gli oggetti. L'accesso illimitato a internet era consentito.
- GPT-Rosalind: punteggio normalizzato 0.576; tasso di superamento del compito 36.1%
- GPT-5.5: punteggio normalizzato 0.519; tasso di superamento del compito 25.7%
- Gemini 3.1 Pro: punteggio normalizzato 0.515; tasso di superamento del compito 23.6%
- GPT-5.4: punteggio normalizzato 0.479; tasso di superamento del compito 20.7%
- Grok 4.3: punteggio normalizzato 0.399; tasso di superamento del compito 13.0%
Dove i Modelli Si Impappinano
Gli agenti Ai fanno meglio in giudizi strutturati. GPT-Rosalind ha registrato un punteggio medio del 0.712 in traduzione e un punteggio in comunicazione scientifica del 0.718, sebbene questa ultima area sia piccola, e quindi va interpretata con cautela.
Ci sono due aree che rimangono complesse. Il design, ottimizzazione e previsione sono state tra le più difficili, con GPT-Rosalind che riesce a superarne solo il 30.7%. L'analisi è appena dietro con il 30.3%.
L'uso di oggetti è stato un collo di bottiglia. GPT-Rosalind passa da un punteggio del 45.1% su compiti solo testo a un 28.1% quando si usano gli oggetti. GPT-5.5 segue lo stesso modello, passando da 29.9% a 21.9%.
Risultare esatti è stato più difficile di tutti. La successo sui criteri delle sequenze e strutturale va da 46.9% a 18.0% a seconda del modello. Il guadagno di GPT-Rosalind su GPT-5.5 sui criteri generare/costruire è +0.001.
I modelli non riescono a completare i compiti. Per GPT-Rosalind, 109 compiti hanno guadagnato almeno il 50% del punteggio rubrica ma hanno ottenuto comunque meno del 20%.
Spazio e Limiti
- Spazio disponibile: nessun modello ha superato 171 compiti (22,8%)
- Alcuni hanno una percentuale di passaggio del modello migliore di meno del 20%: 261 compiti (34,8%)
- Il benchmark non copre ogni specialità scientifica
- OpenAI ha prodotto LifeSciBench e valutato la maggior parte dei modelli esaminati
- Liberare al pubblico potrebbe essere limitato da motivi di sicurezza e licenze
Che Cos'è il Grader Interattivo
Prova il Demo Grader Interattivo. Questo strumento mostra il funzionamento della valutazione rubrica in un compito reale. Puoi attivare i criteri che un modello "ha ottenuto" e osserverai in tempo reale il punteggio normalizzato e la soglia di passaggio.