Per il progresso di discipline come la biologia e la scienza applicata, l'evoluzione positiva di sistemi di intelligenza artificiale "agentic" è una potenziale svolta. Attualmente, però, questi sistemi non sempre rappresentano un valore aggiunto reale per ricercatori impegnati nel campo della salute e delle scienze biologiche. Si tratta di compiti complessi che richiamano interpretazione di prove incomplete, riconciliazione di risultati contraddittori, disegno di esperimenti impegnativi, risoluzione dei problemi legati alle analisi, valutazione del rischio di applicabilità e decisione su cosa fare dopo un’analisi incerta.

L’importanza di LifeSciBench

Per soddisfare la complessità di tali domini di ricerca, LifeSciBench si presenta come un sistema che va oltre i test tradizionali, proponendo una valutazione su larga scala per sperimentare la rispondenza delle capacità AI con le attese attuali nel settore farmaceutico e biotecnologico. Il benchmark mira a ridurre il divario tra valutazioni teoriche e pratiche in contesti reali che coinvolgono esperti con formazione avanzata.

Il LifeSciBench comprende 750 compiti esperti, che coprono sette flussi di lavoro e sette aree biologiche.

1062 artefatti scientifici
173 contributori di esperti
19020 criteri valutativi
453 revisori esperti

Quali capacità LifeSciBench misura

Il LifeSciBench non si limita a test di risposte su domande semplicistiche, ma valuta se un sistema AI può sostenere compiti realistici nel campo delle scienze della vita. Per definire una classificazione del benchmark, si è chiesto ai ricercatori in atto di indicare i loro workflow di vita quotidiana. Questi sono stati organizzati in sette categoria ricorrenti, come gestione di prove, analisi, progettazione, ragionamento scientifico, operazioni di validazione, valutazione di traducibilità e comunicazione scientifica.

Ogni task si struttura come un richiesta che un ricercatore potrebbe avanzare a un collaboratore competente: un prompt scientifico, contesti rilevanti e relativo artifatto, seguiti da una risposta aperta che va valutata con un criterio strutturato da esperti.

Costruzione del dataset

Costruito con un rigoroso insieme di criteri scientifici, LifeSciBench richiede al modello di risolvere problemi di ricerca realistici, interpretando le prove, prendendo giudizi basati sul dominio scientifico e comunicando conclusioni utili agli esperti. Ogni task può coinvolgere gestione di incertezze e dati esterni, non limitandosi alla sola domanda iniziale.

Complessità delle analisi

Il LifeSciBench è costruito per riflettere la complessità tipica del lavoro scientifico reale. Sino al 79% dei task richiede diversi passi di ragionamento o decisionale, con una media di 4 passi per task. Include 1062 artefatti, tra cui figure, PDF, tabelle, file sequenziali, strutturali e chimici. Più della metà dei task (53%) richiedono l’interpretazione o la sintesi di informazioni da almeno un artefatto.

I compiti sono stati creati da 173 esperti di scienze della vita con esperienza in aziende biotech e farmaceutiche, con formazione Ph.D. e ciclo aperto di revisioni, almeno due di esse realizzate con esperti riconosciuti. Questo processo garantisce che i task siano scientificamente validi, chiari e rappresentativi della ricerca applicata.

Grading e analisi delle risposte

Ogni compito richiede una valutazione con un rubric specifico che dettaglia la risposta in termini di affermazioni scientifiche, calcoli, giustificazioni, decisioni, ecc. Il LifeSciBench include 19020 criteri di valutazione (25 in media a task) che testano precisione scientifica e utilità decisionale.

Esempio di risposta

Linea guida:

Secondo l'analisi, questa suite presenterebbe elementi insufficienti per supportare l'approvazione accelerata di base sull'espressione micro-dystrophin come endpoint proxy clinicamente rilevante. Un revisore critico presso la FDA potrebbe considerare le prove, la funzionalità, la durabilità e la generalizzabilità del biomarcatore come non adeguatamente supportate.

Elementi problematici e soluzioni:

Quantificazione dell’impronta occidentale: L’assay non distingue chiaramente la proteina transgenica da quella residua, e non è corretto utilizzare un controllo di protodin normale per microdistanza. Soluzione proposta: utilizzare un standard microdistrofico e un metodo ortogonale per distinguere la proteina transgenica.
Immunofluorescenza: L'antibody C-terminale non è adatto poiché manca nel costrutto. Le fibre di revertoni possono influenzare il segnale. Soluzione: ripetere le analisi con un'antibody specifica delle sequenze microdistrofiche e differenziare clonalmente.
Validità come endpoint proxy: Confondere l’entità proteica con la funzionalità clinica è fuorviante. Soluzione: Validare empiricamente il legame tra microdistrofina e indicatori funzionali con misurazioni specifiche.
Diseño delle biopsie: La variabilità intramuscolare e la sostituzione fibro-fibrosa compromettono la normalizzazione. Soluzione: Standardizzare i siti anatomici e misurare paralleli i fattori di fibro-fibrosità.
Confronto statistico e comparabilità NSAA: I confronti non randomizzati con dati esterni non sono sufficienti per giustificazioni cliniche. Soluzione: Studi randomizzati di controllo placebo o analisi corrette per effetti di confusione.
Confondimento dell'età: Il periodo in cui si studia la malattia varia in relazione all’età e alla funzionalità. Osservazione: Occorre considerare l’età come fattore importante nello studio delle evoluzioni pre e post-trattamento.

Un'accurata griglia di valutazione e una comprensione approfondita del contesto consentono agli esperti di valutare se i modelli AI si avvicinano al livello operativo atteso da scienziati avanzati in biotecnologia. Questo sistema offre un'opportunità unica per migliorare le capacità di intelligenza artificiale nel supporto scientifico di alta importanza.