Uno studio recente da Perplexity e Harvard presenta misurazioni concrete del lavoro svolto autonomamente da agenti di intelligenza artificiale. Il confronto si svolge tra due strumenti sviluppati da Perplexity: Search, un motore di risposte conversazionali, e Computer, un agente che pianifica ed esegue attività in modo autonomo. Lo studio, che copre un periodo di 90 giorni, offre una finestra di osservazione sull'efficacia pratica dell'IA come assistente autonomo.

Come è strutturata l'indagine

Lo studio confronta due interfacce dell'IA in uso per completare lo stesso tipo di compito. Per effettuare questa analisi, i ricercatori hanno trovato 10.000 paia di sessioni con una similarità superiore al 99%. Computer è stato utilizzato esclusivamente quando ha eseguito azioni "do"—come l'esecuzione di codice, interazioni browser, scrittura di file e chiamate a connettori esterni—garanzia di una lavorazione reale.

Criteri per misurazione

    • 90 giorni di raccolta dati, da febbraio a maggio del 2026
    • Paia di sessioni corrispondenti con una similarità elevata (cosine similarity > 0.99)
    • Tutte le sessioni di "Computer" hanno usato strumenti di esecuzione, garantendo autonomia operativa

Adozione crescente

Lo studio mostra che l’adozione di Computer è cresciuta costantemente. Le query totali su Computer sono aumentate di 84 volte rispetto a quelle della prima settimana di vita dell'applicazione. Inoltre, l’uso di Computer ha favorito l'aumento delle query giornaliere su Search del 5%, confermando che si tratta di strumenti complementari.

Analisi economica

Per valutare il rapporto costi/benefici, i ricercatori hanno adottato un modello di costo per task. La delega ad un agente comporta un costo fisso maggiore per iniziare, ma un costo per passo inferiore rispetto a un sistema conversazionale. Questo genera un punto di rottura: al di sopra di un certo numero di passi, l'agente diventa più remunerativo di un assistente umano con Search.

Esempio confronto costo:

    • COSTO PER STESSO: Computer $0.16 vs Search + umano $2.05
    • DURATA MEDIO-TASK: Computer + umano 36 minuti contro 269 minuti per Search + umano

Autonomia di lavoro

Computer è in grado di autonomamente svolgere 26 minuti di lavoro per sessione, rispetto ai 33 secondi di Search. Questo rappresenta una differenza di 48 volte in termini mediani, con una variazione significativa per settore. Per ad esempio, in settori scientifici o con risposte semplici, la differenza si riduce a 26 volte.

Qualità del lavoro

La qualità non è diminuita con l’aumento dell'autonomia: per Computer, la percentuale di dissoddisfazione significativa è pari al 1.3%, rispetto al 2.9% di Search. Questo dimostra che la maggior autonomia non è passata a scapito della precisione o della soddisfazione dell’utente.

Efficienza e risparmi

Usando Computer, il tempo medio per completare un compito scende da 269 minuti per Search + umano a 36 minuti per Computer + umano: un risparmio di 87%. Inoltre, il risparmio economico totale è dello 94%. Il costo medio per passo con Computer scende al 7.4% rispetto alla combinazione Search + umano.

Tempo risparmiato per diversi settori:

    • Sector locale: 75× di risparmio
    • Science: 26× di risparmio

Tempo per completare un passo:

I dati indicano che, per essere competitivo con Computer, un operatore umano dovrebbe completare tutti i passaggi manuali in meno di 20 minuti.

Panoramica sull’espansione

Computer non solo migliora il tempo di esecuzione, ma estende anche il tipo di compiti che i lavoratori tentano di svolgere. I query cross-occupationali aumentano da 50% a 59%. In settori specializzati come Management, la variazione raggiunge il 9%. Le task richieste sono anche più complesse.

Caratteristiche del contenuto:

    • 76% delle query di Computer coinvolge alta cognizione (vs 55% per Search)
    • 50% delle domande richiedono creatività (vs 26%)
    • Computer utilizza 2.40 domini di conoscenza O*NET per sessione (contro 1.74 di Search)

Potenziale di composizione

Computer permette una maggiore integrazione di strumenti esistenti. Il 23% delle query include operazioni non mai inviate a Search. Al livello di attività specifica (Task Statement), Computer coinvolge una 60% di attività in più.

Tabelle comparative

Dimensione Perplexity Search Perplexity Computer
Tipo di interfaccia Engine conversazionale Orchestrazione di agenti
Tempo di elaborazione per sessione 33 secondi (mediano 14s) 26 minuti (mediano 9m)
Rate di insoddisfazione significativo 2.9% 1.3%
Usa un connettore 1.8% 7.9%
Costo per task $0.05 $4–10
Condivisione cross-occupazionale 50% 59%
Conoscenze necessarie 1.74 (O*NET) 2.40 (O*NET)

Conclusioni

Lo studio di Perplexity e Harvard dimostra che gli agenti autonomi svolgono in modo sostenibile e di alta qualità compiti complessi e diversificati, risparmiando tempo, costi, e offrendo una maggiore soddisfazione. La tendenza verso un'adozione crescente di agenti indica una chiara complementarità con gli strumenti tradizionali. In molti casi, gli agenti si comportano come estensioni delle capacità umane e permettono di esplorare nuove e più complesse tipologie di attività.