Microsoft ha attirato l’attenzione per l'utilizzo di dati web non autorizzati nell'allenamento dei suoi nuovi modelli di intelligenza artificiale, andando contro le sue stesse promesse. Il colosso tecnologico aveva precedentemente sostenuto che i suoi modelli Allenaiati, come gli ultimi del portafoglio MAI, fossero allenati esclusivamente utilizzando dati commerciali e di alta qualità, rilevati e licenziati in modo etico.

Ciò che è emerso da un recente paper di Microsoft, però, svela l’utilizzo del Common Crawl Data Set, una raccolta di dati derivanti da un web scraping di massa. Simon Willison, esperto in tecnologie KI, ha osservato come Microsoft utilizzi in realtà una miscela di dati di qualità, come precedentemente dichiarato, e dati pubblicamente disponibili raccolti dal web. Questi ultimi non sono sempre soggetti a licenze esplicite.

Microsoft e l’uso dei dati del web

Microsoft, come molti altri sviluppatori di intelligenza artificiale, fa affidamento sul concetto di utilizzo equo per la raccolta di dati non licenziati. Il paper ufficiale sottolinea infatti l’utilizzo di una combinazione di dati "pubblicamente disponibili e liceatamente prodotti dagli esseri umani". Questo aspetto però è estremamente controverso, in quanto molti esperti e stakeholder sollevano preoccupazioni riguardo la privacy e la protezione digitale.

Sebbene Microsoft non rifiuti di rispettare procedure di esclusione dei crawler tramite il file "robots.txt", l'azienda sembra spostare su gli editori la responsabilità di proteggere i propri contenuti. Questa strategia è paragonabile all’idea che aprire una porta senza un chiavistello equivalga ad accettare un intrusione, per quanto il principio in sé non sembri sostenibile da un punto di vista legale o etico.

Controversie e dibattito legale

La questione del "fair use" non è limitata a Microsoft ma interessa l'intero settore delle tecnologie KI. L’uso illegittimo o discussa legittimazione del copyright di dati raccolti per l’addestramento KI è oggetto di molti dibattiti giudiziari in corso. Molti studiosi sottolineano come i crawler e l'estrazione a grande scala di dati non rientrino sempre nell'ambito legale o trasparente, soprattutto quando non vengono forniti accordi espliciti con i soggetti coinvolti.

Le grandi aziende KI, come Google, OpenAI o Anthropic, adottano spesso una politica simile.
I dati non protetti da robot.txt sono considerati aperti a crawler e analisi, ma ciò non garantisce che l’utilizzo sia etico.
Pare emergere chiaramente una contraddizione tra l’autoreferenziale immagine positiva di Microsoft e la realtà delle sue pratiche KI.
Le aziende sembrano spesso non offrire una chiara visione su come i vari dataset vengano assemblati e utilizzati.

Ricadute sulla comunità e le aziende

Sebbene l'uso di dati open non sia illegale, il tema solleva questioni chiave riguardanti la trasparenza e il consenso da parte del pubblico. Le aziende che operano in questo campo devono considerare i diritti degli utenti e l'impatto sociale delle loro pratiche. La comunità tecnologica si esprime spesso a favore di un'approccio collaborativo e aperto, ma non a discapito di principi legali e morali fondamentali.

Microsoft continua a posizionare i propri modelli come esempio di "addestramento KI sauro e etico", ma questo slogan non tiene conto della complessità delle fonti da cui derivano i dati. Gli esperti sollecitano un maggiore controllo da parte istituzionale, per garantire che le tecnologie KI non abbiano a compromettere l’ambiente digitale in cui si sviluppano.

Per comprendere l’impatto diretto e a lungo termine dei dati utilizzati nella costruzione del KI, è essenziale seguire l’evoluzione del dibattito legale e la volontà del mercato di richiedere pratiche più trasparenti e controllabili.