Microsoft, uno dei principali player nel campo dell'AI (Intelligenza Artificiale), ha ammesso di aver addestrato parte dei suoi nuovi modelli di intelligenza artificiale MAI (Microsoft AI) utilizzando dati provenienti dal Web che non avevano un'autorizzazione esplicita. Questo tipo di addestramento si scontra con le dichiarazioni precedenti dell’azienda, che aveva affermato chiaramente che i modelli MAI fossero addestrati esclusivamente su "dati aziendali, puliti e commercialmente autorizzati".

Secondo un documento tecnico pubblicato da Microsoft, la tecnologia ha incluso come fonte di dati Common Crawl, una raccolta gigantesca di dati testuali estratti dalla rete globale. Simon Willison, un esperto noto nel campo dell’AI, ha evidenziato l’uso di questa fonte in particolare, mettendo in risalto la contraddizione tra l’immagine presentata e l’approccio adottato.

Il paper descrive inoltre il mix usato per l’addestramento come una combinazione di dati umani pubblicamente disponibili e licensed. Microsoft sottolinea che utilizza un web crawler proprietario che rispetta i protocolli stabiliti come il "Robots Exclusion Protocol", che permette ai proprietari di siti di controllare come il loro contenuto può essere accessibile e utilizzato.

Tuttavia, questa strategia comporta un’onere considerevole sui proprietari di siti, che devono assumersi la responsabilità di proteggere i propri dati online. Un’assunzione che è spesso assimilata al concetto di "chi non chiude la porta consente l’ingresso". Questo processo di training, nonostante l’apparenza trasparente, solleva dibattiti legali, soprattutto in relazione al concetto di "fair use" (uso equo).

Il diritto all’uso equo è tuttora soggetto a interpretazioni diverse da parte dei tribunali. Microsoft, quindi, si colloca in una posizione comune fra le altre aziende tecnologiche che utilizzano i dati web per addestrare i propri modelli di AI. Tuttavia, vende il proprio approccio come speciale, garantendo "dati puliti". Una promessa, però, che non sempre trova corrispondenza nella realtà.

Un problema per molti, una pratica diffusa

Microsoft non è l’unico gigante tecnologico a praticare questa strategia. Anche aziende come Google, OpenAI e Meta utilizzano dati non autorizzati per addestrare i loro modelli di intelligenza artificiale avanzata. Questo tipo di addestramento, benché ampiamente utilizzato, solleva questioni etiche e legali riguardo la proprietà intellettuale e il consenso.

I proprietari di siti, autori e creatori di contenuti non hanno controllo totale su come i loro lavori vengano utilizzati una volta pubblicati in rete. E sebbene Google permetta di vietare il proprio contenuto attraverso specifici metatag, la pratica non è universale e spesso sconosciuta a molti creatori di contenuti.

La risposta del mercato

Di fronte a queste problematiche, alcune iniziative emergono. Per esempio, THE DECODER, una newsletter di notizie tecnologiche specializzata, promette di offrire informazioni su AI senza l’iperbole, con un accesso ad archivi completi, commenti approfonditi e rapporti su avanzamenti e innovazioni settimanali.

I suoi abbonati possono godere di letture senza pubblicità, ricevere una newsletter settimanale dedicata alle notizie più rilevanti sull’Intelligenza Artificiale, e ottenere un rapporto esclusivo sul "AI Radar" sei volte all’anno.

Perché i modelli di ML necessitano di grandi quantità di dati?

I modelli di machine learning (ML) e di intelligenza artificiale hanno bisogno di un'enorme quantità di dati per funzionare in modo efficace. Più dati un modello riesce ad assimilare, migliore sarà la sua capacità di comprendere, interpretare, e reagire al contesto in cui deve operare. I dati pubblici e non protetti diventano quindi un obiettivo naturale per queste aziende, pur con i rischi etici e legali che comportano.

Esempi rilevanti

Common Crawl: Una raccolta di dati web estremamente vasta, Common Crawl è uno strumento utilizzato da molte aziende di AI per migliorare i modelli. Il suo utilizzo, tuttavia, rimane dibattuto da molti esperti.
Web Crawlers: Microsoft utilizza un crawler proprietario, ma altre aziende hanno sviluppato il proprio software per raccogliere dati non protetti.
Rifiuto del consenso esplicito: Il tema del consentimento esplicito non solo riguarda le aziende di AI. Il dibattito riguarda anche l’ambito giornalistico e multimediale, dove i contenuti spesso vengono ripresi e utilizzati senza approvazioni.

In conclusione, il dibattito su come e in che modo vengono addestrati i modelli di AI è destinato a durare molto a lungo. L’utilizzo di dati non autorizzati potrebbe comportare un costo per l’etica, la proprietà intellettuale e la privacy. Per i consumatori, l'importante è chiedersi cosa esattamente stiamo condividendo online e chi potrebbe utilizzarlo in modi imprevisti.