La Gsma lancia il Telco Common Corpus, un database open di telecomunicazioni che raccoglie più di 10 miliardi di token, interamente aperti e liberamente accessibili. Questo nuovo strumento si propone di fornire una base affidabile, con licenza e provenienza verificate a livello di documento, per addestrare modelli AI nel settore delle telecomunicazioni.

Il Telco Common Corpus fa parte dell'iniziativa Open Telco AI lanciata dalla Gsma e rappresenta una pietra miliare nella gestione della formazione dell'AI per questo specifico settore. Include materiale scientifico, brevetti, dati aperti e progetti web verificati. Gli operatori, i fornitori, i gruppi di ricerca e le autorità di regolamentazione potranno utilizzarlo per sviluppare modelli AI specializzati.

Un database per costruire modelli di AI sicuri

Autore del blog post sono Louis Powell della Gsma e Anastasia Stasenko di Pleias.ai. Da qui si apprende che il Telco Common Corpus è progettato soprattutto per chiunque desideri creare modelli AI adatti alle telecomunicazioni. Grazie a dati aperti e verificati, si garantisce una base su cui poter sovrapporre dati privati nel modo più sicuro e trasparente.

Perché il Telco Common Corpus è necessario

La capacità di fornire fonti di dati verificate sta diventando sempre più cruciale, soprattutto per garantire che i modelli AI siano legalmente e tecnicamente validi. L'industria delle telecomunicazioni ha bisogno di modelli AI che siano in grado di gestire attività tecniche, come la gestione della rete, che i modelli generalisti non riescono a svolgere.

Secondo le benchmark Open-Telco LLM e la piattaforma Open-telco.AI, i modelli esistenti non riescono a raggiungere un livello di performance soddisfacente per compiti specifici del settore. Nei test recenti, i progressi in benchmark come TeleQnA e 3GPP-TSG sono rimasti stabili, senza significativi miglioramenti negli ultimi due anni.

Limiti dei modelli generalisti

I modelli AI generalisti si basano su fonti di addestramento come i testi raccolti tramite scan generali del web, che non includono materiali tecnici specifici del settore. Questi sistemi non riescono a raccogliere informazioni su argomenti come la propagazione radio, lo spettro e le nuove specifiche tecniche, presenti principalmente in documenti PDF o accessibili solo a pagamento.

I dati raccolti nel Telco Common Corpus

Il TCC raccoglie una vasta gamma di risorse disponibili in formato aperto, tra cui: articoli scientifici, brevetti, dati governativi, documenti tecnici e risultati di progetti di finanziamento pubblico. Si tratta di una risorsa molto più ricca di quanto non siano i normali dataset raccolti tramite crawling web generico.

Articoli scientifici e brevetti aperti

Dati governativi e finanziamenti pubblici

Standard tecnici e risultati di ricerca aperti

Ricerca tecnica in formato PDF

Documentazione aperta di gruppi di lavoro e organi di standardizzazione

Una risorsa dinamica e verificabile

Il Telco Common Corpus non solo raccoglie risorse, ma esclude automaticamente quelle che non soddisfano i criteri di open data. Ciascun file incluso nel corpus ha una tracciabilità chiara: si conosce motivo e provenienza di ogni elemento. Inoltre, il dataset è dinamico, ampliabile via via che nuovi materiali aperti vengono rilasciati.

La verifica di provenienza e di licenza avviene documento per documento. Questo garantisce che non siano inclusi materiali con licenze errate o non trasparenti. Il risultato è un dataset non solo di grandi dimensioni, ma anche di alta qualità e trasparente.

Vantaggi principali del Telco Common Corpus

Il progetto offre due vantaggi principali:

Può essere utilizzato per addestrare modelli AI specializzati e per il pre-addestramento.

Fornisce un ground seed affidabile da cui generare dati di addestramento specifici per il settore telecom.

Questi dati diventano il terreno su cui sviluppare agenti AI con euristiche tecniche mirate, piuttosto che basate su dati generici e non contestualizzati.

Dove si colloca il TCC nell’ecosistema tecnologico

Il Telco Common Corpus non si limita a fornire un dataset. Si posiziona come livello fondamentale di infrastruttura per pipeline aperte e personalizzate basate su dati verificati. Può sostituire le fonti di produzione aziendale, raramente accessibili o rilasciabili, con documenti aperti e trasparenti.

L’aspetto dinamico e aperto della fonte

Il metodo per costruire il TCC è aperto: è possibile estendere la sua verifica e aggiungere nuovi dataset. Questo crea un ciclo virtuoso: più si verifica e si aggiunge, più il dataset diventa utile. In futuro si prevede la collaborazione con gruppi di ricerca, fornitori e autorità per costruire versioni specializzate di modelli AI che funzionino meglio sui dati propri del settore.

Premessa etica e trasparenza

Il TCC mira a rendere trasparente la provenienza dei dati, un aspetto cruciale soprattutto in ambito giudiziario. Il progetto mette in primo piano il diritto d’uso di ogni documento e il rispetto delle licenze, garantendo che i modelli siano eticamente accettabili e legalmente validi.

Conclusione

Il Telco Common Corpus rappresenta un punto di svolta per il settore. Per la prima volta si ha un dataset open, verificato e specializzato per l'industria delle telecomunicazioni. È uno strumento che permetterà a ricercatori, tecnici e aziende di sviluppare modelli AI più adatti alle telecomunicazioni, con dati certi, accessibili e replicabili.