In un'intervista esclusiva con Journal du Net, Florian Douetteau, CEO e co-fondatore di Dataiku, ha fornito approfondimenti dettagliati sulla strategia dell'azienda e sulla sua ambiziosa roadmap di ricerca e sviluppo. L'intervento, datato 20 novembre 2023, ha offerto una panoramica sulle principali tendenze del mercato dell'intelligenza artificiale, sui nuovi prodotti di Dataiku, sulla notevole crescita finanziaria del gruppo e sulle sue prospettive future in un panorama tecnologico in rapida evoluzione.

Douetteau ha rivelato una crescita finanziaria impressionante per Dataiku, con un aumento di oltre il 50% in nove mesi, raggiungendo un ricavo annuo ricorrente di 230 milioni di dollari a settembre 2023 rispetto ai 150 milioni di dollari di dicembre 2022. Questa espansione testimonia la forte domanda di soluzioni AI nel mercato attuale e posiziona Dataiku come un attore chiave nel settore. L'azienda conta oggi più di 1.000 dipendenti, con la maggior parte delle attività di ricerca e sviluppo concentrate in Francia.

Le principali tendenze del mercato dell'IA nel 2023

Secondo Florian Douetteau, l'impatto dell'IA generativa sul grande pubblico ha innescato una reazione a catena, spingendo le aziende a ricollocare l'intelligenza artificiale al centro della loro trasformazione digitale. Questo fenomeno ha generato due reazioni principali nel mondo aziendale. Da un lato, alcune imprese hanno riconosciuto di essere già attive nell'IA e hanno visto nell'IA generativa un'opportunità per espandere ulteriormente le proprie capacità. Dall'altro, molte si sono rese conto che il ritmo dell'innovazione tecnologica stava superando le loro aspettative, portandole a rimettersi in discussione e a riconsiderare i propri modelli economici a lungo termine. Questa consapevolezza ha stimolato un'ondata di investimenti e innovazione nel settore.

Il LLM Mesh: un'architettura per la gestione dei modelli linguistici

Per rispondere a questa crescente domanda, Dataiku ha introdotto una serie di nuovi prodotti, tra cui il LLM Mesh. Douetteau ha spiegato che il LLM Mesh, prima ancora di essere un prodotto, è un concetto architettonico fondamentale. Il suo scopo principale è gestire i Large Language Models (LLM), che rappresentano una categoria di oggetti completamente nuova all'interno dei sistemi informativi. Storicamente, le aziende erano abituate a gestire database e sistemi di file; i LLM introducono una complessità e una tipologia di gestione differenti, richiedendo strumenti e approcci specifici per essere integrati e utilizzati efficacemente.

Al centro del LLM Mesh, Dataiku ha concettualizzato la nozione di hub. Questa soluzione avanzata non solo consente di gestire contemporaneamente più LLM, ma facilita anche il passaggio tra un modello e l'altro, garantendo così la sostenibilità e la resilienza delle applicazioni che li utilizzano. Parallelamente, il LLM Mesh è progettato per gestire in modo robusto la sicurezza dei modelli. Filtra i contenuti inviati ai modelli e centralizza i log, assicurando una tracciabilità completa di tutte le azioni e interazioni, un aspetto cruciale per la conformità e la fiducia.

Integrazione con i principali fornitori di LLM e piattaforme dati

Dataiku ha stretto accordi strategici con i principali fornitori di LLM sul mercato per garantire un'ampia compatibilità e flessibilità ai propri clienti. Tra i partner figurano giganti dell'intelligenza artificiale come OpenAI, Anthropic, Hugging Face e Cohere. L'obiettivo è integrare le loro API, permettendo ai clienti di Dataiku di "fine-tunare" (adattare finemente) questi LLM con i propri dati specifici, massimizzando la pertinenza e l'accuratezza delle risposte. Inoltre, Dataiku ha siglato partnership con importanti piattaforme dati che offrono capacità LLM, tra cui Databricks e Snowflake, ampliando ulteriormente l'ecosistema di integrazioni disponibili.

Implementazione del Retrieval Augmented Generation (RAG)

Nell'ambito del LLM Mesh, Dataiku ha implementato un motore dedicato al Retrieval Augmented Generation (RAG). Questa tecnica innovativa consiste nell'iniettare una base documentale specifica in un LLM pre-esistente e già addestrato per affinare le sue risposte e renderle più contestualizzate. Il motore RAG di Dataiku consente, partendo da qualsiasi LLM esistente, di creare un "LLM virtuale" iniettando contenuti in un database vettoriale. Il LLM di base viene così automaticamente arricchito da un corpus documentale specifico.

Questa funzionalità offre ai clienti la possibilità di testare con grande facilità una versione di base di un LLM e successivamente diverse versioni aumentate. Un vantaggio fondamentale del RAG è la sua capacità di citare le fonti dei dati utilizzati nei risultati, un aspetto di enorme importanza per stabilire e mantenere la fiducia degli utenti e per garantire la trasparenza e l'affidabilità delle informazioni generate.

Integrazione dei database vettoriali in Dataiku

L'integrazione dei database vettoriali nel LLM Mesh è avvenuta in modo analogo a come Dataiku ha integrato in passato i database relazionali o gli oggetti (blob) memorizzati in servizi come Amazon S3. Florian Douetteau ha sottolineato che i database vettoriali rappresentano un nuovo "pezzo dell'edificio" tecnologico che, attraverso il RAG, è diventato piuttosto comune nei progetti di IA generativa. Dal punto di vista tecnologico, Dataiku ha scelto di integrare i database vettoriali più utilizzati sul mercato, tra cui Pinecone. Per il futuro, l'azienda si propone di lanciare ulteriori "gateway" (passerelle) verso le offerte vettoriali degli attori storici del settore dei database man mano che queste verranno rilasciate, garantendo una compatibilità sempre più ampia.

Il posizionamento di Dataiku nell'IA multi-agente

Florian Douetteau ha enfaticamente dichiarato che l'IA multi-agente è oggi il caso d'uso più avanzato dei LLM, una nozione che Dataiku sta già integrando attivamente. Ha illustrato i diversi livelli di utilizzo dei LLM, partendo dai modelli di linguaggio più "pacchettizzati" per compiti come il riconoscimento di testo o l'analisi del sentiment, attività non nuove ma ottimizzate in termini di performance dai LLM. Un secondo livello consiste nella gestione dell'estrazione di informazioni molto specifiche e specializzate tramite il prompt engineering, un compito che, sebbene in passato fosse molto complesso, è stato significativamente semplificato dall'avvento dei LLM. Segue il RAG, che permette di orchestrare domande e risposte altamente strutturate su corpus documentali consistenti e variabili.

Il multi-agente rappresenta il vertice di questa evoluzione. Permette di orchestrare l'intervento di più fonti di dati e applicazioni per simulare un comportamento umano sofisticato. Questo si traduce nell'orchestrare diversi modelli, ciascuno specializzato in un compito preciso. Gli agenti consentono di simulare le diverse tappe di un ragionamento mirato alla risoluzione di un problema complesso, con casi d'uso potenzialmente infiniti.

Esempio di applicazione dell'IA multi-agente: il supporto clienti

Per illustrare la potenza dell'IA multi-agente, Douetteau ha fornito un esempio concreto nel contesto del supporto clienti. Di fronte a una richiesta di assistenza, un'IA multi-agente potrebbe intervenire nel seguente modo:

  • Un primo agente sarebbe incaricato di analizzare il messaggio del cliente e di identificare il problema centrale.
  • Un secondo agente interverrebbe per consultare le basi dati dell'azienda alla ricerca di contenuti che possano risolvere il problema in questione.
  • Un terzo agente potrebbe, in parallelo, analizzare la cronologia delle comunicazioni del cliente per identificare eventuali soluzioni già condivise in precedenza sullo stesso argomento.
  • Un quarto agente (o un quinto, come nell'originale, ndr) analizzerebbe la configurazione tecnica del cliente per individuare eventuali bug o anomalie.

Al termine di questo processo coordinato, l'IA genererebbe automaticamente un'email formattata, chiara e concisa, che spiegherebbe al cliente la procedura da seguire per correggere l'errore. Dataiku, in questo contesto, mira a fornire un ambiente robusto per lo sviluppo e l'orchestrazione di tali agenti, supportando i propri clienti nella realizzazione di queste applicazioni multi-agente ad alta complessità.

La questione dell'orchestratore di LLM: LangChain e oltre

Esiste un vivace dibattito attuale sulla questione degli orchestratori di LLM. Florian Douetteau ha riconosciuto che, per il momento, LangChain è l'orchestratore di riferimento. Il suo merito principale è essere open source, ma Douetteau ha anche notato che rimane "relativamente povero in termini di funzionalità". Più in generale, si tratta di un campo ancora molto emergente, nelle sue fasi iniziali di sviluppo. Partendo da questa constatazione, Dataiku considera "legittimo porsi la questione di sviluppare il proprio orchestratore", un'indicazione delle ambizioni dell'azienda di guidare l'innovazione in questo settore critico.

Roadmap di ricerca e sviluppo di Dataiku

La roadmap di ricerca e sviluppo di Dataiku è ambiziosa e orientata al futuro. L'azienda continuerà a integrare tecnologie di modelli di linguaggio man mano che il mercato dei LLM, in costante evoluzione, progredirà. Parallelamente, Dataiku si impegnerà a fondo nello sviluppo di nuove funzionalità per accompagnare l'emergere e la maturazione di questo nuovo mercato.

Un'altra area di investimento significativa nella roadmap di R&D è la governance dell'IA. Dataiku sta integrando dispositivi per la misurazione, la qualificazione e il controllo delle diverse fasi di un processo di creazione di modelli. L'obiettivo primario è duplice: da un lato, aiutare le aziende a conformarsi alle normative esistenti e, dall'altro, anticipare l'adozione dei futuri regolamenti sull'intelligenza artificiale, in particolare a livello europeo. Questo approccio proattivo sottolinea l'impegno di Dataiku verso un'IA etica, responsabile e conforme.

Florian Douetteau, laureato all'École Normale Supérieure, ha iniziato la sua carriera presso Exalead nel 2000, dove ha condotto una tesi sullo sviluppo del linguaggio di programmazione Exascript, rimanendovi fino al 2011. La sua profonda esperienza e visione lo posizionano come una figura di spicco nel panorama dell'intelligenza artificiale, guidando Dataiku verso nuove frontiere dell'innovazione e della crescita.