Liquid AI ha annunciato due modelli di ricerca avanzata per il recupero del testo, ideati per operare in diversi ambienti: LFM2.5-Embedding-350M e LFM2.5-ColBERT-350M. Disponibili su una piattaforma open source Hugging Face, entrambi i modelli utilizzano 350 milioni di parametri e sono progettati per la ricerca multilingue e cross-lingue con una footprint sufficientemente piccola da essere eseguiti quasi ovunque. Sono la continuazione del LFM2.5-350M-Base, rilasciato a marzo, ma adattati per rappresentare il testo in modo bidirezionale anziché causale.

Modelli di Recupero LFM2.5

Entrambi i modelli condividono lo stesso scheletro strutturale, ma differiscono nell’approccio alla rappresentazione testuale. Il LFM2.5-Embedding-350M utilizza un bi-encoder di alto rendimento che genera un vettore per documento, rendendolo ideale per la velocità di ricerca. Per il recupero più efficiente in termini di memoria, questa struttura è il preferito per applicazioni che necessitano il minor spazio e la massima velocità.

D’altro canto, il LFM2.5-ColBERT-350M adotta una struttura basata su interazione tardiva, fornendo vettori per token anziché per documento, al fine di ottenere maggiore precisione. Il modello consente di corrispondere query termine per termine, offrendo maggiore accuratezza. A fronte di una maggiore occupazione della memoria per l'archiviazione, è adatto a contesti in cui la precisione è prioritaria. Il limite di query è posto a 32 token, e ha inoltre capacità di rango di risultati inizialmente restituiti da un’altra pipeline, senza la necessità di costruire un indice.

Applicazioni Target

    • Cataloghi di prodotto
    • Basi di conoscenza FAQ
    • Documenti di supporto

Liquid AI presenta entrambi come sostituti diretti nei pipeline RAG (Retrieve, Augment, Generate), adatti a contesti in cui velocità o precisione abbiano la priorità.

Architettura: Causale a Bidirezionale

Entrambi i modelli iniziano da un checkpoint intermedio, il LFM2.5-350M-Base, adatto a un utilizzo generale. Liquid AI introduce un insieme limitato di "patch bidirezionali" nell’architettura LFM2. Queste modifiche permettono al modello di passare da un decoder causale — dove ciascun token utilizza solo sé stesso e i token precedenti — ad un encoder bidirezionale. Ogni token può ora accedere al contesto a sinistra e a destra, migliorando la rappresentazione globale del testo.

Un’altra modifica chiave riguarda le "convolutioni brevi", adattate da causali a non causali, permettendo di mescolare in modo simmetrico l’informazione locale intorno a ciascun token. La struttura finale mantiene l’efficienza del modello LFM2, mentre produce rappresentazioni di contesto necessarie per il recupero testuale.

Dettagli Architetturali

    • 17 livelli totali: 10 di convoluzione, 6 di attenzione e 1 pooling o denso
    • Lunghezza di contesto fino a 32.768 token, con lunghezza ottimale a 512 per i documenti
    • Embedding CLS stile per i vettori 1024-dim per Embedding modello
    • Embedding a token 128-dim per ColBERT con MaxSim

Addestramento e Dati

Entrambi i modelli seguono una ricetta in tre stadi:

Stadio 1: Pre-addestramento Contrastivo

Un’ampia fase di addestramento in inglese, focalizzandosi su dati di alto interesse e contrasto per sviluppare rappresentazioni significative.

Stadio 2: Distillazione Multilingue e Cross-lingue

Il modello viene istruito attraverso distillazione multilingue da un "teacher model" forte, coprendo 11 lingue. Questa tecnica favorisce la creazione di modelli in grado di trattare diverse lingue.

Stadio 3: Fine-Tuning con Negativi Minati

Un’ulteriore fase di ottimizzazione mirata a migliorare la qualità del recupero, adattandosi a casi difficili e a dati più specifici.

Prestazioni in Benchmark

Liquid AI valuta le capacità dei nuovi modelli in due contesti principali: NanoBEIR (ricerca multilingue) e MKQA-11 (QA aperto e cross-lingue). I risultati sono forniti per le seguenti lingue: arabo, tedesco, inglese, spagnolo, francese, italiano, giapponese, coreano, norvegese, portoghese e svedese.

Risultati Benchmark

    • LFM2.5-ColBERT-350M ottiene un NDCG@10 NanoBEIR di 0,605 e Recall@20 di MKQA-11 di 0,694
    • LFM2.5-Embedding-350M otterrà NDCG@10 di 0,577 e Recall@20 di MKQA-11 di 0,691
    • ColBERT presenta prestazioni superiori in entrambi i benchmark.

Esecuzione su Dispositivi e Latenza

Liquid AI ha rilasciato versioni GGUF ottimizzate per la piattaforma Llama.CPP, permettendo ai due modelli di eseguire su CPU, laptop e dispositivi edge. La figura sottostante mostra le metriche in termini di tempo di latenza mediani per diversi tipi di dispositivi.

Tempi mediani di Query (p50)

    • Embedding modello con query cache: 7,3 ms
    • ColBERT modello con query e documento cache: 8,2 ms
    • ColBERT senza cache: 34,3 ms

Esecuzione su GPU avanzate, come H100, garantisce latenze minime intorno a 1 ms, perfetto per ambienti aziendali a larga scala.

Casi D'uso Esempio

E-Commerce

Ricerca di prodotti in cataloghi con multilingue. Un acquirente che digita una query in coreano riceve un elenco di prodotti in inglese, resi disponibili attraverso cross-lingue retrieval.

Supporto E FAQ

Un utente francese può ottenere risposte a problematiche specifiche mappando a documenti di aiuto in inglese, grazie ad un recupero affidabile in diversi contesti.

Ricerca Semantica On-device

Il modello GGUF consente l’analisi e la ricerca semantica di dati locali — file, email, note — su hardware del consumatore, mantenendo una bassissima spesa in termini computazionali.

Knowledge Assistant Aziendale

Grazie a ColBERT