Nel team di ricerca di Plain Concepts, siamo costantemente alla ricerca di soluzioni innovative per i nostri clienti, e in gran parte di queste occasioni l'intelligenza artificiale gioca un ruolo centrale. Notiamo continuamente come la sua adozione massiva si trovi ad affrontare sfide critiche quando dipende esclusivamente dalla nuvola, in particolare:

  • Costi ricorrenti elevati: Le spese operative per l'infrastruttura cloud possono aumentare rapidamente con l'uso.
  • Esposizione di dati sensibili: La gestione di informazioni riservate nella nuvola solleva preoccupazioni sulla sicurezza e sulla conformità.
  • Latenza di rete: La dipendenza dalla connessione internet può rallentare le operazioni e impattare l'esperienza utente.
  • Limitazioni reali di scalabilità: Le organizzazioni con centinaia di utenti possono incontrare colli di bottiglia e difficoltà nella gestione delle risorse cloud.

A causa di queste problematiche, il nostro team ha lavorato per mesi con alcuni dei nostri clienti su una nuova architettura ibrida. Questa architettura combina il meglio dell'IA nel cloud con la potenza dei dispositivi personali, permettendo l'esecuzione di modelli di IA localmente. Questo approccio sfrutta la capacità di calcolo distribuito e riduce significativamente i costi operativi, offrendo un equilibrio tra flessibilità e controllo.

In questa configurazione architettonica, le applicazioni e i modelli di IA sono inizialmente disponibili per essere distribuiti da un HUB nel cloud, che effettua una distribuzione selettiva: i modelli più complessi e intensivi per i casi critici rimangono nel cloud, mentre i modelli ottimizzati per l'uso quotidiano vengono eseguiti in locale. Di conseguenza, le applicazioni si eseguono in modo distribuito: ogni dispositivo locale contribuisce con la propria capacità di inferenza, eliminando così i colli di bottiglia centralizzati tipici delle soluzioni completamente basate sul cloud. Inoltre, si ottiene un controllo granulare completo, che consente una gestione precisa su quali dati, modelli e utenti possono accedere a ciascuna risorsa, migliorando la sicurezza e la conformità.

Per fare un esempio pratico, immaginiamo un'azienda mediatica come MediaPro, che ha la necessità di elaborare grandi volumi di video e audio per compiti quali la trascrizione, la sottotitolazione automatica o la generazione di riassunti. Con un'architettura ibrida, i modelli più pesanti e computazionalmente intensivi (ad esempio, per l'analisi semantica avanzata) possono risiedere nel cloud ed essere accessibili solo a profili critici con specifiche autorizzazioni. Nel frattempo, i compiti più ricorrenti e meno esigenti in termini di risorse (come la trascrizione di base o la classificazione del contenuto) vengono eseguiti in locale, sfruttando l'accelerazione hardware dei portatili dei dipendenti. Questo modello consente di scalare la soluzione all'intera organizzazione senza incorrere in costi proibitivi e senza compromettere la privacy e la sicurezza dei dati sensibili.

Il ruolo chiave dei portatili Intel Core™ Ultra con NPU

Questa architettura innovativa si basa fondamentalmente sull'uso di portatili Intel Core™ Ultra, i quali integrano una NPU (Neural Processing Unit) e una GPU. Questi portatili, grazie ai loro acceleratori integrati, aprono le porte a una nuova architettura ibrida che combina armoniosamente il meglio di due mondi: la potenza e la flessibilità del cloud per gestire carichi di lavoro critici e altamente complessi, e l'efficienza dell'edge computing per affrontare i casi d'uso quotidiani e più diffusi.

La NPU: il "corridore di maratona" dell'IA

La NPU (Neural Processing Unit) è un processore dedicato specificamente all'esecuzione efficiente di modelli di intelligenza artificiale, in particolare quelli che richiedono inferenze ricorrenti o in background. Il suo design è ottimizzato per massimizzare l'efficienza energetica, permettendo di eseguire compiti di IA in modo sostenuto senza compromettere significativamente l'autonomia del dispositivo. La NPU è ideale per carichi di lavoro come:

  • Assistenti virtuali: Esecuzione di modelli di linguaggio di grandi dimensioni (LLM) per interazioni vocali o testuali, garantendo risposte rapide e fluide.
  • Elaborazione di immagini e video: Rilevamento di oggetti, segmentazione, miglioramento dell'immagine, compressione e decompressione, tutto in tempo reale.
  • Analisi predittiva: Riconoscimento di pattern in set di dati in tempo reale per applicazioni di sicurezza, produttività o manutenzione predittiva.
  • Miglioramento delle riunioni: Funzionalità avanzate come la riduzione del rumore di fondo, la sfocatura dello sfondo o il tracciamento dello sguardo, per esperienze di videocall più professionali.

In parole degli stessi ingegneri di Intel, la NPU agisce come il “corridore di maratona” del sistema: gestisce carichi di lavoro di lunga durata in modo sostenibile, assicurando che la batteria del portatile mantenga la sua carica per tutta la giornata lavorativa, anche in scenari di uso intensivo dell'IA.

Distribuzione dei carichi di lavoro IA nell'architettura Intel Core Ultra

L'architettura dei processori Intel Core Ultra è progettata per distribuire in modo intelligente le attività di IA in base alla loro natura e ai requisiti di prestazioni specifici, ottimizzando così l'uso delle risorse hardware:

  • CPU: Per carichi di lavoro leggeri di IA e per i compiti generali di calcolo che richiedono una grande flessibilità.
  • GPU: Per l'elaborazione grafica intensiva e per carichi di lavoro di IA che richiedono un'alta parallelizzazione, come il rendering 3D, l'addestramento di modelli complessi o la generazione di immagini.
  • NPU: Per carichi di lavoro persistenti e a bassa potenza, specifici per l'IA, garantendo efficienza energetica e prestazioni sostenute.

Framework e strumenti per l'IA locale

I portatili Intel Core™ Ultra sono in grado di eseguire modelli di IA localmente utilizzando una varietà di framework compatibili e ottimizzati, tra cui OpenVINO, ONNX Runtime, Hugging Face Optimum Intel e Azure Foundry Local. Questi framework facilitano lo sviluppo e la distribuzione di applicazioni di IA direttamente sul dispositivo.

Foundry Local

Foundry Local esegue modelli di linguaggio direttamente sul client, ottimizzando automaticamente le prestazioni per la CPU o la GPU disponibili. È uno strumento potente che offre:

  • Installazione immediata: Facile da configurare e utilizzare.
  • Gestione trasparente: Semplifica la gestione dei modelli.
  • Privacy totale: Elaborazione locale garantisce che i dati non lascino il dispositivo.

Un esempio di installazione ed esecuzione è il seguente:

winget install Microsoft.FoundryLocal
foundry model run phi-3.5-mini

È importante notare che, sebbene Foundry Local offra questi vantaggi, attualmente è in fase di preview, con un catalogo limitato di modelli e senza supporto per la NPU.

OpenVINO

OpenVINO è il toolkit principale per sfruttare appieno le capacità della NPU Intel. Fornisce un set completo di strumenti per ottimizzare e distribuire modelli di IA su hardware Intel. Con OpenVINO, è possibile rilevare facilmente gli acceleratori disponibili:

import openvino as ov
core = ov.Core()
core.available_devices  # ['CPU', 'GPU', 'NPU']

La compressione è una strategia chiave per l'esecuzione efficiente di modelli su dispositivi locali. OpenVINO, in combinazione con NNCF (Neural Network Compression Framework), consente di ridurre le dimensioni dei modelli senza una perdita significativa di precisione, rendendoli ideali per l'esecuzione su dispositivi con risorse limitate.

Caso di studio: Plain Concepts Evergine e Intel Core Ultra

Nel team di ricerca, una delle principali tecnologie che sviluppiamo è Evergine, un motore grafico focalizzato sulla renderizzazione 3D per applicazioni industriali. Nel nostro lavoro è comune la necessità di integrare modelli di IA con le applicazioni di Evergine in modo da consentire una comprensione più profonda dell'ambiente, migliorando l'interazione e la visualizzazione di dati complessi.

Come prova di concetto per testare le capacità dei portatili Intel Core Ultra, abbiamo sviluppato un ambiente 3D fotorealistico. Questo ambiente utilizza la tecnologia di Gaussian Splatting per renderizzare in tempo reale una sala da pranzo fotorealistica, integrando al contempo un modello di rilevamento di oggetti per identificare e classificare gli elementi nella scena in tempo reale. Questo dimostra la versatilità e la potenza dell'architettura ibrida.

Mentre l'utente si muove all'interno della scena, questa viene renderizzata dalla GPU, e in parallelo il modello di rilevamento di oggetti viene eseguito sulla NPU. Questo approccio permette un'identificazione e una classificazione degli elementi più rapida ed efficiente, con vantaggi significativi sia in termini di tempo di esecuzione che di consumo energetico, il tutto senza che i dati escano dall'ambiente locale del dispositivo, garantendo massima privacy e sicurezza.

Assistenti virtuali aziendali con RAG su Intel Core Ultra

I portatili Intel Core Ultra rendono possibile l'esecuzione di assistenti virtuali di livello aziendale con RAG (Retrieval-Augmented Generation) interamente sul dispositivo. Questo distribuisce i carichi di lavoro tra i diversi acceleratori in modo ottimale:

  • LLM (Large Language Model) sulla NPU: Per inferenze veloci e a basso consumo energetico, gestendo il cuore delle interazioni conversazionali.
  • Embeddings sulla NPU: Generazione efficiente di rappresentazioni vettoriali di testo per un recupero preciso e contestualizzato delle informazioni.
  • Vector Database (su RAM): Archiviazione e ricerca efficiente di embedding direttamente nella memoria del dispositivo, garantendo velocità e privacy.
  • Orchestrator (sulla CPU): Gestione del flusso di lavoro complessivo, coordinando i diversi componenti e assicurando una risposta coerente e pertinente.

Distribuire il carico tra i diversi acceleratori in locale offre una maggiore efficienza energetica, poiché la NPU consuma circa 13W rispetto ai 20W della CPU/GPU, riducendo l'impatto ambientale e prolungando la durata della batteria.

Integrazione dell'IA nel web e nelle applicazioni esistenti

L'IA locale sui dispositivi Intel Core Ultra non si limita alle applicazioni desktop o ai framework dedicati, ma si estende anche al mondo del web e delle applicazioni grafiche.

WebNN

WebNN consente di eseguire modelli di IA direttamente in applicazioni web sfruttando l'accelerazione hardware disponibile, il tutto senza la necessità di installazioni aggiuntive. Questo porta a numerosi vantaggi:

  • Distribuzioni istantanee via web: Le applicazioni IA possono essere rese disponibili immediatamente agli utenti.
  • Privacy completa: Il processo avviene localmente, mantenendo i dati sensibili sul dispositivo dell'utente.
  • Accelerazione automatica: Si adatta automaticamente all'hardware disponibile (CPU, GPU, NPU) per ottimizzare le prestazioni.

Generazione di immagini

Per compiti più intensivi come la generazione di immagini, ad esempio con Stable Diffusion Turbo, la GPU integrata nei portatili Intel Core Ultra può essere sfruttata per fornire prestazioni elevate e risultati rapidi.

Plugin IA per Gimp

Gimp, il popolare software di manipolazione di immagini, integra plugin di IA che possono beneficiare direttamente degli acceleratori Intel per eseguire compiti avanzati. Questi plugin permettono inoltre di scegliere dinamicamente l'acceleratore più adatto (CPU/GPU/NPU) in base al carico di lavoro specifico, offrendo flessibilità e ottimizzazione delle risorse.

Benefici dell'architettura IA ibrida su Intel AI PC

L'adozione dell'architettura ibrida di IA basata sui PC Intel AI offre benefici concreti e quantificabili per le aziende:

  • Costi ridotti: Minore dipendenza dal cloud per le inferenze quotidiane si traduce in significativi risparmi sui costi operativi.
  • Maggiore privacy: I dati sensibili rimangono sul dispositivo locale, riducendo i rischi di esposizione e facilitando la conformità normativa.
  • Latenza minima: L'elaborazione in tempo reale direttamente sul dispositivo elimina i ritardi causati dalla rete, migliorando la reattività delle applicazioni.
  • Scalabilità migliorata: La distribuzione del carico di lavoro su centinaia di dispositivi permette di scalare le capacità di IA in modo efficiente e flessibile.
  • Resilienza: Le applicazioni possono funzionare autonomamente anche senza connessione internet, garantendo continuità operativa.
  • Sostenibilità: La riduzione del consumo energetico complessivo, grazie all'uso ottimizzato degli acceleratori locali, contribuisce a un'impronta carbonica inferiore.

Un nuovo paradigma per l'IA

La storia della computazione è stata costellata da grandi cambiamenti di paradigma. L'arrivo del personal computer ha democratizzato la tecnologia, rendendola accessibile a milioni di persone. Oggi, l'intelligenza artificiale sta vivendo una transizione simile: un passaggio cruciale dal cloud all'endpoint, verso il dispositivo personale.

I portatili Intel Core Ultra con NPU rappresentano la punta di diamante di questo cambiamento epocale, offrendo:

  • Efficienza: Un consumo energetico significativamente inferiore per le operazioni di IA.
  • Sicurezza: I dati rimangono saldamente on-device, rafforzando la privacy e la protezione delle informazioni.
  • Personalizzazione: La possibilità di implementare soluzioni di IA su misura per le esigenze e le preferenze di ciascun utente.
  • Accessibilità: Rendere l'IA avanzata e potente disponibile a tutti, direttamente nei loro dispositivi quotidiani.

Le aziende hanno ora l'opportunità di costruire un modello di IA distribuito, sostenibile e redditizio, combinando sapientemente la potenza e la flessibilità del cloud con l'efficienza e la sicurezza dell'edge computing. Siamo di fronte a una nuova era dell'intelligenza artificiale, dove la capacità di innovare sarà intrinsecamente legata all'esecuzione dell'IA esattamente là dove i dati vengono realmente generati e utilizzati: sul dispositivo stesso dell'utente, aprendo scenari di utilizzo precedentemente inimmaginabili.

Nota dell'autore: Parte dello studio e degli esperimenti che hanno servito da base per questo articolo sono stati presentati in una conferenza tecnica durante dotNET 2025 Madrid, tenuta congiuntamente da Ana Escobar (ana.escobar.acunas@intel.com) e dall'autore. Molti dei video, delle dimostrazioni e dei dati inclusi in questo lavoro non sarebbero stati possibili senza l'inestimabile collaborazione e l'esperienza di Ana, a cui va un ringraziamento speciale per il suo supporto.