L'ingegneria del contesto si concentra sul disegnare sistemi che decidono precisamente quali informazioni un modello AI riceve prima di generare una risposta. Questa disciplina va oltre la formattazione dei prompt o la scrittura di istruzioni: riguarda lo sviluppo dell’intero ambiente in cui il modello opera, incluso dati di riferimento, scheemi, strumenti, vincoli e meccanismi per selezionare le informazioni rilevanti.

Che cos'è l'ingegneria dei prompt?

L’ingegneria dei prompt è spesso considerata una disciplina precedente all’ingegneria del contesto. Mentre essa si concentra sulla parola chiave, sulla sequenza e sugli istruzioni di superficie, l’ingegneria del contesto estende il campo all’architettura e all’orchestrazione del sistema. Tratta il prompt come un livello in un sistema più ampio che seleziona, struttura e consegna la giusta informazione nel formato corretto per permettere all’LLM di eseguire il compito in modo plausibile.

Che cos’è "contesto" nell’AI?

Nel contesto degli sistemi AI, il termine "contesto" indica ogni informazione alla quale un modello di lingua estesa (large language model, LLM) ha accesso per generare una risposta. Si tratta non soltanto dell’ultima richiesta dell’utente, ma dell’insieme totale delle informazioni, regole, memoria e strumenti che influenzano come il modello interpreta la domanda.

La quantità di informazione che il sistema può elaborare al momento è chiamata finestra del contesto. Il contesto è fatto di diversi strati che collaborano per guidare il comportamento del modello:

Il prompt del sistema definisce il ruolo, i limiti, e il comportamento del modello — può includere regole, esempi, guardrails e richieste di stile persistenti.
Il prompt dell’utente è la richiesta immediata — l’ingresso temporaneo e specifico del compito da portare a termine.
Lo stato o la cronologia della conversazione agisce come memoria a breve termine.
La memoria a lungo termine è permanente e spesso include preferenze dell'utente, informazioni fisse e sintesi del lavoro.
Le informazioni recuperate fanno accesso a conoscenza esterna e aggiornata.
La generazione alimentata da informazione recuperata permette di trasformare questo in un livello dinamico e specifico per un dominio.
Gli strumenti disponibili sono le azioni che l'LLM può intraprendere con l’aiuto di una chiamata a strumento o al server MCP.
Le definizioni dell’output strutturato specificano come la risposta dev’essere formattata: ad esempio JSON, tabella, o schema definito.

Che cos’è il fallimento del contesto?

L’espressione “fallimento del contesto” descrive un insieme di modi comuni in cui i sistemi AI basati sul contesto possono sbagliare, e si divide in quattro categorie principali:

Avvelenamento del contesto si verifica quando un'invenzione o un errore fanno parte del contesto e vengono usati come verità.
Sbattimento distrattivo succede quando il contesto diventa troppo lungo o rumoroso.
Confusione del contesto nasce quando informazioni irrilevanti si mescolano a quelle importanti.
Conflitto di contesto avviene quando nuove informazioni contraddicono quelle precedenti.

Le aziende come OpenAI e Anthropic stanno fornendo funzioni di chatbot capaci di gestire finestre di contesto molto grandi. Tuttavia, la grandezza non è sempre la soluzione. Senza un'ingegneria mirata — validazione, riduzione, selezione, eliminazione o isolamento — finanche le finestre di contesto di grandi dimensioni possono risultare in output inattendibili o incoerenti.

Che tecniche e strategie include l’ingegneria del contesto?

L'ingegneria del contesto mira a superare questi tipi di problemi. Questi sono alcuni tra le tecniche e le strategie principali che si possono implementare:

Selezione della base di conoscenza o degli strumenti

Scegliere le fonti, i database, i documenti oppure gli strumenti che un sistema utilizzerà in modo mirato, riduce il rumore e direziona l’estrazione verso contenuti pertinenti.

Ordinamento o compressione del contesto

Deve essere deciso quali informazioni meritano spazio e quali invece siano da ridurre o eliminare. Per esempio, un sistema potrebbe sostituire una cronologia della conversazione lunga 2.000 parole con una sintesi di 150 parole che conserva decisioni critiche, limiti e fatti cruciali.

Architettura e progetto della memorizzazione a lungo termine

Determina come informazioni persistenti vengono archiviate e reinserite, come potrebbe essere il caso delle preferenze stilistiche dell’utente.

Schema strutturato di contesto e di output

Usare formati predeterminati riduce l’ambiguità. Inserire contesto strutturato (ad esempio un campo da compilare) permette al modello di seguire un percorso predefinito.

Engineering del workflow

Che si tratti di connettere più chiamate LLM, passaggi di estrazione o utilizzo di strumenti: il design del workflow permette di creare un processo coerente.

Estrazione selettiva

Questa tecnica limita il modello ad osservare solo le porzioni pertinenti di dati esterni.