AI Governance · 11 min

Come funzionano gli LLM

Token, contesto, probabilità, embedding e limiti pratici dei Large Language Model in azienda.

LLMtokencontesto

Un Large Language Model non “capisce” il testo: predice il token successivo più probabile, uno alla volta, sulla base di tutto ciò che ha letto prima. Capire davvero questo meccanismo cambia il modo in cui progetti prompt, knowledge base e guardrail. Qui spieghiamo come funziona un LLM dal punto di vista di chi i sistemi li costruisce.

Predizione del token successivo

Un LLM è una funzione che riceve una sequenza di token e restituisce una distribuzione di probabilità sul token successivo. Genera testo in modo autoregressivo: produce un token, lo aggiunge all'input e ripete.

Non esiste una “memoria” o un “database di risposte” dentro il modello. Esiste solo una rete neurale che, dato un contesto, calcola quanto è probabile ciascun token del vocabolario. La fluidità del risultato nasce da miliardi di parametri allenati su enormi quantità di testo.

Input → tokenizzazione → embedding → strati Transformer → logits → distribuzione di probabilità
La generazione è sequenziale: ogni token dipende da tutti i precedenti
Lo stesso prompt può dare output diversi se la decodifica non è deterministica

Attention: perché il contesto conta

Il meccanismo di self-attention permette a ogni token di “guardare” gli altri token della sequenza e pesare quanto sono rilevanti. È il motivo per cui un LLM mantiene coerenza su frasi lunghe e collega un pronome al soggetto corretto.

In pratica: tutto ciò che metti nel contesto influenza la predizione. Istruzioni chiare, esempi e documenti recuperati spostano le probabilità verso l'output che vuoi. Contesto disordinato o contraddittorio le sposta verso output peggiori.

Temperatura, top-p e determinismo

Dalla distribuzione di probabilità si campiona il token finale. I parametri di decodifica controllano quanto il modello è “creativo” o ripetibile.

Temperature bassa (0–0.3): output stabile, adatto a estrazione dati, classificazione, funzioni
Temperature alta (0.7+): output vario, adatto a brainstorming e scrittura
top-p / top-k: limitano i token candidati ai più probabili

Esempio di parametri per un task deterministico

temperature: 0.1top_p: 1.0max_tokens: 600seed: 42  // dove supportato, per riproducibilità

Cosa il modello NON fa

Un LLM non verifica i fatti, non accede a Internet e non conosce nulla oltre i suoi dati di addestramento, a meno che tu non glielo fornisca nel contesto (RAG) o tramite strumenti (tool calling).

Questo è il punto chiave dal lato ingegneristico: l'affidabilità non si “chiede” al modello, si progetta intorno al modello con retrieval, validazioni e supervisione.

In sintesi

Un LLM predice token, non recupera risposte: l'affidabilità si costruisce intorno al modello.
Tutto ciò che entra nel contesto sposta le probabilità: il prompt engineering è controllo del contesto.
Usa temperature bassa per task strutturati, alta solo per output creativi.
Per conoscenza aggiornata o azioni servono RAG e tool calling, non il modello da solo.

FAQ tecniche

Un LLM ragiona davvero?

Esegue un calcolo statistico molto sofisticato che può simulare passaggi di ragionamento, soprattutto se guidato (chain-of-thought). Ma non ha comprensione o intenzioni: produce la continuazione più probabile del testo.

Perché lo stesso prompt dà risposte diverse?

Perché la decodifica campiona dalla distribuzione di probabilità. Con temperature 0 e seed fisso l'output diventa quasi deterministico, utile per test e produzione.

Serve un modello più grande per avere risposte migliori?

Non sempre. Spesso contano di più contesto, retrieval e prompt. Un modello piccolo con buona architettura batte un modello grande mal integrato.

Come funzionano gli LLM

Predizione del token successivo

Attention: perché il contesto conta

Temperatura, top-p e determinismo

Cosa il modello NON fa

In sintesi

FAQ tecniche

Un LLM ragiona davvero?

Perché lo stesso prompt dà risposte diverse?

Serve un modello più grande per avere risposte migliori?

Articoli correlati

Dalla teoria al sistema in produzione.

Come funzionano gli LLM

Predizione del token successivo

Attention: perché il contesto conta

Temperatura, top-p e determinismo

Cosa il modello NON fa

In sintesi

FAQ tecniche

Un LLM ragiona davvero?

Perché lo stesso prompt dà risposte diverse?

Serve un modello più grande per avere risposte migliori?

Articoli correlati

Cos'è un token

Cos'è il contesto negli LLM

Perché le AI allucinano

Dalla teoria al sistema in produzione.