Un Large Language Model non “capisce” il testo: predice il token successivo più probabile, uno alla volta, sulla base di tutto ciò che ha letto prima. Capire davvero questo meccanismo cambia il modo in cui progetti prompt, knowledge base e guardrail. Qui spieghiamo come funziona un LLM dal punto di vista di chi i sistemi li costruisce.
Predizione del token successivo
Un LLM è una funzione che riceve una sequenza di token e restituisce una distribuzione di probabilità sul token successivo. Genera testo in modo autoregressivo: produce un token, lo aggiunge all'input e ripete.
Non esiste una “memoria” o un “database di risposte” dentro il modello. Esiste solo una rete neurale che, dato un contesto, calcola quanto è probabile ciascun token del vocabolario. La fluidità del risultato nasce da miliardi di parametri allenati su enormi quantità di testo.
- Input → tokenizzazione → embedding → strati Transformer → logits → distribuzione di probabilità
- La generazione è sequenziale: ogni token dipende da tutti i precedenti
- Lo stesso prompt può dare output diversi se la decodifica non è deterministica
Attention: perché il contesto conta
Il meccanismo di self-attention permette a ogni token di “guardare” gli altri token della sequenza e pesare quanto sono rilevanti. È il motivo per cui un LLM mantiene coerenza su frasi lunghe e collega un pronome al soggetto corretto.
In pratica: tutto ciò che metti nel contesto influenza la predizione. Istruzioni chiare, esempi e documenti recuperati spostano le probabilità verso l'output che vuoi. Contesto disordinato o contraddittorio le sposta verso output peggiori.
Temperatura, top-p e determinismo
Dalla distribuzione di probabilità si campiona il token finale. I parametri di decodifica controllano quanto il modello è “creativo” o ripetibile.
- Temperature bassa (0–0.3): output stabile, adatto a estrazione dati, classificazione, funzioni
- Temperature alta (0.7+): output vario, adatto a brainstorming e scrittura
- top-p / top-k: limitano i token candidati ai più probabili
temperature: 0.1top_p: 1.0max_tokens: 600seed: 42 // dove supportato, per riproducibilità
Cosa il modello NON fa
Un LLM non verifica i fatti, non accede a Internet e non conosce nulla oltre i suoi dati di addestramento, a meno che tu non glielo fornisca nel contesto (RAG) o tramite strumenti (tool calling).
Questo è il punto chiave dal lato ingegneristico: l'affidabilità non si “chiede” al modello, si progetta intorno al modello con retrieval, validazioni e supervisione.
In sintesi
- Un LLM predice token, non recupera risposte: l'affidabilità si costruisce intorno al modello.
- Tutto ciò che entra nel contesto sposta le probabilità: il prompt engineering è controllo del contesto.
- Usa temperature bassa per task strutturati, alta solo per output creativi.
- Per conoscenza aggiornata o azioni servono RAG e tool calling, non il modello da solo.
FAQ tecniche
Un LLM ragiona davvero?
Esegue un calcolo statistico molto sofisticato che può simulare passaggi di ragionamento, soprattutto se guidato (chain-of-thought). Ma non ha comprensione o intenzioni: produce la continuazione più probabile del testo.
Perché lo stesso prompt dà risposte diverse?
Perché la decodifica campiona dalla distribuzione di probabilità. Con temperature 0 e seed fisso l'output diventa quasi deterministico, utile per test e produzione.
Serve un modello più grande per avere risposte migliori?
Non sempre. Spesso contano di più contesto, retrieval e prompt. Un modello piccolo con buona architettura batte un modello grande mal integrato.