Quando un’azienda vuole “usare l’AI con i propri dati”, spesso chiede: “Dobbiamo addestrare un modello?”. Nella maggior parte dei casi no. Addestrare (fine-tuning) è costoso, richiede competenze e soprattutto non è il modo migliore per far sì che l’AI citi correttamente procedure, listini, FAQ aggiornate.
Qui entra in gioco il RAG (Retrieval-Augmented Generation): un approccio che permette a un modello di linguaggio di consultare i tuoi documenti prima di rispondere.
Perché “addestrare il modello” non è la risposta
Il fine-tuning serve quando vuoi cambiare comportamenti e stile in modo strutturale (ad esempio classificazione con etichette, tono molto specifico, task ripetitivo). Ma se il problema è “deve sapere le nostre policy aggiornate”, il fine-tuning è inefficiente:
- ogni modifica richiede un nuovo ciclo;
- rischi di “incorporare” informazioni obsolete;
- non hai citazioni puntuali del documento.
Il RAG, invece, usa i documenti come fonte esterna aggiornata.
Cos’è il RAG in parole semplici
RAG = Ricerca + Generazione.
- Quando fai una domanda, il sistema cerca nei tuoi documenti i passaggi pertinenti (retrieval).
- Poi il modello genera la risposta usando quei passaggi come contesto.
L’obiettivo non è “far diventare l’AI esperta”: è farla rispondere con prove.
Componenti: documenti, chunk, embedding, vector DB
Per far funzionare bene un RAG, devi curare tre aspetti.
1) Documenti
PDF, wiki, manuali, email template, policy: tutto va bene, ma meglio se:
- aggiornati;
- con versioni;
- con struttura (titoli, sezioni).
2) Chunking
I documenti vengono spezzati in “pezzi” (chunk). Se i chunk sono troppo grandi, recuperi contenuto inutile; se sono troppo piccoli, perdi contesto.
Linee guida pratiche:
- chunk 300–800 parole (dipende dal dominio);
- overlap 10–20% per non spezzare concetti;
- conservare titoli e paragrafi come metadati.
3) Embedding
Gli embedding sono rappresentazioni numeriche che catturano “somiglianza semantica”. La tua domanda viene trasformata in embedding e confrontata con quelli dei chunk per trovare i più simili.
Per te, in pratica, significa: se chiedi “politica resi”, il sistema trova anche chunk che parlano di “restituzione merce” o “RMA”, anche se non usano la stessa parola.
Vector database
Serve per memorizzare e cercare embedding in modo efficiente (anche un DB semplice può bastare all’inizio, ma per scalare conviene una soluzione dedicata).
Retrieval: come trovare i pezzi giusti
Il retrieval “naïve” prende i top-k chunk più simili. In azienda conviene migliorare:
- Metadati e filtri: reparto=assistenza, lingua=IT, versione=2026.
- Re-ranking: una seconda fase che riordina i risultati con un modello più preciso.
- Hybrid search: combinare ricerca per parole chiave e semantica.
Esempio: per un catalogo prodotti, filtri per brand/modello aumentano precisione e riducono allucinazioni.
Prompt e citazioni: come rendere l’output affidabile
Un RAG robusto non dice solo “ecco la risposta”: include anche da dove viene. Due tecniche utili:
- chiedere esplicitamente: “Cita le fonti con titolo documento e sezione”.
- vincolo: “Se non trovi nei documenti, dì che non lo sai e chiedi chiarimenti”.
Puoi anche forzare un formato:
- Risposta breve
- Passaggi rilevanti (quote)
- Azioni successive
Errori comuni e checklist di qualità
Errori tipici:
- Documenti sporchi (PDF scannerizzati senza testo). Soluzione: OCR.
- Chunk senza contesto (solo tabelle). Soluzione: aggiungere titoli e righe di supporto.
- Dati non versionati: l’AI pesca policy vecchie. Soluzione: metadati “valid_from/valid_to”.
- Top-k troppo basso: recuperi poco. Soluzione: aumentare e usare re-ranking.
- Prompt permissivo: il modello “completa” con fantasia. Soluzione: regole e citazioni.
Checklist rapida:
- Recupera sempre le fonti giuste su 20 domande test?
- Le risposte citano sezioni reali?
- Se manca un documento, l’AI lo ammette?
Mini-progetto in 5 step per una PMI
- Seleziona 30–50 documenti core.
- Pulisci e struttura (titoli, versioni, OCR).
- Chunking + embedding + indicizzazione.
- Query test: 50 domande reali (supporto/vendite).
- Messa in produzione con logging e feedback loop.
Il RAG è il ponte tra “AI generica” e “AI utile in azienda”. Non serve essere una big tech: serve ordine nei documenti e una pipeline semplice ma ben controllata.
Servizi correlati Ottobix

