A inizio 2024 ogni startup AI faceva RAG. A inizio 2026 metà delle stesse startup hanno smontato il loro stack vector. La frase del momento è "RAG is dead". Non è vero — ma è cambiato profondamente. Ecco la mappa onesta.
Cosa intendiamo per RAG, davvero
Retrieval-Augmented Generation classico: indicizzi documenti in un vector DB, recuperi i k chunk più simili a una query, li passi al modello come contesto. Funziona ancora per casi semplici. Fallisce su:
- Documenti tabulari (bilanci, fatture).
- Query con riferimenti incrociati (es. "confronta i due bandi").
- Knowledge base molto grandi dove i top-k chunk non bastano.
- Aggiornamenti rapidi (re-indexing costoso).
Le alternative del 2026
1. Long Context Direct
Modelli con 1M-2M token di contesto (Gemini 2.5 Pro, Claude con caching, GPT-5) ti permettono di iniettare l'intera knowledge base nel prompt, saltando il retrieval.
Quando ha senso: KB < 500 pagine, query rare, qualità di risposta critica. Costo: il prompt cresce a ogni chiamata, ma con prompt caching (sconti del 90%) diventa sostenibile.
2. Agentic RAG
Non recuperi una volta. L'agente decide cosa recuperare, scorre la KB iterativamente, valida, fa follow-up query. Le librerie come llama-index e langgraph lo supportano nativamente.
Quando ha senso: query complesse, multi-hop, domanda "perché". Costo: 3-5x il RAG classico, ma qualità incomparabile.
3. GraphRAG (Microsoft)
Microsoft Research ha mostrato che indicizzando i documenti come knowledge graph (entità + relazioni) le query "cross-domain" diventano molto più precise. Open source, ben documentato.
Quando ha senso: KB dense di relazioni implicite (es. organigramma, supply chain, normativa).
4. ColPali / ColQwen — RAG visivo
Invece di estrarre testo da un PDF, indicizzi le immagini delle pagine. Il retrieval avviene confrontando l'embedding visivo della query con quello delle pagine. Funziona spettacolarmente su PDF complessi (bilanci, presentazioni, infografiche).
Quando ha senso: la tua KB è fatta di PDF "visivi" (slide, report, paper scientifici).
Tabella decisionale
| Caso | Soluzione 2026 |
|---|---|
| KB piccola (< 500 pag), query rare | Long context direct |
| KB media, query molte ma simili | RAG classico + reranker BGE |
| KB grande, query complesse | Agentic RAG |
| KB con grafo entità | GraphRAG |
| KB visiva (PDF complessi) | ColPali |
Cosa NON cambierà
- Avrai sempre bisogno di chunking intelligente (semantic, non a 500-token fissi).
- I reranker (Cohere Rerank 3, Voyage Rerank-2) sono ancora il single biggest win.
- L'evaluation è ancora il vero problema: senza metriche di qualità non sai se stai migliorando.
Per una startup italiana
Caso reale: una nostra cliente legaltech ha sostituito RAG classico (Pinecone + OpenAI Embeddings) con Long Context Gemini + prompt caching. Risultato: latenza simile, costo dimezzato, qualità di risposta migliore del 30%. Il vector DB non serviva più.
Non è una regola universale, ma vale il test: prima di costruire RAG, prova a vedere se l'intera tua KB sta in 1M token. Spesso sì.
Il principio 2026: RAG resta utile, ma non è più il default. È diventato una scelta architetturale tra cinque, e devi giustificarla.
Trovato utile? Condividi con un founder che ne ha bisogno.
L'autore
Team StartApp
Siamo il team di Arcano Zero — AI Lab, basati a Roma. Costruiamo StartApp Toolbox, la piattaforma AI che aiuta i founder italiani a generare Business Plan, Pitch Deck e Financial Model investment-ready. Scriviamo qui di AI, fundraising e ecosistema startup italiano — senza hype.