Smettila di leggere benchmark MMLU. Per chi gestisce una startup il discorso è un altro: quale modello mi fa lavorare meglio, in italiano, su task reali? Abbiamo testato i tre principali su 8 scenari concreti. Ecco cosa è venuto fuori.
Setup del test
- Claude Sonnet 4.5 (Anthropic API, knowledge cutoff aprile 2026)
- GPT-5 (OpenAI API, knowledge cutoff marzo 2026)
- Gemini 2.5 Pro (Google AI Studio, knowledge cutoff maggio 2026)
Per ognuno: stesso prompt, stessa temperatura (0.3), italiano nativo dove possibile. Misure: qualità soggettiva (3 reviewer), tempo, costo.
I risultati per task
1. Stesura Executive Summary in italiano
| Modello | Qualità | Tempo | Costo |
|---|---|---|---|
| Claude Sonnet 4.5 | 9/10 | 28s | €0,021 |
| GPT-5 | 8/10 | 22s | €0,025 |
| Gemini 2.5 Pro | 7/10 | 19s | €0,011 |
Claude vince per stile italiano: produce un testo che non sembra tradotto. GPT-5 cede a italianesimi un po' macchinali ("a costo di...", "non solo... ma anche..."). Gemini più asciutto ma talvolta sintattico-bizzarro.
2. Analisi di un bilancio italiano (PDF da Camera di Commercio)
- Claude: legge correttamente il PDF, identifica le 5 voci anomale. 9/10.
- GPT-5: idem, leggermente più verboso. 8/10.
- Gemini: estrae i numeri ma manca di contesto fiscale italiano (confonde IVA e IRES). 6/10.
3. Generazione codice TypeScript + Next.js 14
- Claude: codice pulito, idiomatico, dependency check corrette. 9/10.
- GPT-5: codice funzionale ma a volte usa pattern obsoleti (es.
getServerSideProps). 7/10. - Gemini: ottimo su problemi algoritmici, debole sui framework recenti. 7/10.
4. Calcolo TAM/SAM/SOM per un mercato italiano
- Claude: domanda chiarimenti se manca contesto, poi numeri ragionati. 8/10.
- GPT-5: numeri spesso più ottimistici, citation realistiche ma a volte inventate. 7/10.
- Gemini: i numeri più realistici grazie all'accesso a Google Search nativo. 9/10.
5. Risposta a un VC italiano (registro tone-of-voice)
- Claude: tono più "umano", meno corporate. 9/10.
- GPT-5: tendenza al template "sono entusiasta di...". 6/10.
- Gemini: rigido, suona AI. 5/10.
6. Estrazione strutturata da bandi PNRR
- Tutti e tre affidabili con output schema-validated.
- Gemini è il più veloce (32% di tempo in meno) grazie a context caching.
7. Roleplay come consulente
- Claude: il più convincente. Ha capito le sfumature culturali italiane (es. "fondo perduto" vs "tasso zero"). 9/10.
- GPT-5: forte ma più "americano". 7/10.
- Gemini: rigido. 6/10.
8. Programmazione a lungo contesto (legge 600 pagine di documenti)
- Gemini 2.5 Pro vince a mani basse: 2M token context, recall accurato. 9/10.
- Claude: 200K context standard. Ottimo entro quel limite. 8/10.
- GPT-5: 256K context, recall buono ma più lento. 7/10.
Costo totale del nostro test (8 task)
- Gemini 2.5 Pro: €0,09
- Claude Sonnet 4.5: €0,16
- GPT-5: €0,21
La nostra raccomandazione operativa
Non c'è un vincitore assoluto. C'è uno specialista per ogni task:
- Default per testi business in italiano + codice TypeScript: Claude Sonnet 4.5.
- Default per analisi long-context (PDF lunghi, codici interi): Gemini 2.5 Pro.
- Default per roleplay/copywriting marketing: Claude.
- Default per task scientifici/quantitativi con citation: Gemini (search nativo) o GPT-5.
Suggerimento pragmatico: usa router LLM (es. OpenRouter, LiteLLM) e instrada automaticamente in base al task. Costo sotto controllo e qualità massima.
Nei nostri prodotti AI consultant interni usiamo Claude Sonnet 4.5 al 70% e Gemini 2.5 Pro al 30% per i casi long-context. GPT-5 lo abbiamo deprecato dopo i test di marzo.
Trovato utile? Condividi con un founder che ne ha bisogno.
L'autore
Team StartApp
Siamo il team di Arcano Zero — AI Lab, basati a Roma. Costruiamo StartApp Toolbox, la piattaforma AI che aiuta i founder italiani a generare Business Plan, Pitch Deck e Financial Model investment-ready. Scriviamo qui di AI, fundraising e ecosistema startup italiano — senza hype.