Il 13 maggio, OpenAI ha annunciato il lancio di GPT-4o, il suo nuovo modello di punta, che rappresenta un significativo passo avanti verso interazioni più naturali tra esseri umani e computer. GPT-4o, dove “o” sta per “omni”, accetta come input qualsiasi combinazione di testo, audio e immagini, e può generare output in qualsiasi di questi formati.
Innovazione nelle Capacità del Modello
GPT-4o è progettato per elaborare input audio con una latenza minima di 232 millisecondi, raggiungendo in media 320 millisecondi, comparabile al tempo di risposta umano in una conversazione. Questo modello offre prestazioni equivalenti a GPT-4 Turbo per testo in inglese e codice, con significativi miglioramenti per testi in lingue diverse dall’inglese. Inoltre, GPT-4o è molto più veloce e il 50% più economico nell’API. Un altro punto di forza è la sua avanzata comprensione di visione e audio.
Esperienze d’Uso e Interazioni
Ecco alcune delle nuove capacità di GPT-4o:
-
- Due GPT-4o che interagiscono e cantano insieme.
- Preparazione per interviste.
- Gioco di Sasso, Carta, Forbice.
- Uso del sarcasmo.
- Risolvere problemi matematici con esperti.
- Armonizzazione musicale tra due GPT-4o.
- Apprendimento in tempo reale di una nuova lingua.
- Traduzioni in tempo reale.
- Cantare ninne nanne.
- Raccontare barzellette.
- Applicazioni per assistenza clienti.
Miglioramenti Tecnici e Prestazionali
GPT-4o è stato addestrato end-to-end per elaborare simultaneamente input e output di testo, visione e audio, eliminando le limitazioni dei precedenti modelli a pipeline. Questo modello eccelle nei benchmark di percezione visiva e comprensione multilingue, superando GPT-4 in queste aree. Ha anche ottenuto nuovi record nella traduzione e nel riconoscimento vocale rispetto a Whisper-v3.
Tokenizzazione Multilingue
Il nuovo tokenizzatore di GPT-4o comprime efficacemente i dati in diverse famiglie linguistiche. Ad esempio:
-
- Gujarati: 4.4x meno token
- Telugu: 3.5x meno token
- Tamil: 3.3x meno token
Sicurezza e Limitazioni del Modello
La sicurezza è integrata nel design di GPT-4o attraverso tecniche come il filtraggio dei dati di addestramento e la rifinitura del comportamento del modello post-addestramento. OpenAI ha valutato GPT-4o secondo il loro Framework di Preparazione, risultando in un rischio medio in tutte le categorie esaminate. Sono stati coinvolti oltre 70 esperti esterni per identificare e mitigare i rischi, specialmente quelli introdotti dalle nuove modalità audio.
Disponibilità del Modello
GPT-4o è ora disponibile su ChatGPT, nella versione gratuita e per gli utenti Plus con limiti di messaggi 5x superiori. Gli sviluppatori possono accedere a GPT-4o nell’API come modello di testo e visione, con il lancio delle nuove capacità audio e video previsto per le prossime settimane.
Conclusione
GPT-4o rappresenta un significativo progresso nella tecnologia dei modelli linguistici, offrendo interazioni più rapide, naturali ed economiche. Continueremo a esplorare e migliorare le capacità del modello, spingendoci verso un futuro in cui l’interazione uomo-computer sarà ancora più intuitiva e coinvolgente.
Per ulteriori dettagli e aggiornamenti su GPT-4o, visita il sito ufficiale di OpenAI.