Il 13 maggio, OpenAI ha annunciato il lancio di GPT-4o, il suo nuovo modello di punta, che rappresenta un significativo passo avanti verso interazioni più naturali tra esseri umani e computer. GPT-4o, dove “o” sta per “omni”, accetta come input qualsiasi combinazione di testo, audio e immagini, e può generare output in qualsiasi di questi formati.
Innovation in Model Capabilities
GPT-4o è progettato per elaborare input audio con una latenza minima di 232 millisecondi, raggiungendo in media 320 millisecondi, comparabile al tempo di risposta umano in una conversazione. Questo modello offre prestazioni equivalenti a GPT-4 Turbo per testo in inglese e codice, con significativi miglioramenti per testi in lingue diverse dall’inglese. Inoltre, GPT-4o è molto più veloce e il 50% più economico nell’API. Un altro punto di forza è la sua avanzata comprensione di visione e audio.
Usage Experiences and Interactions
Ecco alcune delle nuove capacità di GPT-4o:
-
- Two GPT-4o interacting and singing together.
- Interview preparation.
- Rock, Paper, Scissors Game.
- Use of sarcasm.
- Solve math problems with experts.
- Musical harmonization between two GPT-4o.
- Real-time learning of a new language.
- Real-time translations.
- Singing lullabies.
- Telling jokes.
- Customer Support Applications.
-
- Gujarati: 4.4x fewer tokens
- Telugu: 3.5x fewer tokens
- Tamil: 3.3x fewer tokens
Model Safety and Limitations
La sicurezza è integrata nel design di GPT-4o attraverso tecniche come il filtraggio dei dati di addestramento e la rifinitura del comportamento del modello post-addestramento. OpenAI ha valutato GPT-4o secondo il loro Framework di Preparazione, risultando in un rischio medio in tutte le categorie esaminate. Sono stati coinvolti oltre 70 esperti esterni per identificare e mitigare i rischi, specialmente quelli introdotti dalle nuove modalità audio.
Model Availability
GPT-4o è ora disponibile su ChatGPT, nella versione gratuita e per gli utenti Plus con limiti di messaggi 5x superiori. Gli sviluppatori possono accedere a GPT-4o nell’API come modello di testo e visione, con il lancio delle nuove capacità audio e video previsto per le prossime settimane.
Conclusion
GPT-4o rappresenta un significativo progresso nella tecnologia dei modelli linguistici, offrendo interazioni più rapide, naturali ed economiche. Continueremo a esplorare e migliorare le capacità del modello, spingendoci verso un futuro in cui l’interazione uomo-computer sarà ancora più intuitiva e coinvolgente.
Per ulteriori dettagli e aggiornamenti su GPT-4o, visita il sito ufficiale di OpenAI.
Technical and Performance Improvements
GPT-4o è stato addestrato end-to-end per elaborare simultaneamente input e output di testo, visione e audio, eliminando le limitazioni dei precedenti modelli a pipeline. Questo modello eccelle nei benchmark di percezione visiva e comprensione multilingue, superando GPT-4 in queste aree. Ha anche ottenuto nuovi record nella traduzione e nel riconoscimento vocale rispetto a Whisper-v3.
Multilingual Tokenization
Il nuovo tokenizzatore di GPT-4o comprime efficacemente i dati in diverse famiglie linguistiche. Ad esempio:

