Skip to main content

Il 13 maggio, OpenAI ha annunciato il lancio di GPT-4o, il suo nuovo modello di punta, che rappresenta un significativo passo avanti verso interazioni più naturali tra esseri umani e computer. GPT-4o, dove “o” sta per “omni”, accetta come input qualsiasi combinazione di testo, audio e immagini, e può generare output in qualsiasi di questi formati.

Innovation in Model Capabilities

GPT-4o è progettato per elaborare input audio con una latenza minima di 232 millisecondi, raggiungendo in media 320 millisecondi, comparabile al tempo di risposta umano in una conversazione. Questo modello offre prestazioni equivalenti a GPT-4 Turbo per testo in inglese e codice, con significativi miglioramenti per testi in lingue diverse dall’inglese. Inoltre, GPT-4o è molto più veloce e il 50% più economico nell’API. Un altro punto di forza è la sua avanzata comprensione di visione e audio.

Usage Experiences and Interactions

Ecco alcune delle nuove capacità di GPT-4o:

    • Two GPT-4o interacting and singing together.
    • Interview preparation.
    • Rock, Paper, Scissors Game.
    • Use of sarcasm.
    • Solve math problems with experts.
    • Musical harmonization between two GPT-4o.
    • Real-time learning of a new language.
    • Real-time translations.
    • Singing lullabies.
    • Telling jokes.
    • Customer Support Applications.
    • Technical and Performance Improvements

      GPT-4o è stato addestrato end-to-end per elaborare simultaneamente input e output di testo, visione e audio, eliminando le limitazioni dei precedenti modelli a pipeline. Questo modello eccelle nei benchmark di percezione visiva e comprensione multilingue, superando GPT-4 in queste aree. Ha anche ottenuto nuovi record nella traduzione e nel riconoscimento vocale rispetto a Whisper-v3.

      Multilingual Tokenization

      Il nuovo tokenizzatore di GPT-4o comprime efficacemente i dati in diverse famiglie linguistiche. Ad esempio:

        • Gujarati: 4.4x fewer tokens
        • Telugu: 3.5x fewer tokens
        • Tamil: 3.3x fewer tokens
        • Model Safety and Limitations

          La sicurezza è integrata nel design di GPT-4o attraverso tecniche come il filtraggio dei dati di addestramento e la rifinitura del comportamento del modello post-addestramento. OpenAI ha valutato GPT-4o secondo il loro Framework di Preparazione, risultando in un rischio medio in tutte le categorie esaminate. Sono stati coinvolti oltre 70 esperti esterni per identificare e mitigare i rischi, specialmente quelli introdotti dalle nuove modalità audio.

          Model Availability

          GPT-4o è ora disponibile su ChatGPT, nella versione gratuita e per gli utenti Plus con limiti di messaggi 5x superiori. Gli sviluppatori possono accedere a GPT-4o nell’API come modello di testo e visione, con il lancio delle nuove capacità audio e video previsto per le prossime settimane.

          Conclusion

          GPT-4o rappresenta un significativo progresso nella tecnologia dei modelli linguistici, offrendo interazioni più rapide, naturali ed economiche. Continueremo a esplorare e migliorare le capacità del modello, spingendoci verso un futuro in cui l’interazione uomo-computer sarà ancora più intuitiva e coinvolgente.

          Per ulteriori dettagli e aggiornamenti su GPT-4o, visita il sito ufficiale di OpenAI.

           

Call Now Button