Con GPT-Image 1.5, OpenAI sta ampliando le funzioni di immagine di ChatGPT. Una nuova visualizzazione delle immagini raggruppa la creazione e la modifica di contenuti visivi ed è progettata per funzionare in modo più preciso e veloce rispetto alle soluzioni precedenti.
OpenAI ha presentato GPT-Image 1.5, un nuovo modello per la generazione di immagini che è direttamente integrato in ChatGPT. La nuova vista Immagini di ChatGPT consente agli utenti di creare immagini, modificare le foto caricate e sviluppare ulteriormente i contenuti visivi in modo mirato. Il tutto all'interno di un'interfaccia centralizzata.
Secondo OpenAI, il nuovo modello è significativamente più veloce del precedente e implementa le istruzioni in modo più preciso. L'azienda tecnologica parla di una velocità fino a quattro volte superiore e di una migliore elaborazione delle istruzioni, che facilita le modifiche mirate alle immagini e riduce le interruzioni di stile involontarie.
La nuova vista immagini di ChatGPT mette al centro la generazione e la modifica delle immagini. Gli utenti possono realizzare direttamente le idee di immagine, confrontare le varianti e rielaborare i risultati precedenti. La chat rimane parte del flusso di lavoro, in modo che i concetti e i testi possano continuare a essere sviluppati nel dialogo.
Oltre alla classica generazione da testo a immagine, OpenAI si sta concentrando maggiormente sulla modifica di immagini esistenti. Le foto caricate possono essere modificate in modo specifico, singole aree possono essere mascherate, sostituite o aggiunte. Il tutto viene controllato esclusivamente tramite comandi di testo. Secondo OpenAI, la funzione non è intesa come un sostituto del software professionale di editing delle immagini, ma come una soluzione per bozze rapide, illustrazioni e aggiustamenti editoriali.
Rispetto ai generatori di immagini specializzati come Midjourney o Stable Diffusion, OpenAI adotta un approccio diverso: la generazione di immagini è integrata in una piattaforma di AI universale e si concentra sull'accessibilità e sull'integrazione del contesto. Mentre Midjourney è spesso leader nella creazione di immagini singole esteticamente sofisticate e Stable Diffusion offre flessibilità tecnica, ChatGPT Images pone l'accento sull'efficienza del flusso di lavoro e sulla facilità d'uso. La differenza decisiva non sta tanto nella pura qualità dell'immagine, quanto nell'integrazione di testo, immagini ed editing in un unico sistema.
Google sta perseguendo un obiettivo diverso con Gemini Imagen 4 e Nano Banana Pro. I nuovi strumenti si concentrano principalmente sull'alta qualità delle immagini, su una migliore integrazione del testo e sull'integrazione diretta nelle applicazioni di Google Workspace. Nano Banana Pro si rivolge anche a contenuti più strutturati come le infografiche o le visualizzazioni basate sui dati.
Mentre Google inserisce chiaramente i suoi generatori di immagini in ambienti di lavoro produttivi, OpenAI posiziona ChatGPT Images come uno strumento versatile e a bassa soglia. La differenza non sta tanto nella pura qualità delle immagini quanto nel rispettivo orientamento: qui l'integrazione nei flussi di lavoro esistenti in ufficio, là uno spazio di lavoro universale per l'intelligenza artificiale.
