Immagine GPT 1.5: più velocità e controllo per le immagini AI

Con GPT-Image 1.5, OpenAI sta ampliando le funzioni di immagine di ChatGPT. Una nuova visualizzazione delle immagini raggruppa la creazione e la modifica di contenuti visivi ed è progettata per funzionare in modo più preciso e veloce rispetto alle soluzioni precedenti.

OpenAI ha presentato GPT-Image 1.5, un nuovo modello per la generazione di immagini che è direttamente integrato in ChatGPT. La nuova vista Immagini di ChatGPT consente agli utenti di creare immagini, modificare le foto caricate e sviluppare ulteriormente i contenuti visivi in modo mirato. Il tutto all'interno di un'interfaccia centralizzata.

La nuova vista Immagini è integrata direttamente nella navigazione di ChatGPT ed etichettata come area separata.

Più veloce e più preciso: il nuovo modello

Secondo OpenAI, il nuovo modello è significativamente più veloce del precedente e implementa le istruzioni in modo più preciso. L'azienda tecnologica parla di una velocità fino a quattro volte superiore e di una migliore elaborazione delle istruzioni, che facilita le modifiche mirate alle immagini e riduce le interruzioni di stile involontarie.

ChatGPT Images inserisce nuovi elementi di immagine in scene esistenti nel giusto contesto e regola la prospettiva e l'illuminazione. Tuttavia, il mio braccio sembra un po' strano.

Vista immagini personalizzata per il lavoro visivo

La nuova vista immagini di ChatGPT mette al centro la generazione e la modifica delle immagini. Gli utenti possono realizzare direttamente le idee di immagine, confrontare le varianti e rielaborare i risultati precedenti. La chat rimane parte del flusso di lavoro, in modo che i concetti e i testi possano continuare a essere sviluppati nel dialogo.

La correzione mirata del testo specchiato funziona, ma non sempre rimane priva di errori nei dettagli a causa del mio prompt semplificato.

Oltre alla classica generazione da testo a immagine, OpenAI si sta concentrando maggiormente sulla modifica di immagini esistenti. Le foto caricate possono essere modificate in modo specifico, singole aree possono essere mascherate, sostituite o aggiunte. Il tutto viene controllato esclusivamente tramite comandi di testo. Secondo OpenAI, la funzione non è intesa come un sostituto del software professionale di editing delle immagini, ma come una soluzione per bozze rapide, illustrazioni e aggiustamenti editoriali.

Classificazione nel mercato dei generatori di immagini AI

Rispetto ai generatori di immagini specializzati come Midjourney o Stable Diffusion, OpenAI adotta un approccio diverso: la generazione di immagini è integrata in una piattaforma di AI universale e si concentra sull'accessibilità e sull'integrazione del contesto. Mentre Midjourney è spesso leader nella creazione di immagini singole esteticamente sofisticate e Stable Diffusion offre flessibilità tecnica, ChatGPT Images pone l'accento sull'efficienza del flusso di lavoro e sulla facilità d'uso. La differenza decisiva non sta tanto nella pura qualità dell'immagine, quanto nell'integrazione di testo, immagini ed editing in un unico sistema.

GPT-Immagine 1.5 cambia in modo specifico l'abbigliamento e lo stile mantenendo la posa, l'espressione del viso e l'atmosfera della luce.

Google sta perseguendo un obiettivo diverso con Gemini Imagen 4 e Nano Banana Pro. I nuovi strumenti si concentrano principalmente sull'alta qualità delle immagini, su una migliore integrazione del testo e sull'integrazione diretta nelle applicazioni di Google Workspace. Nano Banana Pro si rivolge anche a contenuti più strutturati come le infografiche o le visualizzazioni basate sui dati.

Mentre Google inserisce chiaramente i suoi generatori di immagini in ambienti di lavoro produttivi, OpenAI posiziona ChatGPT Images come uno strumento versatile e a bassa soglia. La differenza non sta tanto nella pura qualità delle immagini quanto nel rispettivo orientamento: qui l'integrazione nei flussi di lavoro esistenti in ufficio, là uno spazio di lavoro universale per l'intelligenza artificiale.

