- OpenAI har lansert ChatGPT Images 2.0
- Den nye AI-bildemodellen forbedrer forgjengeren med mer nøyaktige, strukturerte og konsistente visuelle elementer.
- Oppdateringen legger til et resonneringstrinn som hjelper systemet med å tolke komplekse spørsmål bedre og bringer ChatGPT nærmere Gemini sine multimodale styrker.
OpenAI har lansert en større oppdatering til ChatGPTs bildegenerator. Selskapet hevder at den nye ChatGPT Images 2.0 er et skifte i hvordan AI-chatboten håndterer visuelle forespørsler, og går fra rask tolkning til noe som er nærmere bevisst konstruksjon. OpenAI-sjef Sam Altman og teamet hans pekte i en direktestrømmingsmelding på hvordan bildene nå oppfører seg mer som svar, bygget på en forståelse av hva du spurte om i stedet for en løs tilnærming til det.
«Images 2.0 er et stort skritt fremover», sa Altman. «Det er som å gå fra GPT-3 til GPT-5 i én vending. Evnen til å lage ekstremt vakre ting er bemerkelsesverdig. Teamet har virkelig stått på, og vi gleder oss til å se hva dere vil gjøre med den.»
Den mest umiddelbare forbedringen viser seg på steder der det pleide å gå galt. Tekst inni bilder er det åpenbare eksemplet. Plakater, menyer, lysbilder og alt som er avhengig av at ord er lesbare, har tradisjonelt vært upålitelig. Bokstaver ville bli forvrengt, avstanden ville forskyve seg, og meningen ville gå tapt.
Artikkelen fortsetter nedenfor
Den håndterer også strukturen mer selvsikkert. Hvis du ber om en layout med spesifikke elementer på spesifikke steder, er det mer sannsynlig at resultatet gjenspeiler den intensjonen. Modellen ser ut til å behandle oppgaven mindre som et forslag og mer som et sett med instruksjoner.
Dette vises også på mindre måter. Flere bilder generert fra samme idé har en tendens til å forbli visuelt konsistente, enten det betyr å holde en karakter gjenkjennelig eller opprettholde en delt stil på tvers av et sett.
Pause før opprettelse
Den største endringen er resonnementstrinnet ChatGPT Images 2.0 legger til før generering, slik at modellen kan jobbe seg gjennom en ledetekst før den skaper et endelig resultat.
I praksis betyr dette at den kan dele opp en forespørsel i deler, bestemme hvordan disse delene skal passe sammen, og deretter produsere et bilde som gjenspeiler planen. Den kan også trekke på tilleggskontekst som opplastede filer eller andre kilder på nettet. Det betyr at det tar litt lengre tid å få bildet, men det gir et bedre resultat og vil antagelig spare deg tid ved at det ikke kreves mange gjentatte forsøk.
Det er her bildegenerering begynner å ligne oppførselen til avanserte tekstmodeller. Prosessen er ikke lenger utelukkende reaktiv. Den er fortolkende. Resultatet gjenspeiler en sekvens av beslutninger snarere enn én enkelt runde.
Dette skiftet er viktigst når forespørselen har flere lag. Et flerdelt design eller en narrativ sekvens drar nytte av systemets evne til å holde disse delene sammen.
Konkurransedyktige visuelle elementer
Etter hvert som konkurransen innen multimodal AI tilspisser seg, kan OpenAI nå skilte med ChatGPT Images 2.0 som en sterkere rival til Google Gemini. Gemini har satset hardt på å koble sammen tekst, bilder og kontekst til ett enkelt system, og koblet sammen på tvers av digitale økosystemer. Det så ofte bedre ut enn ChatGPTs bilder i den konkurransen. Men ChatGPT Images 2.0 reduserer dette gapet.
Bedre resonnement, spesielt med tekst, betyr at ChatGPT kan utnytte Geminis styrker i strukturerte, multimodale oppgaver. Det gjør ikke ChatGPT til en klar vinner, men det bringer det nærmere konkurrentenes nivå på flere måter.
Tekstmodeller har allerede satt en standard for flytende, kontekstbevisste responser. Å bringe den samme typen resonnement inn i bildegenerering begynner å forene opplevelsen. Enten du skriver noe eller visualiserer det, fungerer systemet ut fra den samme underliggende forståelsen. Det er dit verktøy som ChatGPT og Gemini tydeligvis er på vei, og denne oppdateringen føles som et skritt som gjør denne konvergensen håndgripelig.
Til syvende og sist er en reduksjon i friksjon og forbedring i bilder det de fleste brukere bryr seg om. Hvis ChatGPT Images 2.0 kan skille seg ut som det beste alternativet, kan Google få større problemer med å lokke brukere til å migrere eller bli værende i sin egen AI-boble.

De beste business-laptopene for alle budsjetter


