GPT‑4o přináší vylepšené a pokročilé generování obrázků, výsledky jsou opravdu dobré!

Společnost OpenAI představuje novou éru vizuální tvorby – generování obrázků je nyní nativní součástí GPT‑4o, nejnovějšího modelu umělé inteligence. Jedná se tedy o nativní generátor obrázků, stačí do chatu zadat prompt a generování proběhne automaticky.
Vizualizace jako nástroj, ne jen dekorace
Generování obrázku od Open AI využívalo model DALL-E a ruku na srdce, nejednalo se zrovna o nejostřejší tužku v penálu. Na počátku, zhruba tři roky nazpět to sice bylo "wow", ale z dnešního pohledu, kdy zde máme Midjourney, Stable diffusion, Flux a další modely, DALL-E negeneruje nic zázračného. OpenAI ale, jak je vidět, nelenilo a nyní přichází s vylepšeným modelem GPT-4o, které přináší opravdu znatelný pokrok.
Nové schopnosti modelu umožňují vytvářet precizní a funkční obrázky, které přesně odpovídají zadání a reflektují kontext celého rozhovoru – včetně nahraných souborů nebo předchozí konverzace.
Co nového GPT‑4o v oblasti generování obrázků umí?
Kontextová inteligence a učení z nahraných obrázků
Model byl trénován na propojení obrazového a textového světa. Umí nejen pochopit, jak obrázky souvisejí s jazykem, ale i jak spolu souvisejí navzájem. Díky tomu je schopný vytvářet sémanticky konzistentní, přirozené a účelově správné obrázky.
Uživatel může nahrát vlastní obrázky, ze kterých se GPT‑4o „učí“ a využívá jejich prvky v další tvorbě. Výsledkem jsou vizuály, které přesně reflektují požadavky zadavatele.
Přesné vykreslování textu
Jedním z klíčových zlepšení je schopnost věrně generovat text v obrázcích – bez častých chyb, které známe z jiných nástrojů. To z GPT‑4o dělá silný nástroj pro tvorbu:
- vizitek
- infografiky
- plakátů
- brandových prvků
Vícekrokové generování a konzistence
Obrázky můžete postupně upravovat pomocí běžné konverzace. GPT‑4o si pamatuje kontext a umožňuje navazující modifikace – například při tvorbě postavy do hry zůstává její vzhled konzistentní i při postupných změnách.
Precizní plnění složitých zadání
Zatímco jiné modely mají problémy s více než 5–8 objekty, GPT‑4o zvládne 10–20 objektů s přesnými vztahy, vlastnostmi a kompozicí. To otevírá nové možnosti například pro:
- vizuální výukové materiály
- technické ilustrace
- produktové koncepty
Vylepšený model GPT-4o pro generování obrázků v praxi
Neodpustil jsem si již tradiční porovnání s kdysi skvělým modelem Grok, který byl svého času v beta verzi a pro generování obrázků využíval německého modelu Flux. Dnes už na tom je Grok podstatně hůře - psal jsem o tom zde: Grok 2: co se stalo s kvalitou generovaných obrázků?, ale zaplať pánbů, že OpenAI nezaspalo a přichází se svým obrázkovým modelem.
Níže jsou prompty, které tradičně používám pro srovnávání modelů a posuďte sami, vylepšený model od OpenAI udělal opravdu veliký pokrok. Sice to stále není ta kvalita (ve srovnání s obrázky při stejném promptu v článku z minulého roku) kterou bych si přál, ale oproti původním výstupům je to super.
Na druhou stranu je OpenAI u GPT-4o v generování obrázků opatrné a to tehdy, jedná-li se o obrázky chráněné právy, nebo jsou li obecně v rozporu se zásadami. Dívku v jezeře, nebo Indiana Jonese v supermarketu mi odmítl vygenerovat.


Tour de France cyklista






S uvedením nativního generování obrázků v GPT‑4o přichází nejen nové možnosti, ale i zvýšená odpovědnost. OpenAI klade velký důraz na bezpečnost, transparentnost a férové používání této technologie – a to jak při vývoji, tak při reálném nasazení mezi uživateli.
Cílem OpenAI je podporovat hodnotné kreativní scénáře, jako je vývoj her, vzdělávání nebo historická vizualizace, a přitom chránit uživatele i společnost před zneužitím. To znamená umožnit svobodu tvoření, ale zároveň důsledně blokovat požadavky, které by porušovaly pravidla platformy.
Transparentnost díky C2PA a vnitřnímu ověřování
Každý vygenerovaný obrázek obsahuje C2PA metadata, která jasně uvádí, že pochází z GPT‑4o. To zvyšuje důvěru a umožňuje snadnější odhalení případného zneužití.
Kromě toho OpenAI vyvinula interní nástroj pro reverzní ověřování obrázků, který využívá technické znaky generovaných výstupů k určení, zda obrázek pochází z jejich modelu.
Blokace nelegálního a škodlivého obsahu
Nadále jsou blokovány všechny požadavky na obsah, který porušuje zásady OpenAI – například:
- dětské zneužívání
- deepfakes s explicitním obsahem
- násilné nebo pornografické zobrazení skutečných osob
Zvláštní pozornost je věnována situacím, kdy je v kontextu zmíněna skutečná osoba. Systém obsahuje zesílené ochranné mechanismy zejména u nahoty a grafického násilí.
Zajištění bezpečnosti pomocí LLM uvažování
Během vývoje GPT‑4o využívala OpenAI tzv. "reasoning LLM" – jazykový model, který funguje podle ručně psaných pravidel bezpečnosti. Díky tomu bylo možné identifikovat nejasnosti v interních zásadách a upravit systém tak, aby lépe odpovídal reálnému světu.
Tento přístup doplňuje stávající bezpečnostní techniky používané v ChatGPT a videoplatformě Sora, včetně moderace vstupního textu i výstupního obrázku.
Dostupnost funkce generování obrázků
Generování obrázků přes GPT‑4o je od dnešního dne dostupné pro uživatele tarifů Plus, Pro, Team a také pro bezplatné použití Free – jako výchozí nástroj v ChatGPT. V blízké době se přidají i uživatelé z plánů Enterprise a Edu. Funkce je navíc dostupná i ve videoplatformě Sora. Pro milovníky klasického nástroje DALL·E zůstává tato varianta dostupná prostřednictvím dedikovaného DALL·E image generátoru.
Jak generovat vlastní obrázky?
Stačí běžně komunikovat s ChatGPT prostřednictvím chatu – popsat, co chcete, a uvést specifikace jako:
- barevný kód (např. #FF5733)
- poměr stran
- transparentní pozadí
- nebo konkrétní styl.
Vzhledem k vyšší kvalitě trvá vytvoření jednoho obrázku až jednu minutu.
Zdroj: OpenaAI