GPT‑4o přináší vylepšené a pokročilé generování obrázků, výsledky jsou opravdu dobré!

GPT‑4o přináší vylepšené a pokročilé generování obrázků, výsledky jsou opravdu dobré!

Společnost OpenAI představuje novou éru vizuální tvorby – generování obrázků je nyní nativní součástí GPT‑4o, nejnovějšího modelu umělé inteligence. Jedná se tedy o nativní generátor obrázků, stačí do chatu zadat prompt a generování proběhne automaticky.

Vizualizace jako nástroj, ne jen dekorace

Generování obrázku od Open AI využívalo model DALL-E a ruku na srdce, nejednalo se zrovna o nejostřejší tužku v penálu. Na počátku, zhruba tři roky nazpět to sice bylo "wow", ale z dnešního pohledu, kdy zde máme Midjourney, Stable diffusion, Flux a další modely, DALL-E negeneruje nic zázračného. OpenAI ale, jak je vidět, nelenilo a nyní přichází s vylepšeným modelem GPT-4o, které přináší opravdu znatelný pokrok.

Nové schopnosti modelu umožňují vytvářet precizní a funkční obrázky, které přesně odpovídají zadání a reflektují kontext celého rozhovoru – včetně nahraných souborů nebo předchozí konverzace.

Co nového GPT‑4o v oblasti generování obrázků umí?

Kontextová inteligence a učení z nahraných obrázků

Model byl trénován na propojení obrazového a textového světa. Umí nejen pochopit, jak obrázky souvisejí s jazykem, ale i jak spolu souvisejí navzájem. Díky tomu je schopný vytvářet sémanticky konzistentní, přirozené a účelově správné obrázky.

Uživatel může nahrát vlastní obrázky, ze kterých se GPT‑4o „učí“ a využívá jejich prvky v další tvorbě. Výsledkem jsou vizuály, které přesně reflektují požadavky zadavatele.

Přesné vykreslování textu

Jedním z klíčových zlepšení je schopnost věrně generovat text v obrázcích – bez častých chyb, které známe z jiných nástrojů. To z GPT‑4o dělá silný nástroj pro tvorbu:

  • vizitek
  • infografiky
  • plakátů
  • brandových prvků

Vícekrokové generování a konzistence

Obrázky můžete postupně upravovat pomocí běžné konverzace. GPT‑4o si pamatuje kontext a umožňuje navazující modifikace – například při tvorbě postavy do hry zůstává její vzhled konzistentní i při postupných změnách.

Precizní plnění složitých zadání

Zatímco jiné modely mají problémy s více než 5–8 objekty, GPT‑4o zvládne 10–20 objektů s přesnými vztahy, vlastnostmi a kompozicí. To otevírá nové možnosti například pro:

  • vizuální výukové materiály
  • technické ilustrace
  • produktové koncepty

Vylepšený model GPT-4o pro generování obrázků v praxi

Neodpustil jsem si již tradiční porovnání s kdysi skvělým modelem Grok, který byl svého času v beta verzi a pro generování obrázků využíval německého modelu Flux. Dnes už na tom je Grok podstatně hůře - psal jsem o tom zde: Grok 2: co se stalo s kvalitou generovaných obrázků?, ale zaplať pánbů, že OpenAI nezaspalo a přichází se svým obrázkovým modelem.

Níže jsou prompty, které tradičně používám pro srovnávání modelů a posuďte sami, vylepšený model od OpenAI udělal opravdu veliký pokrok. Sice to stále není ta kvalita (ve srovnání s obrázky při stejném promptu v článku z minulého roku) kterou bych si přál, ale oproti původním výstupům je to super.

Na druhou stranu je OpenAI u GPT-4o v generování obrázků opatrné a to tehdy, jedná-li se o obrázky chráněné právy, nebo jsou li obecně v rozporu se zásadami. Dívku v jezeře, nebo Indiana Jonese v supermarketu mi odmítl vygenerovat.

Tour de France cyklista

Prompt: A photorealistic image of a cyclist during the Tour de France, captured in stunning detail. The cyclist is prominently featured in the foreground, wearing the iconic yellow jersey, which signifies the race leader. His expression shows determination as he powers through the race. Behind him, a group of cyclists with jerseys in various colors is visible, but slightly out of focus to emphasize the leader. The sun is shining brightly, casting natural light and shadows that highlight the contours of the road and the cyclists. The scene captures the intensity and excitement of the race under clear, sunny skies
A highly detailed and realistic image of an elderly man sitting on the porch of a rustic countryside home, smoking a pipe. He gazes thoughtfully into the landscape bathed in the warm, golden light of the setting sun. The scene captures the peacefulness of an autumn evening, with fallen leaves scattered around and trees in the background displaying vibrant shades of orange, red, and yellow. The man’s weathered face, his comfortable clothing, and the rustic details of the porch create a calming, nostalgic atmosphere that reflects the serenity of rural life
An ultra-realistic image of a beautiful female astronaut, looking intently into the camera lens. Her face is partially framed by the visor of her space helmet, which reflects the subtle glows of distant stars and the vastness of space. Her expression is focused yet serene, with delicate facial features highlighted by the soft lighting inside the helmet. The background subtly hints at the cosmos, with dark, star-filled expanses, creating a striking contrast against the sharp details of her face and the high-tech design of the astronaut suit. Realistic portrait
A breathtaking image capturing a Peruvian indigenous man, adorned with intricate, vibrant body paint, during an ayahuasca ritual. He is gazing intently into the distance, surrounded by a lush, otherworldly jungle that exudes a mystical atmosphere. The vibrant colors of his body paint contrast beautifully with the deep greens of the jungle, creating a scene filled with vivid detail and intense emotion. The image is captured with a Nikon D850 camera and a Nikon AF-S NIKKOR 70-200 mm f/2.8E FL ED VR lens, highlighting the sharpness and richness of the scene, with masterful use of light and contrast to enhance the surreal, almost spiritual ambiance of the moment.
A photorealistic close-up of a 90-year-old man's face, deeply weathered by time and life. His skin is etched with wrinkles that tell stories of years spent in the elements, and his eyes, though aged, shine with a gentle kindness and wisdom. The lighting softly highlights the intricate details of his weathered skin, every wrinkle and crease captured with precision. The background is subtly blurred to focus entirely on the man's face, emphasizing the emotion and character in his expression. The overall atmosphere is warm and intimate, reflecting the depth of a life well-lived.
A breathtaking, ultra-detailed image of a colorful parrot perched on a tree branch, surrounded by lush, vibrant jungle foliage. The parrot's feathers are captured in stunning detail, showcasing a spectrum of vivid colors with intricate patterns. The scene is illuminated by natural light filtering through the dense canopy, highlighting the parrot and the richness of the surrounding greenery. The image has a sense of depth, with layers of jungle plants and trees creating a captivating, immersive atmosphere. The shot is taken with a Canon 5D Mark, emphasizing the clarity and precision of every feather and leaf, making the scene come alive

S uvedením nativního generování obrázků v GPT‑4o přichází nejen nové možnosti, ale i zvýšená odpovědnost. OpenAI klade velký důraz na bezpečnost, transparentnost a férové používání této technologie – a to jak při vývoji, tak při reálném nasazení mezi uživateli.

Cílem OpenAI je podporovat hodnotné kreativní scénáře, jako je vývoj her, vzdělávání nebo historická vizualizace, a přitom chránit uživatele i společnost před zneužitím. To znamená umožnit svobodu tvoření, ale zároveň důsledně blokovat požadavky, které by porušovaly pravidla platformy.

Transparentnost díky C2PA a vnitřnímu ověřování

Každý vygenerovaný obrázek obsahuje C2PA metadata, která jasně uvádí, že pochází z GPT‑4o. To zvyšuje důvěru a umožňuje snadnější odhalení případného zneužití.

Kromě toho OpenAI vyvinula interní nástroj pro reverzní ověřování obrázků, který využívá technické znaky generovaných výstupů k určení, zda obrázek pochází z jejich modelu.

Blokace nelegálního a škodlivého obsahu

Nadále jsou blokovány všechny požadavky na obsah, který porušuje zásady OpenAI – například:

  • dětské zneužívání
  • deepfakes s explicitním obsahem
  • násilné nebo pornografické zobrazení skutečných osob

Zvláštní pozornost je věnována situacím, kdy je v kontextu zmíněna skutečná osoba. Systém obsahuje zesílené ochranné mechanismy zejména u nahoty a grafického násilí.

Zajištění bezpečnosti pomocí LLM uvažování

Během vývoje GPT‑4o využívala OpenAI tzv. "reasoning LLM" – jazykový model, který funguje podle ručně psaných pravidel bezpečnosti. Díky tomu bylo možné identifikovat nejasnosti v interních zásadách a upravit systém tak, aby lépe odpovídal reálnému světu.

Tento přístup doplňuje stávající bezpečnostní techniky používané v ChatGPT a videoplatformě Sora, včetně moderace vstupního textu i výstupního obrázku.

Dostupnost funkce generování obrázků

Generování obrázků přes GPT‑4o je od dnešního dne dostupné pro uživatele tarifů Plus, Pro, Team a také pro bezplatné použití Free – jako výchozí nástroj v ChatGPT. V blízké době se přidají i uživatelé z plánů Enterprise a Edu. Funkce je navíc dostupná i ve videoplatformě Sora. Pro milovníky klasického nástroje DALL·E zůstává tato varianta dostupná prostřednictvím dedikovaného DALL·E image generátoru.

Jak generovat vlastní obrázky?

Stačí běžně komunikovat s ChatGPT prostřednictvím chatu – popsat, co chcete, a uvést specifikace jako:

  • barevný kód (např. #FF5733)
  • poměr stran
  • transparentní pozadí
  • nebo konkrétní styl.

Vzhledem k vyšší kvalitě trvá vytvoření jednoho obrázku až jednu minutu.

Zdroj: OpenaAI

Read more

Perplexity: seznamte se s konkurencí Googlu, která je více než jen generativní AI

Perplexity: seznamte se s konkurencí Googlu, která je více než jen generativní AI

Perplexity představuje významný pokrok v oblasti vyhledávacích technologií a umělé inteligence. Tento inovativní systém kombinuje pokročilé vyhledávací schopnosti s generativní AI technologií, čímž vytváří unikátní platformu pro získávání a zpracování informací. V tomto článku se podrobně zaměříme na technické aspekty, funkce a potenciální dopad Perplexity na budoucnost vyhledávání a zpracování