Grok 2: co se stalo s kvalitou generovaných obrázků?

Jakub Sobotka

11 pro 2024 — 5 min read

Zdroj: samaa.tv

Před časem jsem psal článek o AI Elona Muska - Grok, který byl toho času ve 2. betě. Možná vás můj článek namlsal na to si zakoupit předplatné a získat tak přístup k funkcím chatbota, především pak k jeho schopnostem generovat obrázky v perfektní kvalitě, která si svou úrovní nezadala s konkurenční Midjourney.

Před několika dny se Grok dostal do ostré verze a stal se přístupným i pro uživatele, kteří si X Premium neplatí. Co se ale stalo s kvalitou Groka? Především pak s kvalitou generovaných obrázků? Jak se zdá, došlo k nějaké změně, ale není zatím jasné proč a k jaké. Nejen že Grok nyní generuje obrázky průměrné až podprůměrné kvality, ale obrázek generuje, jako byste byli na dial-up 56 kb/s lince v dobách úplných internetových začátků. Ve finále pak ještě zjistíte, že vám Grok obrázek opatří vodoznakem - tohle je úplná smrt .

Co pochopil je to, že se tohle bude dít u uživatelů, kteří si neplatí premium verzi, ale u platícího uživatele je to přinejmenším zvláštní a doufejme, že se jen jedná o chybu, která vznikla tím, jak byl Grok zpřístupněn všem. V opačném případě pro mne nemá smysl si premium tarif platit (modrá fajfka je pro mne to poslední, co potřebuji 😄).

Na blogu x.ai se oslavně píše, že kluci šikovní vývojářští do Groka přidali nový agresivní model s kódovým označením Aurora. Cituji článek:

Rozšířili jsme schopnosti aplikace Grok při generování obrázků o nový model s kódovým označením Aurora. Aurora je autoregresivní síť směsi expertů vycvičená k předpovídání dalšího tokenu z prokládaných textových a obrazových dat. Model jsme trénovali na miliardách příkladů z internetu, díky čemuž má hluboké znalosti o světě. Díky tomu vyniká ve fotorealistickém vykreslování a přesném dodržování textových pokynů. Kromě textu má model také nativní podporu multimodálního vstupu, což mu umožňuje inspirovat se obrázky poskytnutými uživatelem nebo je přímo upravovat. Nové možnosti aplikace Grok jsou nyní dostupné na platformě 𝕏 ve vybraných zemích a během týdne se rozšíří mezi všechny uživatele.

Pojďme se pro ilustraci podívat, jak Grok nyní "przní" obrázky, srovnání obrázků vygenerovaných před zhruba 5 měsíci a dnes. Byl použitý stejný prompt.

Tour de France cyklista

Původní obrázekPrompt: A photorealistic image of a cyclist during the Tour de France, captured in stunning detail. The cyclist is prominently featured in the foreground, wearing the iconic yellow jersey, which signifies the race leader. His expression shows determination as he powers through the race. Behind him, a group of cyclists with jerseys in various colors is visible, but slightly out of focus to emphasize the leader. The sun is shining brightly, casting natural light and shadows that highlight the contours of the road and the cyclists. The scene captures the intensity and excitement of the race under clear, sunny skies

Peruánský indián

Původní obrázekPrompt: A breathtaking image capturing a Peruvian indigenous man, adorned with intricate, vibrant body paint, during an ayahuasca ritual. He is gazing intently into the distance, surrounded by a lush, otherworldly jungle that exudes a mystical atmosphere. The vibrant colors of his body paint contrast beautifully with the deep greens of the jungle, creating a scene filled with vivid detail and intense emotion. The image is captured with a Nikon D850 camera and a Nikon AF-S NIKKOR 70-200 mm f/2.8E FL ED VR lens, highlighting the sharpness and richness of the scene, with masterful use of light and contrast to enhance the surreal, almost spiritual ambiance of the moment.

Starý vrásčitý muž

Původní obrázekPrompt: A photorealistic close-up of a 90-year-old man's face, deeply weathered by time and life. His skin is etched with wrinkles that tell stories of years spent in the elements, and his eyes, though aged, shine with a gentle kindness and wisdom. The lighting softly highlights the intricate details of his weathered skin, every wrinkle and crease captured with precision. The background is subtly blurred to focus entirely on the man's face, emphasizing the emotion and character in his expression. The overall atmosphere is warm and intimate, reflecting the depth of a life well-lived

Krásná žena v ledové vodě

Původní obrázekA photorealistic image of a young woman in black bikinis diving into icy water after cutting a hole in the ice. The scene captures the moment just as she gracefully enters the water, her body silhouetted against the dark, cold water beneath the ice. The surrounding snow and ice glisten in the soft, diffused light, creating a magical and serene atmosphere. Her expression is focused and calm, embodying strength and tranquility. The texture of the ice and the clarity of the water are captured in exquisite detail, enhancing the immersive and ethereal quality of the scene

Obrázek dnesGrok navíc začal být i "korektní"

Jak vidíte sami, kvalita obrázků nejen že šla do "zadele", ale Grok začal být i korektní. Obrázek ženy v ledové vodě pro jistotu nevygeneroval vůbec, respektive začal generovat, ale po chvíli usoudil, že se asi jedná o nevhodné téma viz níže.

Doufejme, že se jedná jen o momentální a dočasný neduh, který kluci z X.AI brzy opraví a Grok bude zase generovat parádní výsledky stejně jako to dělal v době, kdy byl ještě v beta verzi. Strasti uživatelů, kteří jsou podobně rozčarovaní, jako já, si můžete pročíst například na síti Reddit.

Grok 2: co se stalo s kvalitou generovaných obrázků?

Jakub Sobotka

Read more

OpenAI představuje GPT-4.1: modely pro programování a práci s dlouhým kontextem

Garmin spustil prémiovou verzi Connect+, platit si ji ale zatím nedává smysl

GPT‑4o přináší vylepšené a pokročilé generování obrázků, výsledky jsou opravdu dobré!

OpenAI zrušilo kredity u svého modelu pro generování videí - Sora