OpenAI představilo o3-mini: vytře vám zrak inteligencí a rychlostí

OpenAI představilo o3-mini: vytře vám zrak inteligencí a rychlostí

Svět AI se opět dočkal novinky – OpenAI představuje o3-mini, nejnovější, nejrychlejší a nejefektivnější model v řadě reasoning AI (generativní AI, která přemýšlí). Co to znamená? Přesnější odpovědi, bleskové výpočty a STEM dovednosti na úrovni, která donutí i kalkulačku začít se učit. A to vše za hubičku.

Malý model, velké schopnosti

Zapomeňte na představu, že "mini" znamená "slabý", nebo malý. o3-mini je jako malý génius v těle středoškoláka – kompaktní, ale brutálně chytrý. V prosinci 2024 OpenAI představilo tento model jako nový milník v oblasti rychlého logického myšlení, a dnes už je dostupný všem uživatelům ChatGPT Plus, Team a Pro.

Hlavní přednosti?

✅ Exceluje ve vědě, matematice a programování
✅ Přináší nižší latenci a rychlejší odpovědi
✅ Podporuje function calling, structured outputs a developer messages
✅ Nabízí tři úrovně hloubky myšlení – od bleskové reakce po opravdu hluboké přemýšlení
✅ Funguje i s vyhledáváním, takže vám přinese nejaktuálnější odpovědi s odkazy

Jediný háček? o3-mini nevidí. Takže pokud chcete analyzovat obrázky, držte se modelu OpenAI o1, ale to se jistě časem změní. Stejně tomu bylo i o1 modelu.

Chytřejší než kdy dřív

OpenAI se netají tím, že o3-mini je chytřejší než jeho předchůdce o1-mini. Testeři potvrdili, že model přináší o 39 % méně velkých chyb a v porovnání s o1-mini byly jeho odpovědi upřednostněny v 56 % případů.

Navíc pro všechny platící uživatele OpenAI nabízí verzi o3-mini-high, která si dá s odpovědí trochu více práce, ale přinese ještě lepší výstupy.

Lepší podmínky pro uživatele ChatGPT

Dobré zprávy! Pokud jste uživatelem ChatGPT Plus nebo Team, nově máte třikrát vyšší denní limit – místo 50 zpráv teď můžete poslat až 150 dotazů denně. A pokud používáte ChatGPT zdarma? Můžete si o3-mini vyzkoušet výběrem možnosti „Reason“ v editoru zpráv.

Rychlý, přesný a dostupný už dnes

OpenAI o3-mini přináší revoluci do světa logického myšlení v AI. Je rychlý, výkonný a optimalizovaný pro vědu, matematiku a programování. Pokud jste dosud hledali model, který se nezalekne složitých otázek a přitom vám nevyprázdní peněženku, o3-mini je odpověď.

No, ale bez práce nejsou koláče, respektive grafy a tak se pojďme podívat na to, jak si o3 stojí v porovnání s předchozím modelem o1.

Porovnání v oblasti Competition Math (AIME 2024)

Matematika: Při nízkém úsilí při uvažování dosahuje o3-mini srovnatelného výkonu s o1-mini, zatímco při středním úsilí dosahuje o3-mini srovnatelného výkonu s o1. Při vysokém výkonu určeném pro uvažování o3-mini překonává jak o1-mini, tak o1, kde šedě stínované oblasti ukazují výkonnost většinového hlasování (konsenzu) s 64 vzorky.

Porovnání v oblasti PhD-level Science Questions (GPQA Diamond)

Doktorská úroveň vědy: V otázkách z biologie, chemie a fyziky na úrovni doktorandů s nízkým výkonem při uvažování dosahuje o3-mini vyššího výkonu než o1-mini. Při vysokém úsilí dosahuje o3-mini srovnatelného výkonu s o1.

FrontierMath

Matematika na výzkumné úrovni: OpenAI o3-mini s vysokou úrovní uvažování dosahuje lepších výsledků než jeho předchůdce ve FrontierMath. V rámci FrontierMath, když je model vyzván k použití nástroje Python, vyřeší o3-mini s vysokým úsilím při uvažování více než 32 % úloh na první pokus, včetně více než 28 % náročných úloh (T3). Tato čísla jsou předběžná a výše uvedený graf ukazuje výkon bez nástrojů nebo kalkulačky.

Porovnání v oblasti Competition Code (Codeforces)

Kódování: V soutěžním programování Codeforces dosahuje OpenAI o3-mini postupně vyšších skóre Elo se zvyšujícím se úsilím při uvažování, přičemž všechny tyto výsledky překonává o1-mini. Se středním úsilím při zdůvodňování se vyrovná výkonu o1.

Zmenšila se i latence na první token oproti o1, což je v praxi patrné, o3 reaguje mnohem rychleji

Bezpečnost

Jednou z klíčových technik, která byla použita k tomu, aby OpenAI o3-mini odpovídal bezpečně, je deliberative alignment – metoda, při které byl model učen analyzovat lidsky psané bezpečnostní specifikace před odpovědí na uživatelské dotazy. Podobně jako o1, i o3-mini významně překonává GPT-4o v náročných testech bezpečnosti a odolnosti vůči zneužití.

Před nasazením byla pečlivě posuzována bezpečnostní rizika o3-mini stejným způsobem jako u modelu o1, včetně přípravných opatření, externího testování (red-teamingu) a bezpečnostních evaluací.