Využíváte OpenAI o1? Nová generace modelů je určena pro řešení komplexních problémů

Jakub Sobotka

30 lis 2024 — 4 min read

OpenAI nabízí již nějakou dobu novou řadu modelů o1, navržených pro hlubší uvažování a řešení komplexních problémů v oblastech vědy, matematiky a kódování. Tyto modely jsou dostupné v ChatGPT i přes API, přičemž slibují průlom v mnoha disciplínách, kde je vyžadováno logické myšlení a pokročilé analýzy.

Co modely o1 nabízejí?

Řada o1 byla navržena tak, aby modely dokázaly déle a efektivněji promýšlet své odpovědi, podobně jako lidé. Díky této metodice dosáhly nové modely v testech úrovně blízké doktorandům ve fyzice, chemii a biologii. Například v kvalifikačním testu pro Mezinárodní matematickou olympiádu (IMO) dokázal o1-preview vyřešit 83 % úloh, zatímco GPT-4o pouze 13 %. V soutěžích Codeforces, zaměřených na programování, model dosáhl 89. percentilu.

Přestože modely o1 zatím postrádají některé funkce, jako je prohlížení webu či nahrávání souborů, jsou klíčovým krokem vpřed v řešení složitých úkolů.

Bezpečnostní pokrok

Modely řady o1 přinášejí výrazné zlepšení v oblasti dodržování bezpečnostních pravidel. Během testů odolnosti proti obcházení pravidel (jailbreaking) dosáhl o1-preview skóre 84 ze 100, což je dramaticky lepší výsledek oproti 22 bodům u GPT-4o.

OpenAI spolupracuje s AI Safety Institutes v USA a Velké Británii, které získaly přístup k výzkumné verzi modelu. Tento krok umožňuje důkladné testování a hodnocení před veřejným nasazením.

Pro koho jsou modely o1 určené

Tyto modely jsou určeny zejména profesionálům v oblastech vědy, medicíny a vývoje software. Například mohou:

Pomáhat fyzikům při generování složitých matematických formulí.
Sloužit lékařům k anotaci dat buněčného sekvencování.
Umožnit vývojářům ladit složité kódy a workflow.

Kromě o1-preview přichází také o1-mini, který nabízí levnější variantu s důrazem na kódování. Tento model je o 80 % levnější, což ho činí přístupným pro širší škálu aplikací.

Jak získat přístup?

ChatGPT Plus a Team uživatelé: Mohou používat modely o1 již dnes, s limity 30 zpráv týdně pro o1-preview a 50 pro o1-mini.
Enterprise a Edu uživatelé: Přístup obdrží příští týden.
API vývojáři: Mohou modely testovat s limitem 20 RPM (požadavků za minutu).

Budoucí vývoj

OpenAI plánuje další aktualizace modelů o1, včetně rozšíření o funkce, jako je prohlížení webu nebo nahrávání souborů. Vedle série o1 bude pokračovat vývoj řady GPT, což rozšiřuje možnosti umělé inteligence a její uplatnění v náročných oblastech.

Modely OpenAI o1 představují nový standard pro řešení složitých úloh, kde je důležitá preciznost, logika a hluboké porozumění.

Jak si aktuálně vedou nejpopulárnější AI modely podle LMSYS Chatbot Areny?

LMSYS Chatbot Arena je online platforma vyvinutá organizací LMSYS, která umožňuje uživatelům porovnávat a hodnotit různé jazykové modely (LLM) prostřednictvím anonymních, náhodně přiřazených "soubojů" mezi chatboty. Uživatelé mohou zadávat otázky dvěma anonymním modelům současně a poté hlasovat, který z nich poskytl lepší odpověď. Tímto crowdsourcingovým přístupem se shromažďují data o preferencích uživatelů, což napomáhá při hodnocení a zlepšování výkonu jednotlivých modelů.

Platforma využívá Elo ratingový systém, známý z šachových turnajů, k hodnocení a porovnávání schopností jednotlivých modelů na základě výsledků těchto soubojů. Tento systém umožňuje efektivní a přesné hodnocení modelů v dynamickém prostředí. Od svého spuštění v květnu 2023 Chatbot Arena shromáždila přes 240 000 hlasů od uživatelů z více než 100 zemí, což poskytuje cenné informace o výkonu a preferencích různých LLM v reálných scénářích.

Tato platforma se stala důležitým nástrojem pro výzkumníky a vývojáře při hodnocení a zlepšování jazykových modelů, protože poskytuje otevřené a transparentní prostředí pro jejich testování a porovnávání na základě skutečných uživatelských interakcí.

Níže jsou Top 10 žebříčky z nejzásadnějších oblastí.