OpenAI představuje GPT-4.1: modely pro programování a práci s dlouhým kontextem

OpenAI představilo novou generaci modelů GPT-4.1, které posouvají hranice v oblasti kódování, porozumění dlouhým kontextům i věrného plnění instrukcí. Rodina modelů zahrnuje tři verze – GPT-4.1, GPT-4.1 mini a GPT-4.1 nano – všechny dostupné výhradně přes API. Tyto modely jsou navrženy tak, aby vývojářům umožnily tvořit výkonné agentní systémy, které zvládnou i velmi náročné úlohy napříč obory.
Opět se nám ale poněkud zesložiťuje již takhle poměrně nepřehledný zástup modelů, které původně OpenAI měla dle slov Sama Altmanna spíše zjednodušit. Namísto toho se dočkáváme další generace modelové řady GPT-4, která dostává nová vylepšení.
V čem se od sebe jednotlivé verze GPT-4.1 liší?
Tři modely, jedna architektura:
- GPT‑4.1: hlavní model s nejvyšší přesností, optimalizovaný pro náročné úlohy (např. vývoj softwaru, právní analýzy, dlouhé dokumenty).
- GPT‑4.1 mini: menší, rychlejší a levnější alternativa s podobnou přesností jako GPT‑4o, ale poloviční latencí.
- GPT‑4.1 nano: nejlevnější a nejrychlejší model od OpenAI – ideální pro klasifikace, autokompletace nebo náročné front-endové aplikace.
Všechna tři řešení podporují kontext o délce až 1 milion tokenů, což odpovídá více než 750 000 slovům – např. osminásobek celého kódu knihovny React.
Výkon a srovnání s předchozími modely
OpenAI přineslo komplexní testy výkonnosti, kde GPT‑4.1 poráží své předchůdce téměř ve všech kategoriích:
Benchmarky kódování
Test | GPT-4.1 | GPT-4o | GPT-4.5 |
---|---|---|---|
SWE-bench Verified | 54,6 % | 33,2 % | 38,0 % |
Aider Polyglot (diff) | 52,9 % | 18,2 % | 44,9 % |
GPT-4.1 také snižuje počet zbytečných úprav kódu z 9 % na 2 % a je výjimečně silný v práci s formáty „diff“, což výrazně snižuje výstupní objem a šetří náklady.
Plnění složitých instrukcí
Model GPT-4.1 vyniká i ve schopnosti přesně dodržovat zadané formáty, pořadí kroků a dokonce i negativní instrukce („co nemá dělat“). To se ukazuje v testech:
Eval | GPT-4.1 | GPT-4o | GPT-4.5 |
---|---|---|---|
MultiChallenge | 38,3 % | 27,8 % | 43,8 % |
IFEval (verifikované instrukce) | 87,4 % | 81,0 % | 88,2 % |
OpenAI internal (hard prompts) | 49,1 % | 29,2 % | 54,0 % |
Dlouhý kontext a vyhledávání
GPT‑4.1 se učí rozpoznávat informace ve vstupu o délce 1 milion tokenů bez ztráty relevance. Pomocí testů jako OpenAI-MRCR (vícenásobné požadavky v dlouhém textu) a Graphwalks (logické skoky mezi uzly v grafu):
Test | GPT-4.1 | GPT-4o |
---|---|---|
MRCR 2 needle (128k) | 57,2 % | 31,9 % |
Graphwalks BFS <128k | 61,7 % | 41,7 % |
Graphwalks BFS >128k | 19,0 % | – |
Vizuální porozumění
I v oblasti multimodality (obrázky, grafy, vizuální úlohy) přináší GPT-4.1 silné zlepšení:
Benchmark | GPT-4.1 | GPT-4o |
---|---|---|
MMMU (diagramy, mapy...) | 74,8 % | 68,7 % |
MathVista (vizuální matematika) | 72,2 % | 61,4 % |
CharXiv-R (vědecké grafy) | 56,7 % | 52,7 % |
Cena a dostupnost
Modely GPT‑4.1 jsou k dispozici výhradně přes API. ChatGPT využívá jinou verzi (GPT-4o), která postupně získává vybraná vylepšení.
Ceník (za 1 milion tokenů):
Model | Vstup | Výstup | Cachovaný vstup | Cena celkem (odhad) |
---|---|---|---|---|
GPT‑4.1 | $2.00 | $8.00 | $0.50 | ~$1.84 (blend) |
GPT‑4.1 mini | $0.40 | $1.60 | $0.10 | ~$0.42 |
GPT‑4.1 nano | $0.10 | $0.40 | $0.025 | ~$0.12 |
Navíc lze využít Batch API s 50% slevou a prompt caching se 75% slevou oproti běžné sazbě.
Praktické nasazení GPT-4.1: příklady z praxe
Windsurf
Interní benchmarky ukázaly, že GPT‑4.1 je o 60 % přesnější než GPT-4o, o 30 % efektivnější při práci s nástroji a provádí o polovinu méně zbytečných změn.
Thomson Reuters
Zvýšení přesnosti přezkoumávání vícesouborových právních dokumentů o 17 % – klíčové pro právní asistenty a compliance aplikace.
Carlyle
Model GPT-4.1 dokázal extrahovat jemná finanční data z rozsáhlých a komplexních dokumentů (PDF, Excel), s o 50 % lepším výsledkem než předchozí modely.
Na co je tedy nový model GPT 4.1 dobrý?
Špičkové kódování: Vysoká přesnost, efektivita diff výstupů, agentní schopnosti
Silné porozumění instrukcím: Lepší struktura odpovědí, méně chyb
Dlouhý kontext: Schopnost analyzovat milion tokenů a najít i jemné detaily
Nízká latence, nízké náklady: mini a nano verze ideální pro reálný provoz
Obrovská škálovatelnost a adaptabilita: od práv přes finance až po vývoj