Runwa AI představilo svůj nejnovější model Gen-3 Alpha

Jakub Sobotka

17 srp 2024 — 5 min read

Společnost Runway, která vytváří nástroje generativní AI zaměřené na tvůrce filmového a obrazového obsahu, nedávno představila Gen-3 Alpha. Nejnovější model AI této společnosti generuje videoklipy z textových popisů a statických obrázků. Společnost Runway uvádí, že model přináší "zásadní" zlepšení rychlosti a věrnosti generování oproti předchozímu vlajkovému videomodelu Gen-2 a zároveň nabízí jemné ovládání struktury, stylu a pohybu generovaných videí.

Vylepšené generování expresivních lidských postav

Tento první model z nové řady má však svá omezení, včetně toho, že jeho záběry jsou maximálně 10 sekund dlouhé. Spoluzakladatel společnosti Runway Anastasis Germanidis však slibuje, že Gen-3 je pouze prvním a nejmenším z několika videogenerátorů, které mají přijít v nové generaci modelů trénovaných na vylepšené infrastruktuře.

0:00

/0:10

Ukázka Runway AI - generované video ze statického obrázku, zdroj: Runway AI

Gen-3 Alpha vyniká v generování expresivních lidských postav s širokou škálou akcí, gest a emocí. Byl navržen tak, aby interpretoval širokou škálu stylů a filmové terminologie a umožňoval imaginativní přechody a přesné klíčování prvků ve scéně.

Rychlejší generování ve vysokém rozlišení

"Model může mít potíže se složitými interakcemi postav a objektů a generování ne vždy přesně dodržuje zákony fyziky," řekl Germanidis v rozhovoru pro TechCrunch. "Toto první nasazení bude podporovat 5 a 10sekundové generování ve vysokém rozlišení s výrazně rychlejšími časy generování než Gen-2. Vygenerování 5sekundového klipu trvá 45 sekund a 10sekundového klipu 90 sekund."

Stejně jako všechny modely generující videa, i Gen-3 Alpha byl trénován na obrovském množství příkladů videí a obrázků, aby se mohl "naučit" vzory v těchto příkladech a generovat nové klipy. Odkud pocházela trénovací data? Runway to nechce prozradit. V dnešní době jen málokterý dodavatel generativní AI dobrovolně zveřejňuje takové informace, částečně proto, že trénovací data považují za konkurenční výhodu, a proto si je drží v tajnosti.

Ochrana před porušováním autorských práv

Podrobnosti o trénovacích datech jsou také potenciálním zdrojem žalob souvisejících s duševním vlastnictvím, pokud dodavatel trénoval na veřejně dostupných datech, včetně autorsky chráněných dat z webu - je to jen další důvod, proč o jejich původu příliš mnoho neodhalovat. V několika soudních sporech, které nyní probíhají, se zamítají argumenty dodavatelů o fair use trénovacích datech. Tvrdí se v nich, že nástroje generativní AI replikují styly umělců bez jejich svolení a umožňují uživatelům generovat nová díla připomínající originály umělců, za která umělci nedostávají žádnou odměnu.

0:00

/0:10

Ukázka Runway AI - generované video ze statického obrázku, zdroj: Runway AI

Runway se k problematice autorských práv částečně vyjádřila s tím, že při vývoji modelu mnoho kroků konzultovala s umělci. (S kterými umělci? To není jasné). Společnost rovněž uvádí, že plánuje uvolnit Gen-3 s novou sadou bezpečnostních opatření, včetně systému moderování, který zablokuje pokusy o generování videí z obrázků chráněných autorskými právy a obsahu, který není v souladu se smluvními podmínkami společnosti Runway. Připravuje se také systém ověřování původu kompatibilní se standardem C2PA, který podporují společnosti Microsoft, Adobe, OpenAI a další, aby bylo možné identifikovat, že videa pocházejí z Gen-3.

Spolupráce s předními organizacemi zábavního a mediálního průmyslu

Runway také odhalila, že spolupracuje s předními organizacemi zábavního a mediálního průmyslu na vytvoření vlastních verzí Gen-3, které umožňují stylisticky kontrolovanější a konzistentnější postavy zaměřené na "specifické umělecké a narativní požadavky". Společnost dodává: "To znamená, že generované postavy, pozadí a prvky si mohou zachovat soudržný vzhled a chování v různých scénách."

0:00

/0:10

Ukázka Runway AI - generované video ze statického obrázku, zdroj: Runway AI

Zásadním nevyřešeným problémem modelů generujících videa je kontrola - tedy dosažení toho, aby model generoval konzistentní video v souladu s uměleckými záměry tvůrce. Jednoduché záležitosti v tradičním filmování, jako je výběr barvy oblečení postavy, vyžadují u generativních modelů použití alternativních postupů, protože každý záběr je vytvářen nezávisle na ostatních. Někdy ani alternativní postupy nefungují a editorům tak zůstává rozsáhlá manuální práce.

Sílící konkurence na poli generativní AI pro video

Runway získala od investorů více než 236,5 milionu dolarů, včetně společností Google (s níž má kredity na cloudové výpočty) a Nvidia, a také od rizikových kapitálových společností jako Amplify Partners, Felicis a Coatue. S růstem investic do technologií generativní AI se společnost úzce spojila s kreativním průmyslem. Runway provozuje Runway Studios, zábavní divizi, která slouží jako produkční partner pro podnikovou klientelu, a pořádá AI Film Festival, jednu z prvních akcí věnovaných prezentaci filmů produkovaných zcela nebo částečně pomocí AI.

Konkurence je však stále tvrdší. Startup generativní AI Luma minulý týden představil Dream Machine, videogenerátor, který se stal virálním díky své schopnosti animovat memy. A jen před několika měsíci Adobe odhalila, že vyvíjí vlastní model generování videí trénovaný na obsahu ve své knihovně Adobe Stock.

Jinde jsou zavedené společnosti jako OpenAI se svým modelem Sora, který zůstává přísně uzavřený, ale který OpenAI poskytuje marketingovým agenturám a filmovým režisérům z nezávislé i hollywoodské scény. Na festivalu v Cannes 2024 se promítaly krátké filmy vytvořené pomocí Sory režiséry, kteří k ní dostali přednostní přístup.

0:00

/0:10

Ukázka Runway AI - generované video ze statického obrázku, zdroj: Runway AI

Také Google dal svůj model generování obrázků Veo do rukou vybraných tvůrců, včetně Donalda Glovera (aka Childish Gambino) a jeho kreativní agentury Gilga, a pracuje na tom, aby Veo integroval do produktů, jako je YouTube Shorts.

Ať už tyto různé spolupráce dopadnou jakkoli, jedno je čím dál jasnější, s masivním rozšířením nástrojů pro generování videa pomocí AI hrozí, že převrátí filmový a televizní průmysl tak, jak ho známe dnes. Filmový režisér Tyler Perry nedávno prohlásil, že pozastavil plánované rozšíření svého produkčního studia za 800 milionů dolarů poté, co viděl, co dokáže Sora. Joe Russo, režisér filmů Marvel, jako je například Avengers: Endgame, předpovídá, že do roka bude AI schopna vytvořit plnohodnotný film.

Studie z roku 2024 zadaná Animation Guild, odborovou organizací zastupující hollywoodské animátory a karikaturisty, zjistila, že 75% filmových produkčních společností, které zavedly AI, po začlenění této technologie snížilo počet pracovních míst, konsolidovalo je nebo je zcela zrušilo. Studie také odhaduje, že do roku 2026 bude generativní AI narušeno více než 100 000 pracovních míst v zábavním průmyslu USA.

Bude zapotřebí opravdu silné ochrany pracovníků, aby se zajistilo, že nástroje pro generování videa nepůjdou ve stopách jiných technologií generativní AI a nepovedou k prudkému poklesu poptávky po kreativní práci.

Na závěr se můžete podívat na film, který byl kompletně vytvořen v Runway AI z velkého množství statických obrázků.