Článek
Umělá inteligence se opět dostala do popředí zájmu, tentokrát v oblasti animace. Poté co internet ovládl virtuální trend vytváření animovaných obrázků napodobujících ručně kreslený styl japonského studia Ghibli pomocí AI, zasáhla digitální svět novinka v podobě několikaminutových videí Toma a Jerryho vytvořených výhradně umělou inteligencí.
Experiment s názvem One-Minute Video Generation with Test-Time Training výzkumníci vytvořili pomocí inovativní vrstvy TTT přidané do předem natrénovaného modelu Transformer. Ten dokáže na rozdíl od oblíbené Sory (OpenAI) nebo Moviegen (Meta) vyrobit videa dlouhá až jednu minutu a také tvořit videa pouze z textových scénářů.
Výzkumníci vytvořili celkem pět minutových videí, ve kterých se Tom snaží chytit Jerryho. V jednom z videí například Tom přijíždí do kanceláře, nastupuje do výtahu a usazuje se u svého stolu.
Nastane však chaos, když Jerry provede klasický trik – poškodí kabel a vyvolá známou honičku kočky s myší, tentokrát zasazenou do prostředí newyorské kanceláře.
Nová technologie tedy nejenže překonává časová omezení tradičního generování videí s umělou inteligencí, ale také dosahuje pozoruhodné soudržnosti a úplnosti vyprávění. Tím otevírá nové možnosti pro tvorbu kreativního obsahu řízeného umělou inteligencí, píše web AIbase.
Model je inovativní, ale zdaleka ne dokonalý
Podle samotných tvůrců by klíčovým prvkem celého výrobního procesu měl být jednorázový charakter procesu generování.
„Každé video je generované přímo modelem bez jakýchkoli dodatečných úprav a děje jsou tak zcela originálními výtvory. Přidáním a vyladěním vrstvy TTT v rámci stávající architektury Transformeru jsme mohli zachovat silnou časovou konzistenci v minutových videích,“ napsali tvůrci ve své práci.
„To znamená, že Tomovy honičky a Jerryho útěky jsou plynule propojeny, což přináší plynulý divácký zážitek srovnatelný s tradiční animací,“ dodali.
Ve srovnání se stávajícími technologiemi má tedy tato metoda mnohem větší kvality v několika aspektech včetně délky videí, lepší kvality generování, plynulosti vyprávění a také v rámci detailů.
Tým výzkumníků ale uznal, že jejich nový model není zdaleka dokonalý a ve videích se tak objevují chyby v podobě občasných vizuálních závad, měnění konzistence předmětů nebo nepřirozenosti pohybu. To ale ovšem nesnižuje slibnou budoucnost této technologie.
Očekává se, že její schopnost generovat dlouhá videa jedním kliknutím výrazně sníží výrobní náklady a urychlí tvůrčí pracovní postupy – od tvorby krátkých videí a výukových animací až po náhledy konceptů filmového průmyslu.
Anketa
Nadšení i obavy
Ačkoliv je tedy nová metoda inovativní a mnoha lidem se líbí, někteří uživatelé kritizují její bezduchou povahu, objevující se vizuální chyby a také vyjádřili obavy o budoucnost lidských animátorů, píše web The Economic Times.
„I když si vážím technického pokroku, vadí mi, že skuteční talentovaní umělci budou přehlíženi a všichni zapomenou na čestné řemeslo. Umění je nejsilnějším přínosem pro lidstvo,“ napsal jeden z uživatelů pod příspěvek na Instagramu. Jiný komentoval: „Jak to, že nemají problémy se zákonem? Není to krádež?“
Podle některých je to naopak teprve začátek. „Pro ty, kteří říkají, že to vypadá bezduše - dříve jsem si myslel totéž. Každý vynález však potřebuje čas, aby se zlepšil, a za pár let může AI překonat živé filmy. Jenom jí musíme dat čas,“ dodal další uživatel.
Nová experimentální metoda zatím vypadá jako přelomový úspěch v oblasti generování videí umělou inteligencí. Novinka nejenom ukazuje sílu technologických inovací, ale také nastavuje nová měřítka pro toto odvětví.