AI Inside Out #2: Umělá inteligence pohledem grafika

Současný trend umělé inteligence se stále z velké části opírá o vizuální výstupy. Proto jsem jako grafický designer a ilustrátor již na počátku této vlny zpozorněl. Pro mě osobně tato vlna započala v lednu roku 2021 zveřejněním nástroje DALL-E a jeho bratrance DALL-E Mini (dnes Craiyon). Byl to pro mě šok. Generování „originálních“ obrázků pouze za pomocí textových příkazů. DALL-E se prakticky během noci stal senzací. Výstupy z něj se šířily po internetu ve formě memů, koláží, článků nebo politické satiry. Netrvalo dlouho a dnes stojíme před rozjetým vlakem, který se již nedá zastavit. Každý den můžeme sledovat nové nástroje, překonané problémy a možnosti, o kterých se nám ani nesnilo.

Je to začátek konce grafických odvětví? Nebo stojíme před něčím, co může násobně pomoci naší workflow, pokud jejich výstupy budeme správně využívat? Na to se v tomto článku pokusíme podívat.

To pravé ořechové?

S největší pravděpodobností se nedá v tuto chvíli říci, že existuje jeden nástroj, který dokáže splnit všechna naše očekávání. Na druhou stranu je to nejspíš pouze otázka času. Nejslibněji v tuto chvíli vypadá projekt Adobe Firefly, který do budoucna slibuje spoustu funkcí, jako rozšíření obrazu, převedení textového zadání do vektoru, tvorba nekonečných vzorů založených na textovém zadání, chytré doplňování objektů do scény, tvorba obrazů na základě 3D objektů atd. A jelikož se jedná o produkt společnosti Adobe, můžeme s jistotou očekávat, že tyto funkce budou mít přesah i do nám známého prostředí jejich kreativních aplikací. Adobe Firefly je momentálně v uzavřené verzi, do které se lze přihlásit na jejich webu. Tak neváhejte a zkuste své štěstí. Třeba si budete moci již brzy schopnosti Adobe Firefly ozkoušet na vlastní kůži.

Adobe Firefly

Midjourney

Jako hlavní testovací nástroj pro tvorbu vizuálních výstupů jsem si vybral Midjourney. Jedná se momentálně o jeden z nejvíce probíraných AI nástrojů pro tvorbu obrazových materiálů. Zároveň je nově k dispozici verze s číslem 5, která se snaží vylepšit několik neduhů, kterými předchozí verze značně trpěly. Autoři se zaměřili především na správné zobrazení rukou a obecně lidské anatomie a aby vygenerované obrazy působily obecně více realisticky. Povedlo se jim to? To jsem se rozhodl otestovat.

Rady na začátek

AI nástroje pro tvorbu obrazů mají často různá omezení, které už v začátku lehce podrývají jejich schopnost být využívány masově a na komerční úrovní. Midjourney dle mého nejlépe balancuje na hranici použitelnost/jednoduchost. Generování obrazů probíhá v rozhraní Discord, vše je jednoduše nastavitelné a pochopitelné. Uživatel má kontrolu nad rozlišením, poměry stran, kvalitou obrazu… zkrátka nad vším důležitým. Pojďme se nyní podívat na některé šikovné textové příkazy, které vám mohou pomoci vygenerovat obraz podle vašich představ. Tyto příkazy se v naprosté většině píší na závěr vašeho /imagine popisu a mají formát dvou spojovníků.

Příkazové vychytávky

––seed (nějaké číslo) — Stala se vám při generování situace, kdy se po přepsaní jedné maličkosti v zadání (místo červeného trička chcete modré) vygenerovaly úplně jiné obrazy a vy už nedokážete najít ten, který se vám třeba kompozičně líbil? Midjourney totiž po každé změně zadání generuje znovu naprosto náhodné obrazy. Napsáním ––seed a nějaké číslo určíte přesnou sadu, kterou má Midjourney vygenerovat. Představte si to tak, že AI vždy sáhne do šuplíku s daným číslem. Zároveň se tak dá dobře sledovat a učit, jak mají vaše textové změny vliv na výsledný obraz.
––ar (poměr stran) — Tento příkaz určuje, v jakém poměru stran se má výsledný obraz vygenerovat. Potřebujete náhledový snímek pro video na šířku? Napište na konec zadání ––ar 16:9. Chcete výškový formát pro mobilní zařízení? Napište ––ar 9:16.
––q (.25-5) — Tento příkaz ve zkratce určuje, jak dlouho a jak moc do detailu se vaším obrazem bude Midjourney zabývat. Pokud chcete, aby byl obraz záměrně pokroucený a míchaly se jednotlivé objekty do sebe, snižte číselnou hodnotu tohoto příkazu. V základu se obrazy generují na kvalitu 1.
––c (0-100) — Písmeno c určuje míru „chaosu“. Čím vyšší číslo, tím zběsilejší výsledky vám bude Midjourney generovat.
––s (0-1000) — Tento příkaz určuje míru stylizace, kdy v základu Midjourney generuje obrazy na úrovni 100.
[Část zadání]::(1-5) — Tento o něco složitější příkaz určuje to, jak moc je nějaká část zadání důležitá a jak moc velký důraz na ní má být kladen. Pokud například chcete na vygenerovaném obrázku psa a kočku, ale chcete, aby pes byl výraznější objekt, napište „[Dog]::4 and [Cat]::2“. Doporučuji jednotlivé číslovky testovat na stejném seedu, abyste mohli jasně vidět rozdíl mezi jednotlivými zadáními.

To by bylo vše k mým nejoblíbenějším vychytávkám Midjourney a pojďme se podívat, jak se umělá inteligence poprala s mými testy.

Konečně realita?

Jako první jsem se rozhodl otestovat, jestli Midjourney zvládne vytvořit fotografii člověka, která by byla použitelná pro nějaké reklamní materiály. Zní to krásně. Místo nekonečného pátraní po ideálních fotkách zadat několik řádků textů a mít hotovo. Verze 5 také nově lépe chápe vypsané zadání stylu „Fotografie muže tančícího uprostřed ulice evropského města za slunného dne“. To znamená, že není tolik potřeba psát dlouhá, čárkami rozsekaná slova, ale můžeme psát více přirozeně a lépe se s umělou inteligencí navzájem pochopit. Zároveň musím říct, že jsem byl z výsledků nadšený. Pravda, stále máme na jedné ruce o prst navíc, ale oproti předchozím verzím je to definitivně posun kupředu.

Vygenerovaná fotka tančícího muže Vygenerované obrázky ženy sedící na střeše budovy, držící skleničku v ruce.

Stejně tak skvěle si Midjourney vedlo u zobrazení lidí na jednolitém pozadí. Dá se tím tak připravit zajímavý materiál pro další úpravy. A co je neuvěřitelné, takto vygenerovaní lidé vypadají v naprosté většině případu reálně. Nejsou nijak pokroucení, nenachází se v tzv. Uncanny Valley.

Koláž vygenerovaných fotografií ženy sedící v zelené místnosti s balónky v pozadí.

Kde jsem ovšem začal narážet na problémy byly pokusy o velmi složité textové požadavky. Zadal jsem tento textový požadavek – „Fotografie krásného slunečního dne u řeky, žena s blond vlasy v rytířské zbroji bez helmy řídí ve velké rychlosti trojkolku, nad hlavou drží kufr, ze kterého odlétají kusy oblečení.“ Vymyslel jsem zadání, které by se jinak velmi těžko tvořilo nebo hledalo. Pokud by toto mělo být zadání od klienta, pomoc AI by byla k nezaplacení. Avšak narazil jsem. Žádný z výsledků neobsahoval vše, co jsem chtěl. Malá trojkolka a létající oblečení dokonce chybí na všech výsledných obrazech. A přitom v hlavě přesně víte, jak jsem si přál, aby výsledek vypadal.

Vygenerovaný obraz ženy ve zbroji jedoucí na motorce

Umělé a neinteligentní

V poslední částí jsem ustoupil od tvorby fotografií a zaměřil jsem se na grafický design. Zde bohužel nejsem výsledkem nijak uchvácen. Zadal jsem AI, aby mi vytvořila grafické elementy nebo reklamní banner na určité zboží. Jediné v čem jsem ji malinko svázal ruce bylo omezení barev, formátu a že má design být současný. Říkal jsem si, že by Midjourney mohl dobře fungovat jako nástroj pro rozšíření moodboardů nebo jako dodatečný zdroj inspirace. Bohužel, opak je pravdou. Výsledky jsou synonymem slova „prvoplánové“. Malinko jsem zde doufal, že uvidíme neotřelé, svým způsobem i divně pokroucené výjevy, které by normálního člověka nenapadly.

Shrnutí

Midjourney je opravdu šikovný nástroj. S novou verzí se opravila většina chyb a podle dostupných informací není změnám konec. Má dojít k oddělení Midjourney z rozhraní Discordu na běžný web, což bude určitě šikovnější pro většinu uživatelů. Má také dojít ke změnám v zobrazení textů, ty se v této chvíli stále zobrazují nesmyslně a pokřiveně. Podle všeho se stále máme na co těšit. Stejně, jako se má jejich umělá inteligence stále co učit.

Pro mě je to v tuto chvíli zajímavá hračka, která může rozšířit představivost na nějaké téma, dopomoci k lepšímu zpracování moodboardů nebo představení určitě koncepce, která by jinak trvala tradičními způsoby déle.

Zajímavé AI nástroje na závěr

A na úplný závěr bych vám rád představil několik zajímavých AI nástrojů, které se zaměřují na určitý segment grafického designu.

Vectorizer AI

Nástroj zdarma, který rychle převede jakýkoliv rastrový obraz do vektorového SVG formátu. Normálně takovým nástrojům příliš nedůvěřuji, ale zde mě až zaskočilo, jak normálně výsledek vypadá.

Fontjoy

Malý, spíše legrační nástroj, který má za úkol vybírat k sobě se hodící písma. Samozřejmě nastává zde tradiční problém s českými znaky, ale věřím, že tento nástroj může dopomoci najít zajímavé a neotřelé kombinace písem pro vaše projekty. Můžete si navolit, jak velký kontrast mezi blokovým a nadpisovým písmem chcete, případně uzamknout nějaký z výběrů a pokračoat v párování. Za mě určitě palec nahoru.

Luma AI

Šikovný nástroj pro skenování reálných objektů a následné vygenerování 3D objektu, který můžete využít pro vaše projekty. Moje jediná kritika je ta, že výsledek je někdy velmi roztříštěný s velkým množstvím anomálií, ale pro vizuálně šílený projekt nebo jako základ pro více hotový 3D objekt to může být přesně volba pro vás.

Khroma

Malý, spíše roztomilý nástroj, který vytváří databázi barevných kombinací na základě vámi zvolených barev, které máte rádi. Skvělé pro případy, kdy si chcete prohlídnout možnosti a najít třeba nějakou zvláštnější kombinaci barev, která by vás normálně nenapadla.