Kdykoliv na sociálních sítích sdílím informace týkající se AI, dostávám kritiku od mých kolegů fotografů, kteří AI považují za velkou hrozbu. Přispívám snad k zániku naší profese?

Možná se takto cítili fotografové, když na trh v roce 1990 přišel první Photoshop. Místo nadšení se někteří dlouho drželi starých postupů. Nicméně v dnešní době musí být člověk flexibilní. Za posledních 20 let se technologie vyvíjely neuvěřitelně rychlým tempem. A ten, kdo se odmítá neustále učit, se nachází ve velké konkurenční nevýhodě.

Je potřeba se nepřestávat sebevzdělávat a připustit možnou spolupráci s AI, která má pro fotografy stále větší využitelnost. Ať už se jedná o generování uměleckých fotek, fotopříběhů, moodboardů, nebo k hledání inspirace. Jak s AI pracuji vám odkryji v tomto článku.

Rychlý pokrok Midjourney

Podívejme se na jeden z nejvyužívanějších AI nástrojů sloužící ke generování fotografií, obrázků a ilustrací, Midjourney. Na následujících obrázcích uvidíte, jak rychle se tento nástroj vyvíjí k dokonalosti.

Vyzkoušel jsem 3 verze Midjourney na stejný úkol. Chtěl jsem vygenerovat obrázek humanoidního robota držícího fotoaparát, kterým pořizuje fotografii. Prompt pro generovaných všech tří obrázků jsem použil stejný:

close up of a humanoid robot holding camera in hands and taking a picture, in the style of mark seliger, édouard manet, uniformly staged images, manapunk, yankeecore, enchanting,32k uhd, raw texture, photorealistic accuracy –ar 16:10

Na první fotografii je výsledek z verze 2, která vyšla v dubnu 2022.

Robot držící fotoaparát, vygenerován pomocí Midjourney verze 2

Na následující fotografii vidíme výsledek verze 5, která vyšla v březnu 2023.

Robot držící fotoaparát, vygenerován pomocí Midjourney verze 5

U třetího vygenerovaného obrázku je výsledek z verze 5.1, která vyšla nově při psaní tohoto článku.

Robot držící fotoaparát, vygenerován pomocí Midjourney verze 5.1

Na obrázcích je vidět zřetelný pokrok, který Midjourney za pouhý rok urazil. Verze 5.1 poskytuje výstupy ještě přesnější než verze 5, ze které jsem generoval obrázky v tomto článku. Nicméně AI není dokonalá. K tomu, aby se dala v produktové fotografii plně využít, má před sebou ještě dlouhou cestu. Proč?

Fantasy nebo realita?

Midjourney je skvělý nástroj, ale je potřeba ho správně uchopit. Má stále dost omezení. Zejména při generování reálných věcí z našeho světa. Při generování obrázků skládá Midjourney více předmětů dohromady, protože nechápe, jak reálné nástroje fungují při zobrazení. Divák si toho často na první pohled nevšimne, ale při bližším pohledu na vygenerovaný obrázek uvidí, že v něm řada detailů nesedí.

Pro příklad jsem vygeneroval následující obrázek, kdy jsem nechal Midjourney vytvořit stůl plný truhlářských nástrojů pomocí tohoto promptu:

woodworker tools on table 32k uhd, raw texture, photorealistic accuracy –ar 4:3

Truhlářské nástroje v dílně, vygenerované pomocí Midjourney

Na první pohled není výsledek špatný. Jakmile se ale na obrázek zaměříme, zjistíme, že snad jediný nástroj není správně.

Na tyto nepřesnosti je třeba při generování obrázků myslet. AI zcela nechápe, jak náš svět funguje, respektive jak přesně vypadá. A proto lépe využijeme AI při generování prostředí, kde není potřeba tolika detailů. Pro příklad jsem nechal vygenerovat zimní zátiší pomocí následujícího promptu:

product photography of a white rectangular box in the interior, in the style of atmospheric and moody landscapes, snow scenes, 32k uhd, monochromatic depth, eerily realistic, moody and atmospheric, atmospheric –ar 16:10

Bílá krabice v chatce, zatímco venku sněží, vygenerováno pomocí Midjourney

Vygenerovaný obrázek je čistý, bez jakýchkoliv nástrojů a detailů, které by dělaly AI problém. A tak jsem získal obrázek, který je ihned využitelný.

Příkaz describe je dobrý kámoš

Možná se potkáváte s tím, že zadávané prompty do AI vám negenerují požadovaný výsledek. I když vám připadá zadání pro AI srozumitelné a maximálně přesné, pro AI nemusí být pochopitelné.

Jak už jsem zmínil, AI se stále učí, a zatím přemýšlí jinak než lidé. Proto může chvíli trvat, než AI skutečně pochopí, co od ní chceme. Je třeba umět napsat správné prompty, které dokáže AI dobře uchopit. A tak jsem si oblíbil nový příkaz v Midjourney, který se jmenuje /describe.

Příkaz /describe funguje tak, že namísto toho, aby nástroj Midjourney generoval obrázek podle textu, vložíte obrázek do Midjourney a ten vám popíše, co na obrázku vidí. Co na obrázku Midjourney vidí, vám napíše vždy ve čtyřech promptových odstavcích.

Na následujícím obrázku, můžeme vidět fotku plechovky Svijan v obležení truhlářských nástrojů, na kterou byl použit příkaz /describe.

Můžeme vidět, že nám Midjourney vygenerovalo čtyři promptové odstavce, každý s jiným obsahem. Tyto prompty nám sdělují, co vidí Midjourney na fotce. A díky těmto promptům dostaneme lepší představu o tom, co na fotce AI vidí, popsané jejími slovy. Tyto informace můžeme využít při dalším generování.

Pojďme si ukázat, jak se čtyřmi vygenerovanými prompty nadále pracovat. Pro ukázku jsem si vybral první odstavec, první prompt:

the beer can sits on the table with tools, in the style of geometric symmetry, intricate storytelling, light silver and light indigo, intricate woodwork, salomon van ruysdael, precisionist lines, dynamic symmetry –ar 2:3

Přišel mi neobvyklý, protože využívá přirovnání grafiky k tvorbě nizozemského krajináře Salomon van Ruysdaela, což by mě nenapadlo při zadání do Midjourney zakomponovat. Na následujícím obrázku vidíte čtyři vygenerované varianty, o které jsem postupně žádal.

Plechovky piva v různých dílnách, vygenerované pomocí Midjourney

Výsledek hodnotím jako ucházející. Můžeme vidět podobnosti s fotkou, kterou jsme do Midjourney pomocí příkazu /describe nahráli. Hlavně u čtvrté fotky můžeme vidět největší podobnost.

Vylepšení promptu k dokonalosti

S prompty si samozřejmě můžeme dále hrát, měnit je, pokoušet se dostávat k ještě lepšímu výsledku. Osvědčilo se mi kombinovat prompty ze všech čtyř odstavců, anebo přidávat další zpřesnění. Upřímně i pro mě je to prozatím taková metoda pokusu a omylu, než vzejde výsledek, se kterým jsem spokojený.

Pro příklad uvádím, jak jsem nakonec změnil navrhovaný prompt od Midjourney, abych dostal lepší výsledek:

photo of a beer can near other tools of woodworker next to a wooden table, dynamic symmetry, in the style of light purple and light navy, precisionist lines, intricate texture, frostpunk, salomon van ruysdael, light gray and indigo, lively tavern scenes, flatlay –ar 9:16 –v 5

Plechovka piva v truhlářské dílně, vygenerovaná pomocí Midjourney

Snadná změna prostředí

Když získáme dobře fungující prompty, můžeme je využít k replikaci obsahu do jiného prostředí. Například jsem zkusil přesunout plechovku piva do prostředí pivovaru. Změnil jsem pouze první větu promptu. Z původního zadání photo of a beer can near other tools of woodworker next to a wooden table, jsem větu přepsal na a beer can sitting on wooden barel in a brewery. Takto vypadal výsledný prompt:

a beer can sitting on wooden barell in a brewery, dynamic symmetry, light violet and light indigo, precisionist lines, intricate texture, frostpunk, salomon van ruysdael, light gray and indigo, lively tavern scenes, flatlay –ar 9:16

Plechovka piva v pivovaru, vygenerovaná pomocí Midjourney

Dále jsem zkusil přesunout plechovku do přírody. Chtěl jsem vytvořit více nerealistickou scénu, kde by byla plechovka v přírodě a obklopena zvířaty. Nicméně Midjourney mi takový výstup neposkytl, a pouze vložil zvíře do designu plechovky. Opět jsem změnil pouze první větu promptu.

photo of a beer can in the woods surrounded by forest animal, standing on grass-roots,, dynamic symmetry, light violet and light indigo, precisionist lines, intricate texture, frostpunk, salomon van ruysdael, light gray and indigo, lively tavern scenes, flatlay –ar 9:16

Plechovka piva v přírodě, vygenerovaná pomocí Midjourney

Jako poslední jsem zkusil zakomponovat plechovku do vesmírné stanice pomocí tohoto promptu:

photo of a beer can in the interior of a space ship, dynamic symmetry, light violet and light indigo, precisionist lines, intricate texture, frostpunk, salomon van ruysdael, light gray and indigo, lively tavern scenes, flatlay –ar 9:16

Plechovka piva ve vesmírné lodi, vygenerováno pomocí Midjourney

Na uvedených příkladech vygenerovaných obrázků vidíme, že pokud co nejvíce vyladíme správný prompt, je následná změna prostředí pro AI celkem snadná, srozumitelná a výsledek je použitelný.

Moodboard snadno a rychle

Hledání vhodných moodboardů na internetu bývá časově náročná činnost. A někdy ani nedokážeme najít fotky ve správných formátech a se správným rozlišením. Nakonec končíme při hledání s několika nesourodými fotkami, které nám zaberou ještě čas na úpravu. Proto je skvělé, že právě s vytvářením moodboardů nám může pomoci AI. Zvlášť proto, že na nich není třeba tolika detailů, které dělají AI problém, jak jsme probrali dříve v tomto článku.

Generování krok za krokem

Pojďme se podívat na to, jak se moodboard pomocí Midjourney tvoří. Pro příklad jsem zvolil proces vytváření piva. Nejdřív jsem si našel postup na výrobu piva. Pro ukázku do tohoto článku jsem zvolil jen tři kroky z rozsáhlého postupu, které mi přišly vizuálně nejzajímavější.

U generování moodboardů pomocí AI není potřeba vysoká přesnost při zadávání promptu. Takže postačí pouze pár příkazů.

První moodboard se měl týkat rozdělení a přípravy surovin:

photo of mashing. The malted barley is cracked through a grain mill. , 32k uhd, raw texture, photorealistic accuracy –ar 4:3

Suroviny na přípravu piva, vygenerované pomocí Midjourney

Následující obrázky měly ukazovat proces rozdrcení sladu z ječmene v drtiči na obilí:

photo of mashing. The malted barley is cracked through a grain mill. , 32k uhd, raw texture, photorealistic accuracy –ar 4:3

Proces rmutování při výrobě piva, který je vygenerován pomocí Midjourney

Další obrázky zobrazují oddělení sladového roztoku od pevných částic sladiny:

A shot of the lauter tun, showing the separation of the wort from the grains, 32k uhd, raw texture, photorealistic accuracy –ar 4:3

Proces zcezování surovin na výrobu piva, vygenerovaný pomocí Midjourney

Nakonec jsem vygeneroval hrdého sládka, který je spokojený se svojí prací:

photo of old industrial brewery on the wood barrel by craft beer with local farmer, in the style of mark seliger, classic portraiture, édouard manet, uniformly staged images, manapunk, yankeecore, enchanting –ar 7:4

Sládek sedící v pivovaru obklopený sudama s pivem, vygenerovaný pomocí Midjourney

Na těchto výstupech můžeme vidět, že na tvoření moodboardů a ukázkových fotek je Midjourney více než dostačující.

Nechte se inspirovat

Nedávno jsme fotili vizuály pro klienta, který dováží zamražené ryby z Aljašky. Klient si přál fotografie krabic, ve kterých se ryby prodávají. Výsledek měl vypadat velmi autenticky, jako by byly fotky pořízeny skutečně na Aljašce. Rozhodl jsem se tedy v ateliéru vytvořit prostředí podobné rybářské chatce nebo vnitřku rybářské lodi.

Aby byl výsledek co nejdůvěryhodnější, vyhledával jsem na internetu, jak typická aljašská chatka vypadá. Nebyl jsem ale schopen nalézt nic, co by mi poskytlo jakoukoliv inspiraci. Zkusil jsem tedy vygenerovat potřebný materiál v Midjourney, což se vzápětí ukázalo jako výborný nápad a během pár pokusů jsem před sebou měl hned několik snímků, od kterých jsem se mohl ve svém projektu odrazit.

Co se týče promptů u generování těchto inspirací, tak jsem zvolil podobné prompty jako u generování sládka v přechozím obrázku, protože se mi líbila atmosféra, kterou vygenerovaný obrázek nabízí. Využil jsem tento prompt:

photo of inside Alaskan Fisherman fishing boat industrial fishing in the style of mark seliger, édouard manet, uniformly staged images, manapunk, yankeecore, enchanting –ar 9:16

Vnitřek Alijašské rybářské chaty, vygenerový pomocí Midjourney

Na následujících obrázcích uvidíte výsledky mého pokusu o generování další inspirace s tímto promptem:

photo of interier of fishing cabin industrial fishing in the style of mark seliger, édouard manet, uniformly staged images, manapunk, yankeecore, enchanting –ar 9:16

Výsledky jsou velmi dobré, i když ne zcela realistické. Jako inspirace bohatě stačí. A věřím, že časem budou výsledky jen lepší.

Tipy na závěr

Na závěr mám pro vás pár praktických tipů pro generování obrázků.

Při generování produktů nebo pozadí k produktům se mi osvědčily tyto prompty:

selective focus, 32k uhd, raw texture, photorealistic accuracy

U generování lidí s co největšími detaily se mi osvědčily tyto prompty:

Shot on a Hasselblad medium format camera. Unmistakable to a photograph. Iridescent eyes. Cinematic lighting. Photographed by Tim Walker, trending on 500px

Při generování lidí je důležité zdůraznit, že se jedná o fotografii a začít slovy photo of.
Dále je dobré upřesnit, jaký fotoaparát a případně objektiv má použít – např. Shot on a sony camera, sony fe 12-24mm f/2.8 gm.
Dobré je zdůraznit v jakém stylu má být výsledek. K tomu slouží užitečná stránka Midlibrary, kde najdete řadu různých stylů od fotografů, až po ilustrátory. Stačí si vybrat styl, ve kterém chcete výstup generovat a doplnit ho do promptů. Stačí napsat např. Photographed by Tim Walker.
Když potřebuji zvětšit fotografii vygenerovanou pomocí Midjourney, používám nástroj Upscale Media. Midjourney generuje výsledky v malém rozlišení a tato stránka je dokáže až šestkrát zvětšit. V základní verzi je zdarma.
Vyzkoušejte Midjourney verzi 5.1, která umožňuje generovat lepší obrázky za pomoci méně promptů. Také jsou v ní výstupy o něco detailnější, než byly doposud. Doporučuji používat úzké formáty výstupů, protože dosáhnete lepších výsledků než u širokých.

Přestanu být potřeba?

Spousta produktových a reklamních fotografů má obavy z rychlého pokroku AI v posledních letech. Ztratí jejich specializace hodnotu ve chvíli, kdy bude AI umět vložit určitý produkt do snímku a generovat stejný prostor v různých úhlech? Nebo až dokáže generovat fotografie ve vrstvách, ve kterých se budou následně dát upravovat?

Dle mého názoru AI fotografy nenahradí, ne úplně. Produktoví fotografové mají skvělou příležitost AI k jejich tvorbě využít. Mohou vygenerovat jakékoliv pozadí a následně vyfocený produkt do popředí fotografie přidat. Toto řešení může výrazně snížit náklady na mnohdy produkčně náročná focení. Doporučil bych všem svým kolegům, aby dali AI šanci a přijali ji jako nástroj, který jim může přinést mnoho nových poznatků, inspirace a úsporu času.

Pokud vás téma AI baví jako mě, neváhejte a přijďte na AI Restart, který pořádá agentura Taste už 22. 6. 2023. Já budu celou konferenci fotit a jsem rád, že to za mě (zatím) robot neudělá. 😉

AI Inside Out #6: Je umělá inteligence zkáza fotografů?

Rychlý pokrok Midjourney

Fantasy nebo realita?