Briegel - De opkomst en toekomst van AI image generators

Stel je hebt een creatieve ingeving en je wilt datgene wat je in je hoofd hebt, omzetten naar echte beelden. Het liefst zo exact mogelijk, tot in de fijnste details. Hoe zien die beelden er dan uit? Zijn dat foto’s, is het een film, een animatie wellicht? Waar je vroeger als creatief stift en schetsblok pakte om lekker in het wilde weg te gaan schetsen, zijn nu de digitale hulpmiddelen ruimschoots aanwezig om je een handje te helpen. En met de komst van artificial intelligence is de laatste stap naar realistische perfectie gezet. Hoe moet het uiteindelijke resultaat eruit zien? Wat kun je er zelf nog aan toevoegen en wat laat je aan de verbeelding over?

Hoe ver de techniek al gevorderd is, hebben we in de afgelopen 2 jaar al kunnen zien. Misschien herinner je je nog de beelden van de arrestatie van Donald Trump en zijn pogingen om aan de politie te ontsnappen bij zijn arrestatiebevel. Als je goed keek, zag je dat de beelden nep waren. Fake news, zou Trump zelf erover gezegd hebben. Maar beelden als deze schuren wel griezelig dicht tegen de werkelijkheid aan. Wat is de volgende stap? Dat er technologie is die je gedachten kan lezen en deze vervolgens kan omzetten in niet van echt te onderscheiden beelden, lijkt nu nog toekomstmuziek. Maar dat AI en SF steeds dichter naar elkaar toe kruipen, zullen de liefhebbers van de Netflix-hitserie Black Mirror kunnen beamen.

Te weinig rekenkracht en data

De laatste jaren gaan de ontwikkelingen op het gebied van AI supersnel. En dat terwijl de eerste pogingen om beelden te genereren met behulp van AI al dateren uit de jaren ‘70 van de vorige eeuw. Destijds waren de beschikbare rekenkracht en de hoeveelheid data niet toereikend en de algoritmen te simpel en te star om complexere en realistische beelden te kunnen produceren. Maar met de opkomst van Generatieve Adversariële Netwerken (GAN) verandert dat snel.

De GAN's, een neurale netwerkarchitectuur die in 2014 aan de Universiteit van Montreal is ontwikkeld door Ian Goodfellow, zorgen voor een echte doorbraak op het gebied van AI-gegenereerde afbeeldingen. GAN’s bestaan uit twee neurale netwerken: een generator en een discriminator, die afwisselend worden getraind. Dat is een behoorlijk technisch verhaal en daar zullen we je in dit blog niet mee vermoeien.

Zonder menselijke input geen technologische output

We leven nu in een tijdperk van AI-modellen die in staat zijn om afbeeldingen van hoge kwaliteit te genereren op basis van alleen tekst. En deze technologie is gratis en via open sources voor iedereen beschikbaar. Maar kan iedereen er ook daadwerkelijk iets van maken? Heb je nog visual designers nodig? Hoe ver de technologie ook gevorderd is, aan de basis van wat AI genereert, staat nog steeds de mens. Zo heb je nog steeds menselijke creativiteit nodig om deze AI image generators de opdracht te geven zo realistisch mogelijke beelden te produceren. Zonder creatieve menselijke input geen creatieve technologische output.

DALL-E, Midjourney of Firefly?

De aanvankelijke kinderziektes en beperkingen waarmee de eerste generatie GAN’s te maken hebben, zijn er door onderzoekers intussen uitgefilterd. Het resultaat is de ontwikkeling van een aantal generatieve AI-modellen waar de creatieve industrie, ook wij als Briegel, gebruik van maakt. We lichten er een paar uit. Bijvoorbeeld DALL-E, ontwikkeld door OpenAI, dat op 5 januari 2021 het levenslicht zag. DALL-E maakt gebruik van Generative Pre-Trained Tranformer en is van oorsprong ontwikkeld om beelden uit beschrijvingen in natuurlijke taal, de zogenaamde prompts, te verwerken. Bij DALL-E is de prompt heilig. Het artistieke eindresultaat is daarbij ondergeschikt aan nauwkeurigheid. Dat levert nogal eens doorsnee beelden op. Hoe anders is dat bij Midjourney, op dit moment de meest creatieve AI image generator. Een zoekopdracht in Midjourney levert beelden op die fantasierijk zijn, fotografisch perfect en rijk aan details. Dat maakt dat Midjourney een echte aanrader is voor creatievelingen die originaliteit met artisticiteit willen combineren in hun zoekopdracht.

Hoe ziet de toekomst eruit?

Anders dan bij DALL-E en Midjourney wordt Adobe Firefly toegepast om afbeeldingen én teksteffecten te genereren. Prompts worden omgezet in AI gegenereerde content die tot het publieke domein behoort en waarvan het auteursrecht verlopen is. Met slechts enkele beschrijvende zinnen bereik je de mooiste resultaten. Waar de meeste AI image generators zich richten op slechts één functionaliteit, is het met Adobe Firefly in de toekomst bijvoorbeeld ook mogelijk om storende elementen uit foto’s te filteren, de sfeer van een video te veranderen of nieuwe elementen aan illustraties toe te voegen.

Proef op de som

Om te zien waartoe de verschillende AI image generators op dit moment in staan zijn, hebben we ze gevraagd om een beeld te zoeken van een copywriter die, zittend aan zijn bureau, diep in gedachten verzonken, zichzelf de vraag stelt hoe hij een writer's block kan voorkomen. Zie hier het resultaat.

De opkomst en toekomst van AI image generators

Te weinig rekenkracht en data

Zonder menselijke input geen technologische output

DALL-E, Midjourney of Firefly?

Hoe ziet de toekomst eruit?

Proef op de som

Meer lezen?

Let's talk

Let's talk

Let's talk

Let's talk