Kæmpe milepæl – kører tekst-til-billede AI derhjemme

Siden Open AI i januar 2021 annoncerede deres første maskinlæringsmodel for tekst-til-billede-generering, DALL· E, er nye og bedre modeller dukket op i et stadigt stigende tempo. De sidste par måneder har de været overalt på nettet og i medierne efterhånden som flere og flere har fået adgang til at lege med modellerne og massere af fantastiske billeder er dukket op på nettet.

Men den største milepæl til dato var efter min mening den 22. august da stability.ai udgav deres tekst-til-billede model, Stable Diffusion, til offentligheden. Kvalitetsmæssigt kan Stable Diffusion sammenlignes med modeller som DALL·E 2 og Midjourney. Den store forskel er at den er gratis, open source og kommer med en licens der giver mulighed for både kommerciel og ikke-kommerciel brug – ikke kun til de værker du skaber, du kan endda inkludere selve modellen i dine egne produkter.

… og det bedste er at du kan køre modellen derhjemme på et grafikkort så du slipper for at vente i en kø online for at få billeder genereret. Det skulle prøves, så det brugte hele sidste weekend på…

I starten lavede min søn og jeg masse sjove billeder, mange med Boris Johnson. Generering af et 512×512 billede tager kun omkring 7 sekunder på et RTX-2080Ti kort. Det bliver til en masse fjollede billeder på meget kort tid.

Mit første forsøg på at lave noget lidt mere seriøst var “young woman wearing steam punk helmet, detailed face”. Jeg kørte prompten et par gange indtil jeg fik et interessant resultat og efter at have justeret indstillingerne lidt var jeg rimeligt tilfreds med resultatet – lige bortset fra nogle ret graverende fejl omkring munden og øjnene. Men en anden AI-model blev hurtigt downloadet, GFPGAN til ansigtsrestaurering. Kørte billedet gennem modellen og det løste problemet. Næste problem var billed opløsningen; der blev kun genereret i 768×512 pixels for ikke at løbe tør for video ram. Igen kom en AI model til undsætning, en model der gør det muligt at opskalere billedet. Nu havde jeg en mere brugbare 3072×2048 pixels opløsning.

Brugte GFPGAN modellen til face restoration og en ESRGAN baseret model til opskalering.

Ved slutningen af weekenden havde mine billeder nået et helt nyt niveau. Jeg lærte meget af eksempler online og begyndte at bruge meget længere beskrivelser og inkludere kunstnernavne for at få forskellige stilarter. En eller flere af følgende kunstnere er brugt i nogle af billederne; Greg Rutkowski x6, Brian Froud x2, H. R. Giger , Alex Grey, Magali Villeneuve, Jason Felix, Steve Argyle, Tyler Jacobson, Peter Mohrbacher, Jessica Rossier, Daniel Mijtens, Hieronymus Bosch, Anna Podedworna, Grant Wood, PJ Crook, Edward Hopper and artgerm. Det er utroligt hvor langt man kan presse modellen til at bruge dens hukommelse af alle de billeder den er trænet på. Jeg har kun lige dyppet tæerne, modellen kan meget mere. Der er allerede en betegnelse for det: “Prompt crafting”. Nogle kalder det en kunstform, jeg ser det dog mere som et håndværk.

Jeg er ikke i tvivl om at branchen er under kraftig forandring. Disse modeller vil være en stor del af den fra nu af og i fremtiden. Hvilken branche? Faktisk enhver branche der arbejder med det visuelle. Allerede i sin nuværende form er der utroligt meget Stable Diffusion kan bruges til. Det er kun 2 uger siden at stability.ai slap modellen fri og der er allerede blevet lavet masser af web- og grafiske brugergrænseflade til den. Endnu mere imponerende, en plugin til PhotoShop så modellen kan bruges inde i programmet, både til sammensmelte af billeder samt ændre dem med en tekst prompt – og det efter kun 2 uger! Og der er flere projekter af samme kaliber i alpha eller beta allerede – hvad har vi om 6 måneder?

12 billeder på 200 sekunder. Få en idé, lad computeren lave 200 versioner af den mens du er til frokost. Måske kan et af dem danne grundlaget for for det du arbejder med. Måske 200 farvevariationer til et nyt koncept. Eller…

Modellen er også i stand til at lave billed-til-billede sammen med en tekst beskrivelse. Det åbner op for masser af muligheder for at hjælpe modellen med at skabe præcis det billeder du gerne vil have. Jeg har ikke prøvet det endnu, men jeg tror jeg ved hvad jeg laver næste weekend.

20 billeder i lidt forskellige stilarter gemte jeg fra mine eksperimenter sidste weekenden. Intet menneske kunne lave så mange billeder i løbet af en weekend og de blev valgt mellem de omkring 2000 billeder der blev genereret mens jeg eksperimenterede:

Prøv Stable Diffusion nu

Hvis du vil prøve Stable Diffusion lige nu kan du bruge online-demoen her.

Installer Stable Diffusion lokalt

Det er spild af tid at gennemgå hvordan jeg installerede softwaren. Jeg gjorde det sidste weekend og der er allerede en masse ny software og tutorials der gør det endnu nemmere at installere og arbejde med. En hurtig søgning burde let kunne finde flere gode tutorials.

Er det sikkert at køre softwaren lokalt?

Der ingen chance for der går SkyNet i den og computeren overtager starter 3. verdenskrig. Men det er muligt at skjule python code i de trænede modeller. Problemet er pythons pickle format som bruges til at gemme dem, så brug sund fornuft og hent kun modeller fra steder du stoler på.

Opskalering

Til opskalering brugte jeg ChaiNNer af Joey Ballentine. Det er open source og stadig kun i alfa, men allerede nu meget brugbar til at indlæse modeller og opskalere billeder – MEGET lovende.

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *