Cum generează AI imagini: difuzie latentă, CLIP și Stable Diffusion explicat

Episodul 4 al acestei serii a prezentat Midjourney, DALL-E și Sora ca instrumente: ce produc, cum se folosesc, ce costuri au. Acum mergem un nivel mai adânc: cum funcționează de fapt mecanismul din spate? De ce un model AI poate genera o imagine cu pisici în stil renascentist sau o fotografie realistă a unui munte inexistent? Răspunsul implică doi algoritmi fascinanți: CLIP și difuzia latentă.

Problema fundamentală: textul și imaginile vorbesc limbi diferite

Un computer nu „vede" o imagine — vede o matrice de numere: pixeli cu valori de roșu, verde și albastru. Un text e o secvență de tokeni. Cum faci un model care să înțeleagă că textul „pisică pe o canapea" și o imagine cu o pisică pe o canapea sunt același concept? Răspunsul e CLIP.

CLIP (Contrastive Language-Image Pre-training, OpenAI, 2021) e un model antrenat pe 400 de milioane de perechi text-imagine extrase de pe internet. Sarcina lui: să proiecteze atât textul, cât și imaginea, în același spațiu vectorial — un spațiu matematic abstract unde conceptele similare sunt aproape, iar cele diferite sunt departe.

Concret: după antrenare, vectorul pentru textul „pisică" și vectorul pentru o imagine cu o pisică sunt apropiați în acest spațiu. Vectorul pentru „pisică" și vectorul pentru o imagine cu un câine sunt depărtați. CLIP a „înțeles" că textul și imaginea descriu același concept fără ca nimeni să fi definit explicit ce e o pisică — a dedus asta din milioane de exemple.

CLIP este componenta care „înțelege" promptul tău și ghidează procesul de generare. Fără CLIP, nu ai o punte între cuvinte și imagini.

Difuzia: cum se naște o imagine din zgomot pur

Modelele de difuzie funcționează pe un principiu elegant în două faze:

Faza de antrenare (forward diffusion): Iei o imagine reală și adaugi progresiv zgomot aleatoriu — la fiecare pas, imaginea devine mai neclară, mai granulată, până devine zgomot pur (static, ca un televizor nereglat). Modelul vede mii de perechi (imagine la pasul N, imagine la pasul N+1) și învață să prezică ce zgomot a fost adăugat la fiecare pas.

Faza de generare (reverse diffusion): Pornești de la zgomot pur aleatoriu și rulezi procesul invers: modelul elimină treptat zgomotul, pas cu pas, ghidat de promptul de text. După 20–50 de pași de denoising, din zgomot a apărut o imagine coerentă.

Magia e că modelul nu a memorat imagini — a învățat structura imaginilor naturale. Știe cum arată texturile, cum cad umbrele, cum funcționează perspectiva. Când elimină zgomotul ghidat de textul „apus de soare pe mare", construiește o imagine care respectă aceste structuri și se potrivește conceptual cu textul.

Latent diffusion — de ce Stable Diffusion e eficient

Un obstacol practic: difuzia pe pixeli bruți e extrem de lentă. O imagine de 512×512 pixeli are ~786.000 de valori numerice; rularea difuziei direct în acest spațiu cere calcule uriașe.

Latent diffusion (Rombach et al., 2022, baza Stable Diffusion) rezolvă asta printr-un truc elegant: în loc să difuzezi în spațiul pixelilor, difuzezi într-un spațiu latent comprimat. Un autoencoder (un tip de rețea neurală) comprimă mai întâi imaginea de 512×512 într-o reprezentare latentă de 64×64 — de 64 de ori mai mică. Difuzia se face în acest spațiu comprimat. La final, un decoder transformă reprezentarea latentă înapoi în imaginea completă.

Rezultatul: generare de 4–8× mai rapidă, cu calitate similară. Acesta e motivul pentru care Stable Diffusion poate rula chiar și pe laptop-uri cu GPU dedicat — nu are nevoie de un server de data center.

Model	Arhitectură	Spațiu difuzie	Notabil pentru
DALL-E 3 (OpenAI)	Difuzie latentă + CLIP	Latent	Urmează instrucțiunile din prompt cu precizie
Midjourney v6	Difuzie (proprietar)	Necunoscut public	Calitate artistică, estetică coerentă
Stable Diffusion	Latent diffusion (open source)	Latent 64×64	Rulează local, fine-tuning personalizat
FLUX.1 (Black Forest)	Diffusion Transformer (DiT)	Latent	Text în imagini, anatomie corectă, 2024–2026

Guidance scale — cât de strict urmezi promptul

CFG (Classifier-Free Guidance) scale e un parametru care controlează cât de mult influențează promptul de text procesul de generare, față de „creativitatea" liberă a modelului.

La CFG scăzut (2–4): modelul e creativ, generează imagini interesante dar poate ignora detalii din prompt. La CFG mediu (7–10): echilibru bun, folosit implicit de majoritatea uneltelor. La CFG ridicat (15–20): modelul urmează promptul foarte strict, dar imaginile devin suprasaturate, cu artefacte vizuale.

De ce AI-ul nu desena mâini corect — și de ce acum e mai bine

O limitare celebră a primelor modele de difuzie: mâinile cu număr greșit de degete. Motivul e în modul de antrenare — mâinile sunt reprezentate în date de antrenare în mii de variante de poziție, unghi, iluminare. Modelul, care lucrează cu probabilități, combina aceste variante în loc să reproducă anatomia corectă. Câteva degete în plus sau în minus nu creșteau semnificativ eroarea de training.

FLUX.1 (2024) și Midjourney v6 au îmbunătățit dramatic acest aspect prin mai multe date de antrenare de calitate mai înaltă și arhitecturi mai bune. Problema nu a dispărut complet, dar nu mai e regula — e excepția.

Video: de la imagini la Runway, Veo și Kling

Generarea de video e difuzie aplicată în plus față de timp. Modelele video difuzează simultan în spațiu (pixeli/latent) și în timp (cadre consecutive). Provocarea e coerența temporală: obiectele trebuie să se comporte fizic consistent de la cadru la cadru — o minge aruncată trebuie să urmeze o traiectorie parabolică, nu să teleporteze.

Sora (OpenAI) a fost primul model care a demonstrat această coerență temporală la scară, în 2024 — dar a fost oprit în aprilie 2026 din cauza costurilor nesustenabile (detalii în articolul dedicat de pe site). Liderii actuali sunt Runway Gen-3 Alpha, Google Veo 2 (integrat în ecosistemul Google) și Kling AI (Kuaishou). Toți folosesc arhitecturi similare — Diffusion Transformer adaptat pentru secvențe spațio-temporale — dar cu optimizări de cost care fac produsul comercial viabil. Generarea de video rămâne semnificativ mai costisitoare computațional decât generarea de imagini, dar ecartul s-a redus față de 2023–2024.

Limitele actuale

Modelele de difuzie rămân imperfecte la: text în imagini (FLUX.1 e mai bun, dar celelalte greșesc adesea litere), anatomie complexă (mâini, picioare în unghiuri extreme), coerență în imagini multiple (dacă generezi 10 imagini cu „același personaj", nu va fi același), și raționament spațial (instrucțiuni precum „a la stânga lui b" sunt adesea ignorate).

Toate aceste limitări reflectă aceeași caracteristică fundamentală: modelul lucrează cu distribuții statistice, nu cu înțelegere. Știe că în contextul „fotografie portret" fețele au ochi, nas, gură în proporții corecte — dar nu „înțelege" că o față are exact doi ochi. E o distincție importantă pentru oricine folosește AI generativ în producție.

🤖 Inteligență Artificială

← Toate articolele

🤖

Serie de articole

Inteligența Artificială

Vezi toate →