Episodul 4 al acestei serii a prezentat Midjourney, DALL-E și Sora ca instrumente: ce produc, cum se folosesc, ce costuri au. Acum mergem un nivel mai adânc: cum funcționează de fapt mecanismul din spate? De ce un model AI poate genera o imagine cu pisici în stil renascentist sau o fotografie realistă a unui munte inexistent? Răspunsul implică doi algoritmi fascinanți: CLIP și difuzia latentă.

Problema fundamentală: textul și imaginile vorbesc limbi diferite

Un computer nu „vede" o imagine — vede o matrice de numere: pixeli cu valori de roșu, verde și albastru. Un text e o secvență de tokeni. Cum faci un model care să înțeleagă că textul „pisică pe o canapea" și o imagine cu o pisică pe o canapea sunt același concept? Răspunsul e CLIP.

CLIP (Contrastive Language-Image Pre-training, OpenAI, 2021) e un model antrenat pe 400 de milioane de perechi text-imagine extrase de pe internet. Sarcina lui: să proiecteze atât textul, cât și imaginea, în același spațiu vectorial — un spațiu matematic abstract unde conceptele similare sunt aproape, iar cele diferite sunt departe.

Concret: după antrenare, vectorul pentru textul „pisică" și vectorul pentru o imagine cu o pisică sunt apropiați în acest spațiu. Vectorul pentru „pisică" și vectorul pentru o imagine cu un câine sunt depărtați. CLIP a „înțeles" că textul și imaginea descriu același concept fără ca nimeni să fi definit explicit ce e o pisică — a dedus asta din milioane de exemple.

CLIP este componenta care „înțelege" promptul tău și ghidează procesul de generare. Fără CLIP, nu ai o punte între cuvinte și imagini.

Difuzia: cum se naște o imagine din zgomot pur

Modelele de difuzie funcționează pe un principiu elegant în două faze:

Faza de antrenare (forward diffusion): Iei o imagine reală și adaugi progresiv zgomot aleatoriu — la fiecare pas, imaginea devine mai neclară, mai granulată, până devine zgomot pur (static, ca un televizor nereglat). Modelul vede mii de perechi (imagine la pasul N, imagine la pasul N+1) și învață să prezică ce zgomot a fost adăugat la fiecare pas.

Faza de generare (reverse diffusion): Pornești de la zgomot pur aleatoriu și rulezi procesul invers: modelul elimină treptat zgomotul, pas cu pas, ghidat de promptul de text. După 20–50 de pași de denoising, din zgomot a apărut o imagine coerentă.

Magia e că modelul nu a memorat imagini — a învățat structura imaginilor naturale. Știe cum arată texturile, cum cad umbrele, cum funcționează perspectiva. Când elimină zgomotul ghidat de textul „apus de soare pe mare", construiește o imagine care respectă aceste structuri și se potrivește conceptual cu textul.

Latent diffusion — de ce Stable Diffusion e eficient

Un obstacol practic: difuzia pe pixeli bruți e extrem de lentă. O imagine de 512×512 pixeli are ~786.000 de valori numerice; rularea difuziei direct în acest spațiu cere calcule uriașe.

Latent diffusion (Rombach et al., 2022, baza Stable Diffusion) rezolvă asta printr-un truc elegant: în loc să difuzezi în spațiul pixelilor, difuzezi într-un spațiu latent comprimat. Un autoencoder (un tip de rețea neurală) comprimă mai întâi imaginea de 512×512 într-o reprezentare latentă de 64×64 — de 64 de ori mai mică. Difuzia se face în acest spațiu comprimat. La final, un decoder transformă reprezentarea latentă înapoi în imaginea completă.

Rezultatul: generare de 4–8× mai rapidă, cu calitate similară. Acesta e motivul pentru care Stable Diffusion poate rula chiar și pe laptop-uri cu GPU dedicat — nu are nevoie de un server de data center.

ModelArhitecturăSpațiu difuzieNotabil pentru
DALL-E 3 (OpenAI)Difuzie latentă + CLIPLatentUrmează instrucțiunile din prompt cu precizie
Midjourney v6Difuzie (proprietar)Necunoscut publicCalitate artistică, estetică coerentă
Stable DiffusionLatent diffusion (open source)Latent 64×64Rulează local, fine-tuning personalizat
FLUX.1 (Black Forest)Diffusion Transformer (DiT)LatentText în imagini, anatomie corectă, 2024–2026

Guidance scale — cât de strict urmezi promptul

CFG (Classifier-Free Guidance) scale e un parametru care controlează cât de mult influențează promptul de text procesul de generare, față de „creativitatea" liberă a modelului.

La CFG scăzut (2–4): modelul e creativ, generează imagini interesante dar poate ignora detalii din prompt. La CFG mediu (7–10): echilibru bun, folosit implicit de majoritatea uneltelor. La CFG ridicat (15–20): modelul urmează promptul foarte strict, dar imaginile devin suprasaturate, cu artefacte vizuale.

De ce AI-ul nu desena mâini corect — și de ce acum e mai bine

O limitare celebră a primelor modele de difuzie: mâinile cu număr greșit de degete. Motivul e în modul de antrenare — mâinile sunt reprezentate în date de antrenare în mii de variante de poziție, unghi, iluminare. Modelul, care lucrează cu probabilități, combina aceste variante în loc să reproducă anatomia corectă. Câteva degete în plus sau în minus nu creșteau semnificativ eroarea de training.

FLUX.1 (2024) și Midjourney v6 au îmbunătățit dramatic acest aspect prin mai multe date de antrenare de calitate mai înaltă și arhitecturi mai bune. Problema nu a dispărut complet, dar nu mai e regula — e excepția.

Video: de la imagini la Runway, Veo și Kling

Generarea de video e difuzie aplicată în plus față de timp. Modelele video difuzează simultan în spațiu (pixeli/latent) și în timp (cadre consecutive). Provocarea e coerența temporală: obiectele trebuie să se comporte fizic consistent de la cadru la cadru — o minge aruncată trebuie să urmeze o traiectorie parabolică, nu să teleporteze.

Sora (OpenAI) a fost primul model care a demonstrat această coerență temporală la scară, în 2024 — dar a fost oprit în aprilie 2026 din cauza costurilor nesustenabile (detalii în articolul dedicat de pe site). Liderii actuali sunt Runway Gen-3 Alpha, Google Veo 2 (integrat în ecosistemul Google) și Kling AI (Kuaishou). Toți folosesc arhitecturi similare — Diffusion Transformer adaptat pentru secvențe spațio-temporale — dar cu optimizări de cost care fac produsul comercial viabil. Generarea de video rămâne semnificativ mai costisitoare computațional decât generarea de imagini, dar ecartul s-a redus față de 2023–2024.

Limitele actuale

Modelele de difuzie rămân imperfecte la: text în imagini (FLUX.1 e mai bun, dar celelalte greșesc adesea litere), anatomie complexă (mâini, picioare în unghiuri extreme), coerență în imagini multiple (dacă generezi 10 imagini cu „același personaj", nu va fi același), și raționament spațial (instrucțiuni precum „a la stânga lui b" sunt adesea ignorate).

Toate aceste limitări reflectă aceeași caracteristică fundamentală: modelul lucrează cu distribuții statistice, nu cu înțelegere. Știe că în contextul „fotografie portret" fețele au ochi, nas, gură în proporții corecte — dar nu „înțelege" că o față are exact doi ochi. E o distincție importantă pentru oricine folosește AI generativ în producție.

🤖 Inteligență Artificială
← Toate articolele
🤖
Serie de articole
Inteligența Artificială
Vezi toate →
1 Cum gândește un calculator: de la reguli la rețele neurale 2 Ce este un LLM și cum știe să răspundă 3 ChatGPT, Claude, Gemini — comparație și când să folosești ce 4 AI care generează imagini și video: Midjourney, DALL-E, Sora 5 AI în locul de muncă — ce joburi se schimbă și cum 6 Cum nu te păcălești: halucinații, deepfakes și dezinformare AI 7 EU AI Act și reglementarea globală a inteligenței artificiale 8 AGI, superinteligență și viitorul pe termen lung al AI 9 Ghid practic AI în 2026: ce unealtă alegi pentru fiecare sarcină
10 Cum generează AI imagini: difuzie latentă, CLIP și Stable Diffusion explicat Acum citești
11 AI local: rulezi modele AI pe propriul PC cu Ollama și LM Studio 12 AI și securitatea: jailbreak, prompt injection și cum te protejezi
← Ep.9: Ghid practic AI în 2026: ce unealtă alegi pen… Ep.11: AI local: rulezi modele AI pe propriul PC cu … →
💬 Comentarii

Fii primul care comentează acest articol!

✍️ Lasă un comentariu
5 + 3 = ?