Kaj je Dalle-mini in kako deluje?

Kaj Je Dalle Mini In Kako Deluje



Dalle-mini je model globokega učenja, ki lahko ustvari slike visoke kakovosti iz besedila, ki ga vnese uporabnik. Temelji na modelu DALL-E, ki ga je OpenAI izdal januarja 2021. DALL-E pomeni ' Razvezani jezik in latentno izražanje ” je na transformatorju temelječa nevronska mreža, ki lahko kodira besedilo in slike v skupni latentni prostor in jih nato dekodira nazaj v katero koli modalnost.

Ta članek pojasnjuje naslednjo vsebino:







Kaj je Dalle-mini?

Daj ji-mini je manjša in hitrejša različica DALL-E, ki jo je ustvaril EleutherAI, odprtokodni raziskovalni kolektiv. Dalle-mini uporablja le 6 milijard parametrov v primerjavi z 12 milijardami DALL-E in lahko deluje na enem samem GPE. Dalle-mini uporablja tudi drugačen tokenizer in besedišče za vnos besedila, zaradi česar je bolj združljiv z različnimi jeziki in domenami:




Opomba : Uporabniki lahko ustvarijo brezplačne slike z uporabo Dalle-mini tako, da sledijo povezava .



Kako deluje Dalle-mini?

Glavna ideja za Dalle-mini je moč transformatorjev, ki so nevronske mreže. Lahko se naučijo dolgoročnih odvisnosti in kompleksnih vzorcev v zaporednih podatkih, kot so besedilo ali slike.





Transformatorji so sestavljeni iz dveh glavnih delov: kodirnika in dekoderja. Prvi del sprejme vhod (besedilni opis) in ga spremeni v skrite vektorje. Nato ga dekoder vzame in ustvari izhod (sliko), ki ustreza vhodu.

Kakšna je razlika med Dalle-mini in DALL-E?

Dalle-mini in DALL-E uporabljata skupno arhitekturo kodirnika-dekoderja za besedilo in slike. Z uporabo istega omrežja lahko kodirajo in dekodirajo obe modaliteti. To jim omogoča, da se naučijo skupnega latentnega prostora, ki zajame semantično razmerje med besedilom in slikami. Nato jim omogoči izvajanje navzkrižnega generiranja, kot je ustvarjanje slik iz besedila ali obratno.



Kako deluje Dalle-mini?

Za ustvarjanje slike iz besedilnega opisa Dalle-mini besedilo najprej tokenizira z algoritmom kodiranja parov bajtov (BPE), ki besedilo razdeli na podbesedne enote glede na njihovo pogostost in sočasno pojavljanje:


Pojdimo k podrobnostim notranjega delovanja Dalle-minija:

Notranje delovanje Dalle-minija

Recimo, beseda ' igranje ” se lahko razdeli na ” pla « in » ying ”. Žetoni se nato preslikajo v številske ID-je z uporabo besednjaka 8192 žetonov. ID-ji se vnesejo v kodirnik in ustvarijo latentno predstavitev velikosti 256 x 64:


Dekoder nato vzame latentno predstavitev in ustvari sliko velikosti 256 x 256 slikovnih pik. Dekoder uporablja avtoregresivni proces, kar pomeni, da generira vsako slikovno piko eno za drugo, odvisno od prejšnjih slikovnih pik in latentne predstavitve.

Kako ustvariti sliko iz besedilnega opisa z Dalle-mini?

Če želite ustvariti besedilni opis iz slike z Dalle-mini, vnesite besedilo v okno za poziv. Vnesite na primer » Slika naključnih rož « v pozivu in pritisnite » Teči ” gumb:


Rezultat kaže, da je Dalle-mini ustvaril ustrezne slike glede na vhodno besedilo.

Zaključek

Dalle-mini je izjemen model, ki prikazuje potencial transformatorjev za navzkrižno modalno proizvodnjo. Iz opisov v naravnem jeziku znajo ustvariti realistične in raznolike slike ter iz slik koherentna in ustrezna besedila. Obvladajo lahko tudi kompleksne kompozicije, kot je združevanje več predmetov ali atributov v eni sliki ali besedilu. Ta članek je podrobno razložil Dalle-mini in njegovo delovanje.