Alibaba Tongyi Lab lansseeris hiljuti Z-Image Turbo, täiustatud piltide genereerimise mudeli, mis töötab tervelt 6 miljardi parameetriga. See mudel mitte ainult ei luba tipptasemel kvaliteeti, vaid pakub ka riistvara, mis enamikul harrastajatel ja loomeinimestel juba olemas on. Ja see pole lihtsalt lubadus; see on reaalsus. Vaid paar päeva pärast selle ilmumist hakkasid arendajad looma LoRA-sid – kohandatud peenhäälestatud pilte – kiirusega, mis ületab Flux2-d, Black Forest Labsi populaarse Flux-mudeli tunnustatud järeltulijat.
Z-Image Turbo tõeline esiletõst on selle pakutav efektiivsus. Samal ajal kui konkurendid, näiteks Flux2, vajavad oma mudelite jaoks vähemalt 24 GB videomälu, saab Z-Image töötada ka 6 GB mäluga seadistustes. See toob meid tagasi aega, mil... RTX laiendus 2060, graafikakaart aastast 2019. Kasutajad saavad pilte genereerida 30 sekundi jooksul, olenevalt resolutsioonist. See avab iseseisvatele loojatele ja harrastajatele uksed, mis varem olid suletud.
Tehisintellekti kunstikogukond tunnustas Z-Image'i kvaliteeti kiiresti. Üks kasutaja CivitAI-s, mis on suurim avatud lähtekoodiga tehisintellekti kunstitööriistade hoidla, kommenteeris: „Just selline oleks pidanudki SD3 olema. Kiire täpsus on tõeliselt erakordne; mudel, mis suudab teksti lennult genereerida, on murranguline.“ Selle tulemusel on Z-Image kiiresti kogunud üle 1200 positiivse arvustuse, mis on teravas vastuolus vaid paar päeva varem avaldatud Flux2 157 arvustusega.
Z-Image Turbo pakub täielikku loominguvabadust ilma tsensuurita, mis tähendab, et kõik alates kuulsuste piltidest kuni eksplitsiitse sisuni on võimalik. CivitAI-l on mudeli jaoks praegu saadaval ligikaudu 200 allikat, sealhulgas peenhäälestus ja töövood, kusjuures paljud neist materjalidest sobivad ka täiskasvanutele mõeldud sisu jaoks. Z-Image'i tehniline innovatsioon seisneb selle S3-DiT arhitektuuris, mis on ühe voo transformaator, mis töötleb teksti- ja pildiandmeid algusest peale koos, mille tulemuseks on kõrge kvaliteet, mis tavaliselt nõuaks viis korda rohkemate parameetritega mudeleid.
Mudelit on rangelt testitud mitmes kriitilises aspektis, kusjuures kiirust, realismi ja teksti genereerimist peetakse oluliseks. Vaikimisi üheksa sammu korral genereerib Z-Image Turbo pilte kiirusega, mis on ligikaudu võrdne SDXL-iga, mis on 2023. aasta mudel. Selle väljundkvaliteet ületab Fluxi oma, kusjuures pildid luuakse RTX 2060 GPU-ga sülearvutil 34 sekundiga. Seevastu Flux2 vajab võrreldava pildi genereerimiseks umbes kümme korda rohkem aega, mis on oluline kaalutlus investoritele, kes hindavad tehisintellekti tehnoloogia tõhusust.
Realismi poolest on Z-Image Turbo praegu tarbijariistvara jaoks kõige fotorealistlikum avatud lähtekoodiga mudel. See ületab Flux2 ja iseloomustused näitavad, et Z-Image'i baasversioon edestab spetsiaalselt modifitseeritud Fluxi mudeleid. Naha ja juuste tekstuurid on detailsed ja loomulikud, kõrvaldades paljud varem ebaloomulikud omadused, näiteks kurikuulsad "Fluxi lõuad" ja "plastikust nahk".
Piltide põhjal teksti genereerimine on üks Z-Image'i suurimaid tugevusi. Mudeli jõudlus on Google'i Nanobanana ja Seedreami seatud standarditega võrdne. Mandariini keele kõnelejate jaoks on see mudel suurepärane hiina märkide korrektsel töötlemisel ning hiina keele tekstide puhul on teatatud veelgi paremast jõudlusest. Ingliskeelsed tekstid annavad samuti häid tulemusi, välja arvatud mõned ebatavaliselt pikad sõnad.
Z-Image'i täpne kuvamiskiirus on tähelepanuväärne. Mudel mõistab stiile, ruumilisi suhteid, positsioone ja proportsioone erakordse täpsusega. Näide keerukast mitme teemaga ülesandest demonstreerib, et Z-Image suutis täpselt kujutada praktiliselt iga komponenti, ainult ühe trükiveaga.
Minimaalne kiire läbipaistmatus ja keerukamate stseenide sidusus viitavad mudeli edusammudele võrreldes eelmiste versioonidega. See mitte ainult ei toimi hästi teiste mudelitega võrreldes, vaid seab ka tööstusele kõrgemad standardid.
Alibaba plaanib välja anda kaks täiendavat Z-Image'i varianti: Z-Image-Base peenhäälestuseks ja Z-Image-Edit käskupõhisteks modifikatsioonideks. Kui need versioonid näitavad üles sama täpsust kui Turbo, muutub avatud lähtekoodiga keskkond dramaatiliselt. Kogukonna järeldus on seni ühemõtteline: Z-Image on Fluxi troonilt tõuganud, sarnaselt sellele, kuidas Flux kunagi tegi ... Stabiilne Difusioon.
Selle lahingu tegelik võitja on see, kes meelitab sellele platvormile ehitama kõige rohkem arendajaid. Meie jaoks on selge: Z-Image on praegu meie lemmikmudel koduseks kasutamiseks avatud lähtekoodiga tehnoloogia valdkonnas.
Mis teeb Z-Image Turbo nii ainulaadseks?
Z-Image Turbo ühendab kvaliteetse väljundi minimaalsete riistvaranõuetega, muutes selle kättesaadavaks laiemale kasutajaskonnale, alates harrastajatest kuni professionaalideni.
Kuidas Z-Image võrreldes varasemate mudelitega, näiteks Fluxiga, on?
Z-Image mitte ainult ei ületa Fluxi kiiruse ja efektiivsuse poolest, vaid pakub ka oluliselt paremat pildikvaliteeti ja realismi.
Kas võime Alibabalt tulevikus rohkem edusamme oodata?
Jah, Alibaba on teatanud, et nad töötavad Z-Image'i edasiste versioonide kallal, mis keskenduvad peenhäälestamisele ja juhispõhistele kohandustele ning laiendavad veelgi selle funktsionaalsust.