ControlNet modeli in novosti v svetu UI-ustvarjanja
November je bil nekoliko bolj dolgočasen v primerjavi s prejšnjimi meseci, vendar se je kljub temu pojavilo dovolj novosti, da se bomo z njimi lahko igrali do konca leta.
Luka Tišler
Med temi dosežki so ControlNet modeli, novi UI-video modeli in glasbeni generativni sistemi, ki omogočajo povsem nove načine izražanja in ustvarjalnosti. Poglejmo, kaj prinašajo novosti, kot so ControlNet za Stable Diffusion 3.5 in Flux, LTX video model, Elevenlabs convo bot, Suno V4 ter zgodba o Sora »leaku«.
Modeli ControlNet za Stable Diffusion 3.5 in Flux
Pri naprednem generiranju UI-slik so modeli ControlNet (CN) nepogrešljiv element za nadzor vsebine. CN-modeli so kot vodniki, ki pomagajo umetni inteligenci, da natančneje sledi tvoji ideji. Namesto, da bi umetna inteligenca samo »ugibala«, kaj želiš, CN prepozna posebne stvari, kot so oblike ali poze v sliki, in jih uporabi, da ustvari bolj specifičen rezultat. Do zdaj smo imeli te modele samo za SD 1.5 in SDXL, zdaj pa jih lahko uporabljamo skupaj z naprednejšimi UI-modeli SD 3.5 in izjemno priljubljenim modelom Flux.
LTX-video model
Lightricks, podjetje, znano po svoji UI-aplikaciji za izdelovanje storyboardov, je šlo korak dalje in predstavilo svoj prvi video model – LTX-video. Ta omogoča generiranje videa v praktično realnem času in ponuja text-to-video in image-to-video metode. LTX-video lahko uporabljate lokalno v okolju ComfyUI ali na strani fal.ai. Njegova dostopnost in hitrost odpirata povsem nove možnosti za ustvarjalce videov.
Elevenlabs convo bot
Elevenlabs je vodilno podjetje za generiranje vokalov in zvočnih efektov z UI v kar 32-ih jezikih (slovenščine žal ni med njimi). Njihov najnovejši dosežek je realno časovni pogovor z UI-botom, ki ga lahko kreiramo kar sami. Določimo jezik, izberemo LLM (Large Language Model), naložimo bazo podatkov, lahko pa ga povežemo tudi s spletnimi orodji in ga s pomočjo API integriramo v naš spletni servis. Ta funkcionalnost odpira možnosti personaliziranih asistentskih rešitev za različne potrebe.
Suno V4
Generatorji glasbe z umetno inteligenco postajajo vse boljši, najnovejši Suno V4 pa postavlja nove mejnike. Ta model je močno izboljšal UI-generirano glasbo, ki se je zdaj skoraj ne da več ločiti od tiste, ki jo ustvarijo ljudje. Glavne izboljšave vključujejo višjo kakovost vokalov, dodajanje osebnih slogov za vokale, remastering in možnost nalaganja lastnih avdio posnetkov za ustvarjanje unikatnih skladb. Suno prav tako ponuja orodja za urejanje besedil in predelavo glasbe v nove sloge z izjemno visoko kakovostjo zvoka.
Sora »leak«
V torek nas je presenetila novica, da je skupina beta testerjev Sore objavila model OpenAI za ustvarjanje UI-videov na priljubljeni strani Huggingface. Veselje je žal trajalo le nekaj ur, saj so dostop do modela hitro zablokirali. Kljub temu smo dobili 72 novih videov, ki so pokazali, da Sora ni več SOTA (state-of-the-art) model, saj nam alternative ponujajo enako dobro konsistenco in gibanje objektov. Seveda so se pojavile številne špekulacije, zakaj je prišlo do tega – ena od njih je, da je bil leak marketinška poteza podjetja OpenAI.
Pot do še večje kreativnosti in inovativnosti
Napredek umetne inteligence nas stalno navdušuje. Z novimi in nadgrajenimi orodji dobivamo nove načine izražanja in priložnosti za ustvarjalnost. Vsak nov dosežek prinaša še več svobode in moči za realizacijo idej. Ne glede na to, kaj nam prinaša prihodnost, se lahko veselimo, da bomo del te vznemirljive poti. Izkoristimo vse, kar nam ponuja UI in ustvarjajmo še bolj drzno in brez omejitev. Nenazadnje je ustvarjanje s pomočjo umetne inteligence le še en korak na poti k še večji kreativnosti in inovativnosti.