Immagine generata dal testo "Verdure felici in attesa di cena.". Credito:Università Ludwig Maximilian di Monaco di Baviera
Creare immagini dal testo in pochi secondi e farlo con una scheda grafica convenzionale e senza supercomputer? Per quanto fantasioso possa sembrare, questo è reso possibile dal nuovo modello Stable Diffusion AI. L'algoritmo sottostante è stato sviluppato dal Machine Vision &Learning Group guidato dal Prof. Björn Ommer (LMU Monaco di Baviera).
"Anche per i profani non dotati di talento artistico e senza un know-how informatico e hardware informatici speciali, il nuovo modello è uno strumento efficace che consente ai computer di generare immagini a comando. In quanto tale, il modello rimuove una barriera alla gente comune che esprime la propria creatività ", dice Ommer. Ma ci sono vantaggi anche per gli artisti esperti, che possono utilizzare Stable Diffusion per convertire rapidamente nuove idee in una varietà di bozze grafiche. I ricercatori sono convinti che tali strumenti basati sull'intelligenza artificiale saranno in grado di espandere le possibilità di generazione di immagini creative con pennello e Photoshop, fondamentalmente come l'elaborazione di testi basata su computer ha rivoluzionato la scrittura con penne e macchine da scrivere.
Nel loro progetto, gli scienziati della LMU hanno avuto il supporto della start-up Stability.Ai, sui cui server è stato addestrato il modello AI. "Questa potenza di calcolo aggiuntiva e gli esempi di addestramento extra hanno trasformato il nostro modello di intelligenza artificiale in uno dei più potenti algoritmi di sintesi delle immagini", afferma l'informatico.
L'essenza di miliardi di immagini di allenamento
Un aspetto speciale dell'approccio è che, nonostante tutta la potenza del modello addestrato, è comunque così compatto da funzionare su una scheda grafica convenzionale e non richiede un supercomputer come era precedentemente il caso per la sintesi delle immagini. A tal fine, l'intelligenza artificiale distilla l'essenza di miliardi di immagini di addestramento in un modello di intelligenza artificiale di pochi gigabyte.
"Una volta che tale IA avrà veramente compreso cosa costituisce un'auto o quali sono le caratteristiche tipiche di uno stile artistico, avrà appreso proprio queste caratteristiche salienti e dovrebbe idealmente essere in grado di creare ulteriori esempi, proprio come possono produrre gli studenti di una vecchia officina lavorare nello stesso stile", spiega Ommer. Nel perseguire l'obiettivo degli scienziati della LMU di far sì che i computer imparino a vedere, vale a dire a comprendere il contenuto delle immagini, questo è un altro grande passo avanti, che fa avanzare ulteriormente la ricerca di base nell'apprendimento automatico e nella visione artificiale.
Il modello addestrato è stato recentemente rilasciato gratuitamente sotto la licenza "CreativeML Open RAIL-M" al fine di facilitare ulteriori ricerche e applicazioni di questa tecnologia in modo più ampio. "Siamo entusiasti di vedere cosa verrà costruito con i modelli attuali e di vedere quali ulteriori lavori usciranno da sforzi di ricerca aperti e collaborativi", afferma il ricercatore di dottorato Robin Rombach. + Esplora ulteriormente