Ideja, da bi ustvarjalci vsebin imeli dostop do glasbe, ki bi bila prosto dostopna, unikatna in prilagojena vsebini, ni nova. Izzivi se pojavijo že pri tako preprostih nalogah, kot je najti primerno glasbeno podlago za družinski video, objavo na družbenih omrežjih, ali pripravo marketinških vsebin.
Kot rečeno – ideja ni nova, prav tako tudi povpraševanje ne; aplikativna uporabnost je nedvomno široka. Toda – kje smo? Nam umetna inteligenca že lahko ponudi uporabljive glasbene sheme?
Pogojno nevronsko generiranje zvoka, ki je sledilo izjemnemu uspehu generativne umetne inteligence na področju jezikovnih modelov, pa najsi gre za pogovorni ChatGPT ali ustvarjanje umetnosti prek tekstovnih pozivov, je prve, širši javnosti dostopne rezultate, obrodilo tekom lanskega leta. Kot glavna izziva ustvarjanja glasbe s pomočjo modelov strojnega učenja sta se, še zlasti z vidika primerjave z generiranjem besedil ali slik, kaj hitro izkazala zlasti dve okoliščini: prvič, glasba ni statična, saj poteka v času, in drugič, nabor podatkov, na katerih se model lahko uči, je (vsaj zaenkrat) relativno skromen.
Riffusion, Mubert in MusicLM
Eno izmed izhodišč besedilno pogojene zvočne sinteze predstavljajo modeli za ustvarjanje besedilno pogojene slike. Tako ni presenetljivo, da sta enega izmed prebojnih korakov naredila prav strokovnjaka iz ekipe Stable Diffusiona, uveljavljenega odprtokodnega modela za generiranje slik iz besedilnih pozivov.
Vir: TechCrunch
Seth Forsgren in Hayk Martiros sta za oblikovanje zvoka priredila nastavitve Stable DIffusiona in ustvarila model za oblikovanje glasbe prek slik(!) zvoka. Gre za t.i. model Riffusion, nevronsko mrežo, ki deluje na principu stabilne difuzije in ustvarja zvok preko sprektogramov.
Kaj so spektogrami? Gre za nenavaden, osupljiv pristop generiranja glasbe prek preslikave slik – Riffusion generira glasbo tako, da jo vizualizira (1).
Vir: Riffusion
Spektogrami so slikovne predstavitve zvoka, ki prikazujejo amplitudo različnih frekvenc skozi čas. Prek vizualnih amplitud ponazorijo frekvence za vsak zvok, ki ga na ta način preslikajo. Opremljene s ključniki za posamezen inštrument in zvrst glasbe lahko predstavljajo solidno osnovo za nadaljnje učenje modela.
Težava uporabe modela stabilne difuzije v glasbi je zlasti »skromnost« učnega vzorca. Če za učenje modela UI za generiranje slik na besedilni poziv zadostuje standard ločljivosti 512 x 512 slikovnih pik, je takšen kvadratni spektogram za skladbo, ki glede na sodobne standarde praviloma traja od 2 do 4 minut, preskromen. Kot pronicljivo opozarja Devin Coldwey, bi bila »triminutna pesem veliko, veliko širši pravokotnik«. A izdelava posnetkov daljše oblike s ponavljajočimi se refreni in verzi ni bila niti cilj njunih avtorjev – tako ta, še zlasti glede na odprtokodno naravo Stable Diffusiona, ostaja možna, a zaenkrat vendarle zgolj teoretična.
Vir: Riffusion - Ustvarjen kot nastavitev Stable Diffusiona, obstoječega odprtokodnega modela za generiranje slik iz besedilnih pozivov na spektrogramih.
Ob časovnici, ki predstavlja prvi izziv UI generiranja glasbe, se kot druga težava izpostavlja vzorčenje. Dejstvo je, da model strojnega učenja potrebuje bogat nabor materiala za učenje – večji kot je vzorec, boljši so rezultati. Prav tako je dejstvo, da je slikovna UI dosegla tako izjemne dosežke prav zaradi izjemnega nabora učne materije. Napredek v kakovosti zvesto sledi ne le arhitekturnim izboljšavam, pač pa tudi (in predvsem!) razpoložljivosti množičnih, visokokakovostnih podatkov za usposabljanje.
Toda pri glasbi se zdi oblikovanje kvalitetnega nabora učne materije trši oreh. Google UI model za ustvarjanje glasbe MusicLM je za učenje svojega modela na primer sam oblikoval (zdaj javno dostopno) bazo podatkov MusicCaps (2), ki ga sestavlja 5.500 parov glasba-besedilo. Ustrezni zvočni posnetki so bili zbrani iz Googlovega AudioSeta, zbirke več kot 2 milijona označenih 10-sekundnih zvočnih posnetkov, povzetih iz videoposnetkov YouTube.
Vir: MusicLM: Generating Music From Text
Kot je razvidno iz raziskave MusicLM, se je model akustičnega modeliranja nadalje usposabljal na naboru podatkov, ki vsebuje pet milijonov zvočnih posnetkov, kar znaša 280.000 ur glasbe pri 24 kHz (3).
Model Mubert, prav tako vmesnik za pretvorbo besedilnih pozivov v glasbo, ki ga je koncem lanskega leta lansiralo na trg podjetje z enakim imenom, je ustvarilo še obsežnejšo bazo: kot je razvidno iz njihove spletne strani (gre za zaprt model), sistem deluje na »podlagi več kot milijona vzorcev skladb, ki jih je ustvarilo več kot 4000 glasbenikov. [...] Obsežna podatkovna baza skrbno kategoriziranih skladb uporabniku omogoča, da ustvari zvočni posnetek v želeni zvrsti, razpoloženju in trajanju.«
Prednost Muberta je za uporabnika sila enostavna uporaba: v obrazec za vnos vnesete besedilen poziv, ki je lahko karkoli - bodisi abstraktna fraza, ime žanra ali pa opis dogajanja, ki ustreza vsebini, za katero potrebujete zvočno kuliso - kar je pisano na kožo vsem, ki smo kadarkoli želeli pridobiti glasbeno podlago za naše video vsebine in naleteli na licenčno politiko.
Vir:
MubertKot rečeno, ta glasbeni UI model ni bil prvi – prek Google Colab in Hugging Face so bili dostopni UI glasbeni modeli, a ti so ti terjali vsaj osnovno znanje programiranja. MIDI generacija generiranja UI glasbe je prava prinesla zavidljive rezultate; temelječ na modelu GPT-2 je OpenAI že 2019 ponudil
MuseNet, »globoko nevronsko mrežo, ki lahko ustvari 4-minutne glasbene kompozicije z 10 različnimi instrumenti in lahko združuje sloge od countryja do Mozarta do Beatlov«. MuseNet, tako kot vsi modeli GPT, temelji na napovedovanju naslednje najverjetnejše poteze, t.i. žetona v zaporedju – če gre pri ChatGPT za napovedovanje besede, MuseNet enako arhitekturno logiko uporabi pri zvoku.
Vir:
MuseNet
»MuseNet ni bil eksplicitno programiran z našim razumevanjem glasbe, ampak je namesto tega odkril vzorce harmonije, ritma in sloga tako, da se je naučil predvideti naslednji žeton v več sto tisoč datotekah MIDI.«
Tudi Googlov Magenta Studio je ponudil učinkovit glasbeni generator z umetno inteligenco; ekipa Magente je prvič predstavila model strojnega učenja že leta 2016, kjer se prek
TensorFlowa, odprtokodne platforme za strojno učenje, umetna inteligenca uči igrati virtualna glasbila.
Mubert in MusicLM sta za uporabo dosti prijaznejša, toda – kakšna je njuna kvaliteta?
Oba nevronska modela podpirata proces ustvarjanja glasbe kot hierarhično nalogo modeliranja od zaporedja do zaporedja in delujeta na podlagi semantičnega in akustičnega modeliranja. (4) Zveni zahtevno, a ideja je pravzaprav sila preprosta. Tako Mubert kot MusicLM uporabljata za besedilni poziv Transformer; ta predstavlja v kontekstu jezikovnih modelov vrsto arhitekture nevronske mreže, ki je še posebej primerna za naloge obdelave naravnega jezika, kot so jezikovno modeliranje, strojno prevajanje in klasifikacija besedila. V kontekstu glasbe se Transformer uporablja za specifične glasbeno-vezane naloge, kot so ustvarjanje glasbe, transkripcija in priporočila. (5)
Prednost uporabe Transformer arhitekture pri glasbeno-jezikovnih modelih je učenje na veliki količini glasbenih podatkov, ki nevronski mreži omogoča prepoznavanje osnovnih vzorcev in struktur v glasbi, na podlagi osvojenega znanja pa ustvarjanje nove glasbe, ki je podobna - a ne(!) enaka vhodnim podatkom.
Pri MusicLM je mrežna arhitektura sestavljena iz niza plasti, od katerih vsaka izvede poseben izračun na vhodnih glasbenih podatkih. Plasti uporabljajo mehanizme samopozornosti, ki služijo temu, da ustrezno zajamejo razmerja med različnimi elementi glasbe, kot so note, akordi in ritmi, nato pa uporabijo nevronske mreže naprej za ustvarjanje nove glasbe. To omogoča modelu, da zajame dolgoročne odvisnosti v glasbi in ustvari skladna in glasbeno verjetna zaporedja. Kot poudarjajo pri MusicLM, je ločevanje semantičnega in akustičnega modeliranja še posebej smiselno zaradi učinkovitejšega učenja glasbenega modela.
Pri Mubertu na podlagi izbranih oznak model generira glasbo kot kombinacijo zvokov, ki so jih vnaprej ustvarili glasbeniki in oblikovalci zvoka in torej niso nevronsko sintetizirani – od tod tudi njihov slogan
»od ustvarjalcev do ustvarjalcev«. Od tu dalje je model podoben: Vhodni poziv in Mubert oznake so kodirane v latentne prostorske vektorje transformatorske nevronske mreže. Nato se za vsak poziv izbere najbližji vektor oznak, ustrezne oznake se pošljejo v akustični model za ustvarjanje glasbe, ta pa analizira in izbere ustrezne zvoke ter iz njih sestavi aranžmaje in kompozicije.
MusicLM se je arhitekturno naslonil na Transformer za modeliranje semantične in akustične stopnje AudioLM, pri izboru modela glasbenega jezika pa na vnaprej pripravljen in zamrznjen MuLan – Music Language Model, t.j. model glasbenega jezika, ki ga je razvila skupina raziskovalcev pri OpenAI in ki je zasnovan prav za ustvarjanje novih glasbenih sekvenc, ki so glasbeno skladne in slogovno raznolike. MuLan se namreč uri na velikem korpusu datotek MIDI, kar mu omogoča učenje statističnih vzorcev in struktur različnih zvrsti in stilov glasbe. Tudi MuLanu večplastna arhitektura Transformer omogoča zajemanje dolgotrajnih odvisnosti in ustvarjanje zapletenih glasbenih sekvenc.
Ena od edinstvenih lastnosti MuLana je njegova sposobnost nadzora sloga in raznolikosti ustvarjene glasbe; to doseže s tehniko prenosa sloga, pri kateri se model uri za ustvarjanje glasbe, ki je podobna določenemu slogu, vendar z nekaj variacijami ali novostmi, vnesenimi v zaporedje. Prav ta sposobnost prenašanja sloga je tista, ki botruje njegovi uporabljivosti pri UI ustvarjanju glasbe na poziv, vključno z ustvarjanjem melodij, harmonij in celovitih aranžmajev, in zaradi katere se zdi še posebej priročen za uporabo pri modeliranju interaktivnih orodij za generiranje glasbe.
… kar posredno napeljuje tudi na odgovor na vprašanje o inovativnosti z UI generirane glasbe. Ker model dopušča prenos sloga, obenem pa, tako kot vsi jezikovni modeli, prepoznava vzorce in na njihovi podlagi tvori nove, je glasba hkrati prepoznavna, slogovno skladna, a nova.
Google trdi, da MusicLM prekaša prejšnje glasbene generatorje UI tako v kakovosti zvoka kot tudi pri upoštevanju besedilnih opisov. Na predstavitveni strani
MusicLM ponuja Google številne primere modela umetne inteligence, ampak – je tudi res uporabljiv?
Vir:
MusicLM ustvarjanje glasbe iz besedila – glasbeni poziv na podlagi vsebinskega opisa slike
Preizkus omenjenih ponudnikov kaže, da so glasbeni modeli umetne inteligence precej dosledni pri upoštevanju besednih pozivov glede žanrov in želenih ritmičnih lastnosti. A če smo bili osupli nad slikovnimi zmogljivostmi umetne inteligence, ki pobira nagrade na
likovnih natečajih, in če je ChatGPT tako osupljiv, da s(m)o ga uporabniki zamenjali z vsevedom, enciklopedijo, brskalnikom in napovedovalcem prihodnosti hkrati in v eni osebi – in nas mora zato njegova nova različica venomer znova opozarjati, da »je samo jezikovni model« - glasbena UI še ni dosegla tega nivoja. Povedano drugače – kot akademsko izobražena glasbenica izdelkov ne bi uporabila niti za glasbeno podlago domačim videoposnetkom. Ali bolje: Ne še.
-----
(1) Prim. Devin Coldewey, Try ‘Riffusion,’ an AI model that composes music by visualizing it, 16.12.2022, https://techcrunch.com/2022/12/15/try-riffusion-an-ai-model-that-composes-music-by-visualizing-it/?guccounter=1&guce_referrer=aHR0cHM6Ly93d3cuZ29vZ2xlLmNvbS8&guce_referrer_sig=AQAAAG5dli2qsh0JyUqItizkWK2XxmjMzFnAgY7zlTaxvTpb0CnfDbsoSUU9qQJT2lpGtWG5nOtnjYUX9Fvj4aHxwlpG7qpFtve2CjCvuIb2k5nlYxuJxcz9IISbAnxoChiMDJQ2HcfqztqvwNq2CKZKZFbgxheSCf-x2-Fvb0VxL4EU
(2) Prim. Andrea Agostinelli, Timo I. Denk, Zalán Borsos, Jesse Engel, Mauro Verzetti, Antoine Caillon, Qingqing Huang, Aren Jansen, Adam Roberts, Marco Tagliasacchi, Matt Sharifi, Neil Zeghidour, Christian Frank, MusicLM: Generating Music From Text, Cornell University, 26.1.2023, https://arxiv.org/pdf/2301.11325.pdf
(3) 24 kHz je kratica za 24 kilo Hertzev, kar pomeni, da se zvok ponavlja 24.000-krat na sekundo. To je ena od merilnih enot, ki se uporabljajo za določanje frekvence zvoka; višja kot je frekvenca, višji je ton zvoka. V praksi se ta merilna enota pogosto uporablja za določanje kakovosti zvoka v različnih aplikacijah, kot so avdio snemanje, predvajanje glasbe, telekomunikacije itd. Visokofrekvenčni zvoki so pogosto pomembni v glasbeni produkciji, saj pomagajo ustvariti čist in jasen zvok.
(4) Prim. Andrea Agostinelli, Timo I. Denk, Zalán Borsos, Jesse Engel, Mauro Verzetti, Antoine Caillon, Qingqing Huang, Aren Jansen, Adam Roberts, Marco Tagliasacchi, Matt Sharifi, Neil Zeghidour, Christian Frank, MusicLM: Generating Music From Text, Cornell University, 26.1.2023, https://arxiv.org/pdf/2301.11325.pdf
(5) Prim. Cheng-Zhi Anna Huang, Ian Simon, Monica Dinculescu, Music Transformer: Generating Music with Long-Term Structure, 13.12.2018, https://magenta.tensorflow.org/music-transformer