MusicGen: Forradalmi lépés a zenealkotás terén?

Az utóbbi időkben egyre több helyről lehet hallani, hogy a mesterséges intelligencia már nem csak képeket és videókat, hanem zenét is készít, és nem is akármilyet. Efelett mint a szakmában dolgozó hangmérnök nem hunyhattam szemet. A The Economist napokban kijött zenei algoritmusokkal foglalkozó cikke után lefuttattam a gépemen a Facebook által nemrég mindenki számára elérhetővé tett zenegenerátort a MusicGen-t.

Ez az eszköz meglepő változásokat hozhat a zenekészítés folyamatában, lehetővé téve a felhasználók számára, hogy szöveges utasítások alapján hangzásra egész jó minőségű zenei tartalmakat hozzanak össze. Ez az innováció nem csupán az alkotás folyamatát tudja átírni, hanem új lehetőségeket is nyit meg mind a professzionális zenészek, mind az amatőr kreatívok számára, legalábbis a fejlesztő Facebook szerint.

Geek nyelven a MusicGen egy egyfázisú, auto-regresszív Transformer modell, amely négy különböző kódkönyvet dolgoz fel 50 Hz-es mintavételi frekvenciával egy 32 kHz-es EnCodec tokenizálón keresztül.


Lefordítva ez annyit jelent, hogy program egy rendkívül fejlett digitális zeneszerző, amely a mesterséges intelligencia egyik modern technológiáját, a Transformer modellt használja „agyként”. Ez az „agy” olyan képességekkel bír, mint az emberi zeneszerzők: képes tanulni és utánozni zenei kompozíciókat. A zenekészítés során a MusicGen négy különböző könyvtárat használ, amelyek elképesztő mennyiségű hangmintával és ritmussal vannak tele. Ezeket a zenei elemeket egy EnCodec nevű, rendkívül gyors „olvasógép” segítségével dolgozza fel, amely másodpercenként akár 32 ezer zenei információt is képes olvasni és értelmezni. A „50 Hz-es mintavételi frekvencia” azt jelenti, hogy a gép képes másodpercenként 50-szer feldolgozni a különböző zenei elemeket, így rendkívül részletes és sokféle zenét képes írni.

Ez a technológia tovább egyszerűsíti a generálás folyamatát, lehetővé téve a felhasználók számára, hogy egyetlen lépésben komplex zenei struktúrákat hozzanak létre, esetlegesen növelve a kreatív kifejezés szabadságát.

A MusicGen alkalmazására sok területen nyílnak lehetőségek: ez az eszköz új kompozíciós lehetőségeket kínál zenészeknek, valamint megfizethető zenei megoldásokra adhat ötletet alacsony költségvetésű filmekhez vagy reklám zenékhez.

Számos előnnyel rendelkezik, mint például a fejlett kontrollálhatóság, a felhasználóbarát interfész (persze csak miután sikerül futtatni, akkor egész baráti), a széles műfajválaszték, és a Hugging Face Spaces platformmal való integráció, ami szükség esetén élénk közösségi interakciót tesz lehetővé. Ezek az előnyök együttesen hozzájárulnak ahhoz, hogy laikus felhasználók személyre szabottan alakíthassák és irányíthassák zenéjüket, kihasználva idáig nem ismert kreatív potenciáljukat. Jól példázza, milyen jelentős változásokkal számolhatunk: egy másik népszerű zene generátor alkalmazás (Suno) vezetője például több mint 1 milliárd felhasználót vizionál az új platformjukra.

Kihívások, jogok és a zene jövője: A MusicGen utóhatásai


Ezek a forradalmi technológiák azonban számtalan új kihívást és jogi dilemmát hoznak magukkal, amelyek jelentős befolyással bírnak a zenei ipar és a kultúránk jövőbeli alakulására. A probléma gyökere abban rejlik, hogy ezek a rendszerek nem képesek teljes mértékben felfogni a zene alkotások finomságait, és elsődlegesen egyszerűbb szöveges utasítások alapján hoznak létre zenét. Elengedhetetlen a technológia fejlesztése annak érdekében, hogy olyan eszközöket hozzunk létre, melyek valóban képesek a zenei komplexitás és az érzelmek hiteles továbbadására.

A szerzői jogok és a szellemi tulajdon védelme kulcsfontosságú kérdéssé válik a generált zeneművek esetében. Fontos, hogy új jogi és etikai keretrendszereket dolgozzunk ki, amelyek összhangban állnak a meglévő zene szerzői jogi szabályozásokkal, és tisztázzák a szerzői jog tulajdonjogát, különösen akkor, ha a művet egy algoritmus alkotta, amely meglévő „emberi” zenekönyvtárakból tanult.

Az MI zenealkotásának kérdőjelei: Emberi mélység a digitális hangjegyek között

Hangmérnökként és producerként a MusicGen-t és más MI-vezérelt zene generálási technológiákat kétségkívül lenyűgöző technikai előrelépésnek tartom, amelyek minden kétséget kizáróan új lehetőségeket nyitnak a zene alkotás világában. Fura érzés ez mert egyszerre érdekel és taszít ez a fajta megközelítése a zenének. Érdekes ötlet a zene ilyen mértékű demokratizálása, csak kérdés hogy szükségünk van-e arra, hogy 1 milliárd ember generálgasson zenéket és árassza el vele az internetet.

Személyes véleményem szerint hatalmas veszélyt jelenthet a zenei kreativitás és az emberi érintés egyediségére. Több mint 25 számot generáltam le ezzel a programmal és mindegyik számból hiányzott számomra a „lélek”. Fennáll a kockázata, hogy az MI által létrehozott zenék soha nem lesznek képesek az emberi érzelmek mélységének és komplexitásának teljes körű megjelenítésére, amely a zene lelkét adják. A technológiai előretörés nyújtotta kényelem ellenére elveszíthetjük az emberi alkotások mögötti személyes elemet, ami a zenét igazán megérintővé és felemelővé teszi.

Ezt nem tartom feltétlen újkeletűnek mert tradicionális formában írt rossz minőségű zenékkel is tele van már az internet, de ott legalább tudom egy előadóhoz kötni az érzelmeket. Zenehallgatáskor rendkívül fontos az előadóhoz való kötődés, enélkül személytelen tud lenni egy produkció.  

Továbbá, az MI-re való túlzott támaszkodás veszélyeztetheti a jövő zenészei képességét arra, hogy saját egyedi hangjukat kifejezzék és fejlesszék. Ez az automatizált kreatív folyamat korlátozhatja az innovációs lehetőségeket elősegítve egy homogenizált zenei táj kialakulását, ami nem képes igazán gazdag élmények nyújtására. A szerzői jogok és a szellemi tulajdonnal kapcsolatos jogi kérdések bonyolultsága továbbá variálja ezt a helyzetet, potenciálisan aláásva a zeneszerzők és előadók amúgy is csekély jogait és bevételeit.

Ezek a problémák rétegződéseket mutatnak: bár a mesterséges intelligencia által készített zenék technikailag bonyolultak lehetnek, hiányzik belőlük az a mélyebb érzelmi és kulturális rétegződés, amit az emberi alkotások nyújtanak. Az emberi zeneszerzők által létrehozott dalokban megtalálható érzelmek, szándékok és a váratlan fordulatok hozzáadnak valami egyedülállót és mélyet a zenei élményhez, amit egy automatizált folyamat még nem képes utánozni. Ezáltal az MI zenéi, noha technológiai csodák, gyakran előre láthatóvá és monotonná válnak, mivel hiányoznak belőlük azok a rétegek, amelyek igazán élettel telivé teszik a zenét.

Ezért, miközben elismerem az MI zene alkotásban nyújtott új lehetőségeit, fontos szem előtt tartani és kezelni azokat a kihívásokat és dilemmákat, amelyeket ez a technológiai előretörés felvet. Az emberi érzelmek, a kreatív szándék és a kulturális kontextus nélküli zenék térnyerésének kockázata riasztó és folyamatosan törekednünk kell arra, hogy a technológia használata által gazdagítsuk, ne pedig szegényítsük a zenei és lelki világunkat.