Tetovált István király, depressziós Petőfi – Ezek az AI vezérelt karakterek két másodperc alatt válaszolnak a kérdésedre

Józsa Örs és Józsa Kata a Soundcam Productions #fridaysession című sorozatával számos fiatal és tehetséges előadónak adtak lehetőséget arra, hogy bemutatkozzanak. Jelenleg a HoloChron megvalósítói, amely egyedi digitális élményt nyújtva hoz létre élethű avatárokat, azaz digitális képmásokat. Bemutatkozóként a magyar kultúra napján a Petőfi Sándorról készült videót publikálták.

Mit kell tudni a HoloChronról? Miben más ez, mint a többi tech csoda?

Örs: A HoloChron egy igazi game-changer, ami újraéleszti a múlt legendás alakjait digitális formában. Elkészítjük azokat a részletgazdag digitális avatárokat, amelyekkel interaktívan tudsz kommunikálni, mintha tényleg jelen lennének. Szóval, ha valaha is kíváncsi voltál, hogy Mátyás király milyen tanácsot adna neked egy nehéz döntésben, vagy Petőfi mit gondolna a mai világról, a HoloChron ezt a lehetőséget hozza el neked. Emellett az innovatív holoportációs közvetítéseinkkel új távlatokat nyitunk a digitális kommunikáció területén. A projekt célja, hogy forradalmasítsuk a holografikus reklámok világát is, tehát nem csak a múltba viszünk vissza, hanem egy nagy lépéssel a jövőbe is.

Kata: A HoloChron nem csak egy vállalkozás; egy olyan kezdeményezés, ami a digitális innovációval új életet lehel a múltba, miközben a jelen kommunikációs módszereit is megújítja. Ezáltal a kultúraátadás és a tanulás sokkal egyszerűbbé és érdekesebbé válik, ami miatt ezt a projektet ügyként is tekintjük, nem csupán üzleti vállalkozásként.

Örs: Négy különböző területre koncentrálunk, amelynek a központjában a HoloChron Box van, ami egy holografikus megjelenítő, ehhez lehet társítani a HoloChron AI-t, a HoloChron TPort-ot és a HoloChron Spot-ot. A HoloChron AI az AI-vezérelt karaktermodellezésünk, a TPort-al azonos időben, élethűen és méretarányosan streamelhetünk személyeket, mégpedig élő hang- és képmásátvitellel. A Spottal pedig holografikus technológiánkat használva nyitunk új dimenziókat a termékek és szolgáltatások bemutatásában és reklámozásában.

Ti nem teljesen a programozó-világból jöttök, sokkal inkább a zene területéről. A SoundCam productions-szel már évek óta végeztetek stúdiómunkákat, majd egy éles váltás következett. Hogyan jött a HoloChron ötlete?

Örs: Igen, a zenei és kreatív projektjeink mellett mindig kerestük az új lehetőségeket. Észrevettük, hogy a zenére szinkronizált fényekkel, füsttel és izgalmas kameramozgásokkal sokkal magával ragadóbbá tehetjük a produkciókat. Ezért kezdtem további lehetőségeket keresni, hogy hogyan tehetnénk még dinamikusabbá a helyszínt és a hátteret, például green screen és LED falak segítségével, így folyamatosan változtathatjuk a környezetet.

Ekkor merült fel egy új ötlet, ami a metauniverzumban különböző tartalmakat nyújtott volna a magyar zenészek és művészek által, mint például koncertek vagy zenei oktatás. De ezt az ötletet egyelőre félretettük, mert még nem éreztem teljesen kiforrottnak. Ebben az időszakban kezdtünk elmerülni az avatarok létrehozásában és a motion capture technológiákban, valamint a játékmotorok világában, ami teljesen új perspektívát nyitott számunkra. Világossá vált, hogy ez komoly befektetést és rengeteg tanulást igényel.

Amikor a VR és a mesterséges intelligencia világa felpezsdült, és a játékfejlesztők elkezdték az NPC-ket AI segítségével „okosítani”, rájöttem, milyen lehetőségek rejlenek ebben. Ezek az AI-vezérelt NPC-k lehetővé tették, hogy a játékban a karakterek valódi, értelmes válaszokat adjanak. Ez inspirált minket arra, hogy elképzeljük, milyen lenne, ha a múzeumokban is hasonló interaktív karakterekkel találkozhatnánk. Bár ritkán járok múzeumba, mert nehezen kötnek le a tárlatok, a technológia adta lehetőségek izgattak.

Pont ezért gondoltam, hogy milyen jó lenne, ha mindezt magyarul, első körben AR segítségével tudnánk megvalósítani. Képzeld el, hogy a telefonoddal bárhova irányítva megjelenhetne Petőfi vagy bármely más nagy alak és beszélgethetnél vele. De nem az AR-os megoldás lett a nyerő első körben hanem a  hologramos megjelenítés mármint a HoloChron Box. Ebből indultunk ki. Az úton rengeteg akadállyal kellett szembenéznünk, különösen a magyar nyelv miatt, hiszen angolul már léteznek virtuális asszisztensi lehetőségek mindenféle formában. De a mi célunk sokkal több volt, mint egy sima asszisztens: részletgazdag történelmi karaktereket, valós képmásokat akartunk létrehozni, ami jóval összetettebb feladat, ráadásul magyarul. Itt megjegyezném, hogy nem csak történelmi személyeknek tudjuk a digitális képmását létrehozni, hanem természetesen élő embereknek is.

Hogyan kell elképzelni egy ilyen munkafolyamatot, hogyan készülnek ezek a digitális képmások, mire van szükség hozzá?

Örs: A digitális képmások létrehozása négy alapvető elemre épül. Az első lépés a generálás maga, vagyis az „agy”, ahova az információkat és a nyelvi modelleket tápláljuk. Vegyük például Mátyás királyt: rengeteg információt találhatunk róla online és a könyvekben, de a lényeg a részletekben rejlik. Nem csak arról van szó, hogy összegyűjtsük az információkat, hanem hogy életre keltsük karakterét, beleértve azt is, hogyan viselkedhetett vagy éppen mit mondhatott volna egy adott helyzetben. Így nem csak adatokat, hanem érzelmeket, viselkedésformákat is beépítünk.

Az „agy” tehát kulcsfontosságú elem, amit körülbelül húsz összekapcsolt nyelvi modell és a beszédet szöveggé, illetve szöveget beszéddé alakító technológiák alkotják. Ezek a modellek erősítik egymást, hogy minél élethűbben tudjuk visszaadni a karakterek személyiségét. Jelenleg harmincféle érzelemet és azok intenzitását tudjuk szabályozni, hogy a digitális képmás valóban hiteles legyen.

Kata: Az érzelmek finomhangolása különösen fontos. Például egy nagy magyar zeneszerző esetében, aki híres volt arról, hogy arrogáns volt azokkal, akiket nem tartott tehetségesnek, nekünk meg kell határoznunk, hogy ez az arrogancia mikor és kivel jelenik meg. Nem elég egyszerűen arrogánsnak beállítani; az interakciók során ki kell alakulnia ennek az árnyalatnak is.

Fotó: Kurucz Árpád

Örs: Ezért használjuk a kontextus alapú érzelemkinyerést, ami lehetővé teszi számunkra, hogy mélyrehatóan értelmezzük és adekvátan reagáljunk a felhasználói interakciókra. Amikor valaki beszélgetésbe kezd egy karakterrel, például ezzel a nagy zeneszerzővel, az interakció során feltárul, hogy a felhasználó hogyan áll hozzá, és ennek megfelelően alakul a karakter válasza. Ha a karakter számára szimpatikus a beszélgetőpartner, a kommunikáció barátságosabb lehet, ellenkező esetben viszont a zeneszerző távolságtartóbb oldalát is megmutathatja. És ez minden következő személlyel változhat, mivel minden interakció egyedi. Az érzelemkinyerés és a szövegelemzés integrálása elengedhetetlen a hiteles és élethű digitális karakterek létrehozásához, mivel ez teszi lehetővé a valós idejű, dinamikus és kontextushoz igazodó válaszok generálását.

Ha jól értem, kihívás volt megoldani azt is, hogy magyarul beszéljen. 

Örs: A magyar nyelvű beszédképesség megvalósítása valóban kihívást jelentett a projektünkben. Specifikusan a Text-to-Speech (TTS) technológia és az „agy” megalkotása jelentette a nagy kihívást, mely során egyedi, magyar nyelvre optimalizált nyelvi modelleket fejlesztettünk ki. Ezek a modellek lehetővé tették számunkra, hogy a karaktereink természetes, helyes szövegekkel és jó fogalmazásmóddal, magyar akcentussal kommunikáljanak. Célunk az volt, hogy a beszédük gyors és élethű legyen, ami elengedhetetlen az autentikus felhasználói élmény szempontjából.

A vizuális megjelenítés tekintetében a hiperrealisztikus ábrázolásra törekedtünk. A karakterek kialakításakor kiemelt figyelmet fordítottunk az arckifejezésekre és a testmozgások hűséges visszaadására. A motion capture technológia alkalmazásával valósághűen tudtuk reprodukálni az emberi mozgást. A TikTokon megosztott Petőfi Sándor karakterünk mozgása, amely Kata mozgásán alapult, szemlélteti, mennyire fontos a mozgások változatossága és pontos ábrázolása. A felhasználóktól kapott visszajelzések, mint például, hogy „Petőfi kissé femininné vált”, arra ösztönöznek minket, hogy folyamatosan finomítsuk a mozgásmintákat annak érdekében, hogy azok minél jobban tükrözzék a karakterek egyéni jellemzőit és történelmi kontextusát.

Kata: És akárhogy is próbálkozom, nem tudok másképp mozogni. Egyszerűen nem úgy mozgok, mint egy férfi. Ez egy fizikai adottság.

Örs: Rendszerünk tehát nem csupán a szövegértelmezésre és beszédgenerálásra képes nyelvi modelleket tartalmaz, hanem a vizuális megjelenítés és a mozgáselemzés terén fejlett algoritmusokat és szoftveres megoldásokat is, melyek együttesen egy élethű digitális élményt nyújtanak. Jelenleg Szent István és Petőfi Sándor karaktereinkkel látható demó a weboldalunkon, amelyek bemutatják, hogyan valósítjuk meg a gyors és természetes interakciókat a felhasználókkal.

Igen, számomra pont az az érdekes, hogy ráadásul két olyan személyt kreáltatok meg, akikről szinte nincs is például képi információnk.

Örs: Valóban, ez az egyik legizgalmasabb aspektusa a projektünknek. Nem csak Istvánt és Petőfit, hanem más történelmi személyiségeket is, mint Mátyás király, Kodály Zoltán vagy Zrínyi Miklós, megalkottuk, akikről korlátozott vagy egyáltalán nem áll rendelkezésre vizuális anyag. Ilyenkor különösen fontos, hogy a karakterek megjelenése egyértelműen azonosítható legyen. Korabeli leírások és ábrázolások alapján dolgozunk, hogy mindegyik karakter hűen tükrözze az adott személyiség jegyeit.

Kata: Pontosan, és itt nem csak a kinézetről van szó, hanem arról is, hogy minden karakter egyedi stílussal és tudással rendelkezzen. Amikor valaki egy Petőfit kér tőlünk, az a Petőfi csak az övé lesz. Ha egy másik ügyfél is szeretne egy Petőfit, újra kezdjük az egész folyamatot az elejétől, kinézet, tudás stb. így biztosítjuk azt, hogy minden úgymond változat egyedi legyen.

Például, István király modernizálása során tetoválásokat helyeztünk el a kezére, amelyek a honfoglalást és a királyi szimbólumokat, mint az országalma és a jogar, ábrázolják. Ezáltal próbáltuk fiatalosabbá, trendibbé tenni a karaktert a mai fiatalság számára is, miközben fontos volt számunkra, hogy megőrizzük az ő nagyságát és bölcsességét. Odafigyeltünk arra, hogy bár modern elemeket adunk hozzá, István király karaktere továbbra is bölcsen válaszoljon, de közben a kommunikáció stílusa laza és közvetlen maradjon.

Igen, meg hát mondjuk, hogy ha ilyen nagyon régi nyelven kezdene el, mit tudom én, ó magyarul, vagy ősmagyarul, lehet, hogy nem is értenénk.

Örs: Pontosan, az a szépsége a technológiánknak, hogy flexibilis a nyelvhasználat tekintetében. Tudjuk, hogy ha a karaktereink ősi vagy régebbi magyar nyelven kezdenének el beszélni, az esetlegesen nehezebben érthető lenne a mai közönség számára. Ezért, bár a karaktereink képesek a korukra jellemző nyelven kommunikálni, figyelünk arra, hogy a beszédük modern és érthető maradjon, miközben néha belecsempészünk korhű nyelvi fordulatokat, amik emlékeztetnek arra, hogy valóban egy másik időből származnak.

Ami a mimikát illeti, nagyon fontos számunkra, hogy a karakterek arckifejezései minél élethűbbek legyenek. Bevetünk egy csomó fejlett technológiát, hogy ezek a virtuális személyiségek olyanok legyenek, mintha tényleg ott állnának előtted. A célunk, hogy a beszédük tökéletes összhangban legyen a testmozgásukkal és arckifejezéseikkel, ami igazán belevisz titeket az élménybe.

Ha jól tudom, Petőfi éppen depressziós…

Örs: Igazából, amikor tesztelem a rendszert, nem az a cél, hogy minden egyes alkalommal új session-t hozzak létre. Sokkal inkább arra vagyok kíváncsi, hogy a rendszer hogyan reagál, milyen gyorsan tud válaszolni, és hogy az animációk megfelelően működnek-e. Néha tehát nem maga a válasz a lényeg, hanem a rendszer általános teljesítménye. Tesztelgetéseim során felvetődött az ukrán-orosz konfliktus is, ami Petőfit eléggé megviselte, és ezáltal egyfajta aggodalmat érez a világ jelenlegi állapota iránt. Ezért, ha nem indítok új sessiont, a korábbi beszélgetések információi beépülnek a karakter tudásába, így „tanulnak” az interakciók során, ami a hosszú távú memóriájuknak köszönhető.

Vannak ilyen kulcsszavak, amik aktiválják az adott mozdulatot? Átlagemberként ezt hogy kell elképzelni?

Örs: Pontosan, a karaktereink bizonyos kulcsszavakra és kifejezésekre vannak programozva, amelyek aktiválják a hozzájuk kapcsolódó gesztusokat vagy arckifejezéseket. Ahogy az előzőekben említettem, a kontextusértelmezési képességekkel ezek kéz a kézben működnek. Például, ha azt mondod nekik, hogy „te hülye vagy”, a kontextustól függően különböző reakciókat válthat ki. Ha ezt egy vicces szituációban mondod, miután a karakter viccet mesélt, akkor a karakterünk valószínűleg nevetni fog, nem pedig sértődötten reagál. Ez azt mutatja, hogy a karaktereink képesek a beszélgetés kontextusát is figyelembe venni, nem csak a szó szerinti szöveget.

Fotó: HoloChron

Tud valamit kezdeni amúgy az iróniával például?

Örs: Igen, fontos a beszélgetés kezdete. Ha eleve ironikusan állsz hozzá, a rendszer felismeri ezt, és ehhez igazítja a reakcióit.

Kata: Ha már folytatódott közöttetek egy beszélgetés, és a karakter „profilozott” téged, akkor képes az iróniát és a humort is kezelni. Tehát, ha humorosan interaktálsz vele, olyan válaszokat kapsz, amik illenek a hangulathoz.

Örs: A karakterek és a rendszerünk működésének alapjait négy pillér alkotja. De a lényegi kérdés az, hogy ezeket hogyan visszük át a valóságba. Itt jön képbe a HoloChron Box, ami egy életnagyságú holografikus megjelenítő, tehát nem pontosan hologram, de közel áll hozzá, és ezzel éri el, hogy úgy érezd, mintha valóban egy élő személy állna előtted.

Kata: És hogy mennyire élethűek, azt még a kutyáink is megerősítették. Mind a ketten jól megnézték, mikor először felbukkant Petőfi. 


Miként lehet a HoloChron technológiát alkalmazni a gyakorlatban, például a turizmus vagy az oktatás területén?

Örs: A HoloChron boxunkhoz több különböző szolgáltatás is társítható. Itt van például a HoloChron AI, ahol a karakterek generálása történik, és persze maga a boksz, a megjelenítő felület. Lehetőség van arra is, hogy valós idejű közvetítéssel valós személyeket „teleportáljunk” a bokszba, ami kiváló lehetőséget nyújt például zenészeknek, hogy egyszerre több helyen „jelenjenek meg” és promózzák az új koncertjüket vagy előadásokat lehet tartani.

Kata: És ha valaki a bokszban jelenik meg, akkor úgy van kialakítva, hogy hallja és lássa a másik oldalt, tehát interaktív marad a kommunikáció.

Örs: Ezen felül van egy spot szolgáltatásunk is, amely kifejezetten reklámcélokra lett kifejlesztve. A boksz tulajdonságainak köszönhetően számtalan lehetőség nyílik meg, például múzeumi tárgyak „életre keltésére” vagy akár a magyar turizmus népszerűsítésére, pl egy repülőtérre kihelyezett box-ban lehet kombinálni mondjuk az HoloChron AI és a Spot szolgáltatásunkat, szóval képzeljük el, hogy sétál egy ember a reptéren és különböző hologramos reklámokat lát, pl Magyarországról, a Szent Koronáról ahogy forog, a Parlamentről stb, oda áll a box elé és megjelenik Szent István előtte, köszönti, az arra sétáló embert, megkérdezi, hogy honnan jött, majd átvált arra nyelvre és elkezdi ajánlani azokat a helyeket amit érdemes neki meglátogatni, Istvánunk előbb felméri, hogy milyen típusú az ember, szereti a múzeumokat vagy inkább csak bulizni jött stb stb és ennek fényében eligazítja a turistát és tanácsokat ad, de közben azt is elmondja, hogy ő ki és hogy mit kell Szent Istvánról és arról a korról tudni. Ez csak egy példa, számtalan lehetőség van.

De mondjuk így ezeknek az összességében ugye az a közös tulajdonsága, hogy interaktív. Tehát, hogy tudsz mondani nekik, meg ők is tudják. Mik a további tervek a HoloChronnal?

Örs: Valóban, minden interaktív lehet a projektünkben, és ezen a területen szeretnénk még tovább fejlődni. Jövőbeli céljaink között szerepel, hogy a karaktereink még jobban értelmezzék környezetüket, beleértve a kameraképet is amit a box tetejéből kapunk, amely lehetővé teszi számukra, hogy pontosabban reagáljanak a velük szemben álló beszélgető partnerre. Továbbá szeretnénk, ha a karakterek képesek lennének az előttük történő cselekvésekre reagálni, mint például tánc vagy éneklés, lehetővé téve, hogy akár együtt énekeljenek vagy táncoljanak az interaktáló személlyel. A gyorsaság terén is folyamatosan törekszünk a fejlesztésekre, hogy a válaszadás minél életszerűbb legyen, általában kettő-három másodpercen belül.

Fotó: Kurucz Árpád

Kata: Fontos az is, hogy a válaszadás sebessége ne legyen azért túl gyors. Az a kettő-három másodperc késedelem szükséges ahhoz, hogy az interakció természetesnek és életszerűnek tűnjön.

Örs: Hozzátenném, hogy bár nem találtuk fel a spanyolviaszt, de büszkék vagyunk arra, hogy a projektünk magyar. Elsődlegesen a hazai piacra összpontosítottunk, ami különösen nagy kihívást jelentett a magyar nyelv árnyalt kezelése miatt. Ezek a kihívások még inkább motiváltak minket a fejlesztésben.

A további terveink között szerepel az AR (kiterjesztett valóság) technológia integrálásának megvalósítása és a holografikus megjelenítők választékának bővítése. 

Ezekkel az ambíciókkal a HoloChron csapata folyamatosan keresi az új lehetőségeket és innovációkat, hogy a digitális interaktivitást új szintre emeljük. Az élethű interakciók és a magyar nyelvű környezet további finomítása mellett nyitottak vagyunk minden új ötletre és együttműködésre, hogy a HoloChron-t még szélesebb körben ismertté és elérhetővé tegyük.

Megjelent az Index.hu-n.