„Úgy néz ki, hogy a Stanford és a Harvard között az út Magyarországon keresztül vezet”
Interjú Pataki Balázzsal, az ARP vezető fejlesztőjével, aki a Dataverse Community Meetingen a Harvard munkatársainak és egy kaliforniai látogatás során a Stanford fejlesztőinek is bemutatta az ARP eredményeit.
Arról már egy előzetes hírben beszámoltunk, hogy részt veszel a Dataverse Community Meeting (DCM) 2025-ön Észak-Karolinában, Chapel Hillben. De hogyan kerültél akkor Kaliforniába és a Stanfordra? Rossz helyen landolt a gép?
Pataki Balázs: A géppel, illetve gépekkel szerencsére minden rendben volt, még a felszolgált kaja sem volt rossz. A kiutazás elsődleges célja valóban a DCM-en való részvétel és előadás tartása volt, de előtte már az ARP fejlesztése kapcsán együtt dolgoztam a CEDAR fejlesztőivel, akik meghívtak, hogy ha a “közelben járok”, akkor tartsak egy előadást nekik a Stanfordon arról, hogy az ARP-ben hogyan integráltuk a szoftverüket. Egy jó barátom Kaliforniában lakik, és véletlenül szintén a Stanfordon dolgozik, így az ő meglátogatását egybekötöttem a felajánlott CEDAR előadással.
Mi is ez a CEDAR szoftver?
Pataki Balázs: A CEDAR az ARP egyik fontos komponense, ezen alapul az ARP Sématár, ami az ARP-ben használt metaadat sémák szerkesztésére és tárolására szolgál. A Stanfordban ezt alapvetően orvosi, biológiai kutatások kiszolgálására fejlesztették. A kutatók a CEDAR-ban készítik el a metaadat sémáikat, majd a kutatásaik eredményeit ezen sémáknak megfelelően rögzítik is a rendszerben. Mi az ARP-ben a CEDAR séma szerkesztő és tároló képességét használtuk fel és ezt integráltuk a rendszerünk többi részével: az adatrepozitóriumot biztosító Dataversebe ennek segítségével lehet sémákat, “metaadat blokkokat” létrehozni, és szintén az itt CEDAR-ban létrehozott sémák használhatók az AROMA RO-Crate szerkesztőnkben fájl szintű metaadatolásra és az ARP tudástárban való keresésre is. A CEDAR integrálása és ARP specifikus továbbfejlesztése kapcsán többször is beszéltünk és egyeztettünk az elmúlt években a stanfordi kollégákkal online, de hogy ténylegesen hogyan is használtuk fel a szoftverüket az ARP rendszerben, azt még nem ismerték. Ezért hívtak meg, hogy tartsak egy előadást a fejlesztéseinkről.
És hogy tetszett nekik?
Pataki Balázs: Azt hiszem, eléggé. Készítettünk az ARP-ból egy demó installációt, amit lokálisan tudunk futtatni egy laptopon, így bármikor magunkkal vihetjük és ezen keresztül bemutathatóak az ARP unikális funkciói. Számukra leginkább az volt érdekes, hogy a Dataverseben hogyan használjuk a CEDAR-ben elkészített sémákat, hiszen ők alapvetően nem arra készítették a CEDAR-t, hogy más rendszerekben használják. Viszont mi az ARP tervezése során úgy láttuk, hogy a Dataverseben nyújtott metaadat blokk alapú séma bővítési lehetőség nem megfelelő a kutatók számára. Ugyanis egy séma szerkesztéséhez egy óriási és bonyolult szerkezetű Excel táblát kell kitölteni. Ez még a magunkfajta programozónak is nehézkes, nem hogy egy adott tudományterület kutatóinak, akik a saját tudományterületük metaadat blokkját, sémáját szeretnék közösen létrehozni. Ezért jött a képbe a CEDAR, ami a séma szerkesztéshez egy egyszerű, vizuális editort nyújt, viszont a Dataversehez való illesztést már nekünk kellett megcsinálnunk.
Repüljünk akkor vissza Chapel Hillbe, a DCM-re! Miről szólt ez az esemény és miért érte meg ez a hosszú út Észak-Karolinába?
Pataki Balázs: Ahogy a CEDAR-os kollégákkal is együttműködtünk, úgy sokat beszéltünk és főleg kérdeztünk a Dataverse készítőitől is az ARP fejlesztése során. A Dataverse fő fejlesztője, a Harvard, havonta tart Dataverse Community Call-okat, ami egy online beszélgetés, ahol a Dataverse aktuális fejlesztéseiről, és a Dataverse használók tapasztalatairól számolnak be. Az egyik ilyen callban volt egy prezentáció arról, hogy az OSF (Open Science Framework) hogyan használja a CEDAR-t. Ez az előadás igazából nem nagyon kapcsolódott a Dataversehez, viszont én hozzászólásként jeleztem, hogy nekünk van egy mélyebb integrációnk a CEDAR-ral és ott tartottam egy gyors demót erről. Ez annyira tetszett a Harvardos kollégáknak, hogy pár héttel később kértek egy külön online találkozót és hogy részletesebben is mutassuk be, hogyan lehet a CEDAR-ral egyszerűen metaadat blokkokat létrehozni és szerkeszteni és a fájl szintű metaadatolást RO-Crate segítségével megoldani. Ezután azt mondták, hogy ez annyira fontos fejlesztés és kiegészítés, hogy ezt érdemes lenne a teljes Dataverse közösségnek megmutatni a DCM 2025-ön és kitalálni, hogy hogyan válhatnának ezek a Dataverse központi funkcióivá. De hogy a konkrét kérdésre is válaszoljak. A DCM 2025-ön ilyen és ehhez hasonló egyedi fejlesztések, üzemeltetési tapasztalatok és a Dataverse jövőbeni fejlesztési irányait bemutató előadások voltak. Azt láttuk, hogy van egy nagyon erős európai Dataverse mag is Norvégiában, Hollandiában, Belgiumban, Németországban, Franciaországban, akikkel a jövőben szorosabban is szeretnénk együttműködni, mivel az ő céljuk is az EOSC-ba való betagozódás, ahogy az ARP-nek is. De érdekes volt azt is hallani, hogy a legtöbb adatrepozitórium hasonló problémákkal küzd, mint mi az ARP-ben, legyen szó akár az üzemeltetés anyagi hátterének biztosításáról, akár a felhasználók edukálásáról.
Említetted, hogy szó volt a Dataverse jövőbeni fejlesztéseiről. Ezekről mit lehet tudni? Itt is minden az AI körül forog?
Pataki Balázs: Nem minden, de sok szó esett róla, természetesen. Mindenki próbál megoldást találni arra, hogyan lehet az adatrepozitálás repetitív, néhol unalmas tevékenységeit automatizálni, például gépi, automatikus metaadatolással, illetve hogyan lehet AI-val feldolgozni az adatokat. Ehhez kapcsolódóan 3 fejlesztés is készült: az egyik a “beszélgetés az adatokkal”, ahol szabad szövegesen lehet kérdezni adatcsomagokról és azok tartalmáról. Egy másik hasonló fejlesztés a Dataverse dokumentációjában segít keresni egy AI-s chatbot segítségével. Egy harmadik, legfontosabb fejlesztés pedig egy MCP, azaz Model Context Protocol szerver implementálása, ami az eszközhasználatra képes LLM-ek számára nyitja meg a Dataverse installációkat, így komplex ágens alapú működésekhez is használhatók lesznek a repozitált adatcsomagok. Az AI-n kívül a másik fontos fejlesztési irány a Dataverse felhasználói felületének megújítása. Ennek során egy új React alapú GUI-t implementáltak, amit a következő 6.7-es verzióban fognak bemutatni. Ez egy nagyon fontos fejlesztés, mert ahhoz, hogy ez működjön a szerver oldalon is jelentős változásokat kellett eszközölni, viszont innentől mindent, amit a felhasználói felületen meg lehet csinálni, azt API hívásokkal is meg lehet majd csinálni, illetve ebből adódóan akár új, saját testreszabott felhasználói felületeket és szolgáltatásokat is lehet készíteni. Ez számunkra leginkább az AROMA miatt érdekes, ami szintén egy React applikáció és ebbe az új Dataverse felületbe könnyebben lesz integrálható, mint a mostani megoldásban.
A Dataverse egy nyílt forráskódú szoftver. Hányan dolgoznak a projekten?
Pataki Balázs: Most gyorsan utánanéztem: több, mint 200-an, ebben benne van a SZTAKI 4 fejlesztője is. Alapvetően a Harvard vezeti a fejlesztést, de egyre nyitottabbak a külső fejlesztőktől jövő hozzájárulásokkal kapcsolatban. A jövőben egyre nagyobb hangsúlyt kap a Dataverse-ek hálózatosítása is, vagyis a különálló installációk valamilyen összekapcsolása. Két fejlesztést mutattak be ezzel kapcsolatban. Az egyik a Dataverse Hub, ami a világ 140 Dataverse installációiból gyűjt statisztikákat és amelyhez egy kellemes dashboardot adnak. A másik az ún. Dataverse Marketplace. Ennek segítségével sokkal egyszerűbbé válik a Dataverse installációk új funkciókkal, modulokkal történő bővítése, hiszen mindez a felhasználói felületen keresztül megtehető majd, szemben a mostani parancssoros, vagy API-n keresztüli megoldásokkal. A Marketplace egyben a külső fejlesztőknek is lehetőséget ad arra, hogy a saját moduljaikat terjesszék, s így elismertséget szerezzenek. Nem titkolt célunk, hogy a mi CEDAR és RO-Crate körüli fejlesztéseinket is a marketplace-en elérhetővé tegyük, így terjesztve azt a metaadatolási módszertant, amit az ARP-ben fejlesztettünk ki és, ami úgy látjuk a konferencia tapasztalatai alapján, hogy a világon is élvonalbelinek számít.
Bár még messze van, mire készültök a DCM 2026-ra?
Pataki Balázs: Egyrészt arra, hogy kevesebbet kell majd utazni, mert Barcelonában fogják rendezni. Másrészt, igyekszünk ezt az évet arra használni, hogy a fejlesztéseinket, amik egyelőre csak a saját verziónkban érhetők el sikerüljön a Dataverse és a CEDAR hivatalos kiadásába visszadolgozzuk, és a Dataverse Marketplace-en kiadni. Ehhez a Stanford és a Harvard együttműködésére is szükség lesz, mert mindkét szoftverben szükségesek változtatások, hogy ezek együtt tudjanak működni. Érdekes módon egyébként ez a két társaság eddig nem is nagyon tudott egymásról, mi hozzuk most össze őket. Úgy néz ki, hogy a Stanford és a Harvard között az út Magyarországon, az ARP-n és a SZTAKI-n keresztül vezet.
