Nyelvtechnológiai Kutatócsoport
Részleg vezetője
Befoglaló részleg
A hagyományosan a gépi nyelvfeldolgozáshoz tartozó feladatokon túl, mint például a morfológiai elemzés és szintézis, szófaj címkézés, elemzés és generálás, minden olyan részrendszerrel foglalkozunk, amelyek szükségesek egy teljesértékű HCI rendszerekhez, különös tekintettel az információkinyerés területére. Munkánk elméleti alapjai szorosan kötődnek a véges állapotú automatákhoz, illetve a véges állapotú transzdúcerekhez és gépekhez (Eilenberg 1974). Jelenleg egy olyan formális szemantikai elmélet kidolgozásával foglalkozunk, amelyben a modellezést gépekkel valósítjuk meg. A valósidejű felismerés lehetővé tételén túl (a HCI-ben ez alapvető jelentőségű) a véges állapotú eljárások segítségével az alapvető építőkövek, a véges átmenetek is automatikusan tanulhatók.
Csoportunk folytatja a magyarországi nyílt és szabad nyelvtechnológiai szoftverek létrehozásának hagyományát, amelyet a Hun* programcsalád tagjai testesítenek meg, mint a HunMorph morfológiai elemző, a HunNER névelem felismerő, a HunPars szintaktikai elemző, a HunAlign mondat-összepárosító, és talán a legjobban ismert HunSpell helyesírás-ellenőrző könyvtár, amely ma már elterjedten használt az Open Office-ban, a Firefoxban és a Thunderbirdben.
Legfontosabb kutatási területeink
- Gépi megértés
- Tudásalapú ember-gép interakció
- Gépi tanulás
- Mesterséges Intelligencia
- Kérdés-megválaszolás
- Szószemantika
- Információkinyerés és -visszakeresés
- Morfológiai elemzés
- Tulajdonnévfelismerés
- Sekély mondattani elemzés
- Mondatelemzés és -generálás
- Intelligens szótárépítés
- Gépi fordítás
Kiemelkedő eredményeink
'Szemantikai alapú nyelvtechnológia' című OTKA-projektünk keretében létrehoztunk egy 3000 lexikai egységet tartalmazó alapszótárat angolul, magyarul, lengyelül és latinul, melyet a gépek elméleti keretrendszerének segítségével formalizáltunk. Ezt követően először is kiterjesztettük szótárunkat olyan módon, hogy már létező szótári definíciókat automatikusan lefordítunk formális modellünkre. Másodszor létrehoztunk több, a gépi megértés teljes folyamatát bemutató demót, amelyek jelentésalapú elemzést és generálást végeznek: a 2011-es Kutatók Éjszakáján bemutattuk az egyszerű párbeszédeket folytató, utasításokat végrehajtó SHRDLU 2.0 rendszert, mely lényegében Winograd klasszikus rendszerének továbbfejlesztett változata; a 2012 őszére elkészült MÁV-pénztáros és ELVIRA demók pedig már valódi feladatokat látnak el: a felhasználók természetes nyelven vásárolhatnak vonatjegyet és kérhetnek felvilágosítást a menetrendről. Végül technológiánkat olyan alapfeladatokra is alkalmazzuk, mint a kérdésmegválaszolás vagy a gépi fordítás.
Termékeink/szolgáltatásaink
- huntoken tokenizáló
- hunpos szófaji címkéző
- morphdb morfológiai adatbázis
- hunmorph morfológiai elemző
- hunner tulajdonnévfelismerő
- hunchunk sekély mondattani elemző
- hunpars mondattani elemző
- hunalign mondatpárosító
Eszközeink letölthetők: http://hlt.sztaki.hu