Ugrás a tartalomra

Nyelvtechnológiai Kutatócsoport

Csoportunk a természetes nyelvfeldolgozás minden területével foglalkozik a kezdeti felismeréstől (automatikus beszédfelismerés, optikai karakterfelismerés) a késői szintézist igénylő feladatokig, különös hangsúlyt fektetve a közbeeső fázisokra, amelyek megértést is igényelnek (szemantikai modellezés). Munkánkban a szabályalapú és a statisztikai megközelítéseket ötvözzük, abból az alapelvből kiindulva, hogy a szabályokat magukat is gépi tanulásos módszerekkel kell meghatározni.

Részleg vezetője

A hagyományosan a gépi nyelvfeldolgozáshoz tartozó feladatokon túl, mint például a morfológiai elemzés és szintézis, szófaj címkézés, elemzés és generálás, minden olyan részrendszerrel foglalkozunk, amelyek szükségesek egy teljesértékű HCI rendszerekhez, különös tekintettel az információkinyerés területére. Munkánk elméleti alapjai szorosan kötődnek a véges állapotú automatákhoz, illetve a véges állapotú transzdúcerekhez és gépekhez (Eilenberg 1974). Jelenleg egy olyan formális szemantikai elmélet kidolgozásával foglalkozunk, amelyben a modellezést gépekkel valósítjuk meg. A valósidejű felismerés lehetővé tételén túl (a HCI-ben ez alapvető jelentőségű) a véges állapotú eljárások segítségével az alapvető építőkövek, a véges átmenetek is automatikusan tanulhatók.

Csoportunk folytatja a magyarországi nyílt és szabad nyelvtechnológiai szoftverek létrehozásának hagyományát, amelyet a Hun* programcsalád tagjai testesítenek meg, mint a HunMorph morfológiai elemző, a HunNER névelem felismerő, a HunPars szintaktikai elemző, a HunAlign mondat-összepárosító, és talán a legjobban ismert HunSpell helyesírás-ellenőrző könyvtár, amely ma már elterjedten használt az Open Office-ban, a Firefoxban és a Thunderbirdben.

Legfontosabb kutatási területeink

  • Gépi megértés
  • Tudásalapú ember-gép interakció
  • Gépi tanulás
  • Mesterséges Intelligencia
  • Kérdés-megválaszolás
  • Szószemantika
  • Információkinyerés és -visszakeresés
  • Morfológiai elemzés
  • Tulajdonnévfelismerés
  • Sekély mondattani elemzés
  • Mondatelemzés és -generálás
  • Intelligens szótárépítés
  • Gépi fordítás

Kiemelkedő eredményeink

'Szemantikai alapú nyelvtechnológia' című OTKA-projektünk keretében létrehoztunk egy 3000 lexikai egységet tartalmazó alapszótárat angolul, magyarul, lengyelül és latinul, melyet a gépek elméleti keretrendszerének segítségével formalizáltunk. Ezt követően először is kiterjesztettük szótárunkat olyan módon, hogy már létező szótári definíciókat automatikusan lefordítunk formális modellünkre. Másodszor létrehoztunk több, a gépi megértés teljes folyamatát bemutató demót, amelyek jelentésalapú elemzést és generálást végeznek: a 2011-es Kutatók Éjszakáján bemutattuk az egyszerű párbeszédeket folytató, utasításokat végrehajtó SHRDLU 2.0 rendszert, mely lényegében Winograd klasszikus rendszerének továbbfejlesztett változata; a 2012 őszére elkészült MÁV-pénztáros és ELVIRA demók pedig már valódi feladatokat látnak el: a felhasználók természetes nyelven vásárolhatnak vonatjegyet és kérhetnek felvilágosítást a menetrendről. Végül technológiánkat olyan alapfeladatokra is alkalmazzuk, mint a kérdésmegválaszolás vagy a gépi fordítás.

Termékeink/szolgáltatásaink

  • huntoken tokenizáló
  • hunpos szófaji címkéző
  • morphdb morfológiai adatbázis
  • hunmorph morfológiai elemző
  • hunner tulajdonnévfelismerő
  • hunchunk sekély mondattani elemző
  • hunpars mondattani elemző
  • hunalign mondatpárosító

Eszközeink letölthetők: http://hlt.sztaki.hu