NOR GAREN
 
JARDUERA
 
PROIEKTUAK
 
TALDEKO ENPRESAK
 
 
 

 
Ikerketa proiektuak
Beste zentru teknologikoekiko lankidetza
KAPSULA 2000: Eduki dokumentalen eskuratzea, lengoaia naturalean oinarrituta
 
ACOTE: Itzulpenari laguntza, hizkuntz teknikekin uztartuta
 
AMETRA: Itzulpenari laguntza, itzulpen memorietan oinarrituta
 
JAZOHARI: Informazioaren eta erantzunen erauzketa, gertakariei zuzenduta
 
MULCOR: Adquisición de conocimiento multilingüe a partir de corpus.
 
DICCICOR: Diccionarios combinatorios y de frecuencias basados en corpus.
 
OLITE: Ordenagailuz Lagundutako Itzulpen Tresna Eleaniztuna.

JAZOHARI: Informazioaren eta erantzunen erauzketa, gertakairei zuzenduta

Proiektu honetan, zentro teknologikoaz gain, bi enpresak parte hartu zuten.

Jarduera urteak: 2006-2008

Xedea:

- Dokumentazioa (PDF gaztelaniaz)

JAZOHARI proiektuaren xedea, laburpen eta eskema automatikoak sortuko dituen eta erantzunak bilatuko dituen sistema konputazionala garatzea da, testu informazioko bolumen erraldoien sarbidea eta ustiaketa ahalbidetuko duena. Sistemaren jopuntua, nagusiki, gertakariak izango dira.

  • Laburpen eta eskema automatikoez mintzo garelarik, honetaz ari gara: dokumentu sail batetik abiatuta, haien aurkezpen laburtu eta automatizatua egitea, berorietan ageri diren datu garrantzitsu guztiak barne hartuko dituena, osorik irakurri behar izan gabe irakurleak haien begiz jotako edukiaren berri izan dezan.
  • Erantzunak bilatzeko sistema aipatzen dugularik, honakoaz ari gara: kontsulta --bilatzaile arruntetan egin ohi den bezala-- hitzen kateatze hutsa edota operadore logikoen lengoaia artifizialean egin beharrean, erabiltzaileak galdera zehatza egin ahal izango du lengoaia naturalean.
  • Jopuntua gertakariak izango direla diogularik, hauxe esan nahi dugu: garai eta leku jakin batean jazotzen diren ekintzak, egitateak edo jarduerak izango ditugula xede. Gertakariak oso gutxitan izaten dira isolatutako ezer; haiei buruzko dokumentuen kopurua handituz doan heinean, gertakarion xehetasunen konplexutasuna areagotuz joan ohi da, jatorrizkoarekin lotutako gertakari berriak sortzeko heineraino. Informazioa erauzteko gure sistemek gertakaria hartuko dute detektatzeko eta tratatzeko foku nagusi bezala.

Proiektu honetako garapen guztiak erreferentzia ugarikoak izango dira (hainbat iturburutako dokumentuak elkarren harremanean) eta baita eleanitzak ere (dokumentuak hizkuntza desberdinetan egon daitezke; geure kasuan, gazteleraz eta euskaraz).

Informazioaren iturburua, batik bat, albisteak eta prentsako artikuluak izango dira, eta euskaraz edo gaztelaniaz argitaratutako prentsatik hartuko dira. Erreferentziako corpusak 15 milioi hitz izango ditu gutxi gorabehera, 5 egunkarik 6 hilabetetan argitaratutakoak.

Erabiltzaileari dagokionez, azken-buruko prototipoak prentsako errebistak eta buletin banatuak egitera zuzenduko dira, batez ere beroriek sortzeko orduan lagungarriak eta orientagarriak izan daitezen.

Garatuko diren erremintak Behaketa Teknologikoaren beharra duten enpresa guztiek erabili ahal izango dituzte, ataza horretarako beharrekoak diren fase guztiak barne hartuko baititu: informazioaren iragaztea, sailkatzea eta analisia.

Buletinak sortzeko erabiliko den informazioa kanpotik ere kontsultatu ahal izango da, web bitartez, tratatutako dokumentazio osoan kontsulta arina erraztu ahal izatearren erantzunak bilatzeko sistemak erabiliz.

  1. Lengoaia Naturalaren Prozesaketa (LNP). Testuen hizkuntz informazio osoaren detekzioa eta egituraketa: morfologikoa, lexikoa, sintaktikoa eta diskurtsiboa.
  2. Informazioaren Berreskuratzea (IB). Erabiltzailearen kontsultatik abiatuz, dokumentu sail baten berreskuratzea. Sistemak baieztatzen du kontsultako hitzak baseko dokumentuetan ote daudenetz, eta zerrenda bistaratzen du, normalean esanguratsuak diren arabera ordenatuta.
  3. Informazioaren Erauzketa (IE). Kontsulta baterako esanguratsuak diren dokumentuak berreskuratzeaz gain, datu eta pasarte esanguratsuak ere erauzi egiten dira haietatik.
  4. Gertakarien Detekzioa eta Jarraipena (GDJ). Albisteen multzo handiak aztertuta, berorietan aipatzen diren gertakarien erauzketa eta jarraipena egitea.
  5. Erantzunak Bilatzeko Sistemak (EB). Galdera zehatz bat egiteko modua ematen zaio erabiltzaileari, eta sistemaren erantzunak ere ahalik eta zehatzena eta laburrena izan behar du.
Eusko Jaurlaritzako Industria, Merkataritza eta Turismo Sailak zatiz finantziatutako proiektua, FEDER