Euskarazko denbora-informazioaren azterketa eta prozesamendua

Begoña Altuna, Mª Jesús Aranzabe eta Arantza Díaz de Ilarraza

Denborak ekintzak eta egoerak gertatzea eta horien ondorioz sortutako aldaketak edo aldaketa ezak antzematea ahalbidetzen du. Gainera, ekintza eta egoera horiek noiz jazo diren edo zenbat iraun duten jakiten ere laguntzen du. Gizaki guztiek, ordea, ez dute denbora berdin adierazten; nola ulertu denbora, hala adierazi. Hizkuntzaren prozesamenduan, denbora-informazioa interpretatzea oso garrantzitsua da testuak osotasunean ulertu nahi badira eta horretarako, hizkuntza bakoitzean denbora nola adierazten den aztertu behar da. Gu euskarazko denbora-informazioarekin ari gara lanean.

Irudia: Euskaraz, aztertutako beste hizkuntzetan bezala, denbora-informazioa adierazteko hiru elementu nagusi daude: gertaerak, denbora-adierazpenak eta denborazko erlazio-eraikuntzak. (Argazkia: Gabriel Aresti euskaltegia)

Bada, hiru denbora-egitura motak osatzen du denbora-informazioa:

  1. Gertaerak, hau da, gertatzen diren ekintzak eta egoerak (adibidez, galdetzea, leherketa, haurdun egotea)
  2. Denborako une eta iraupenak adierazten dituzten denbora-adierazpenak (adib., atzo, bost minutu, arratsaldeko lauretan
  3. Horien artean sortzen diren erlazioak (adib., hiruretan, lan egin ondoren bazkaldu dugu). Hau da, denborazko erlazio-eraikuntzak.

Hizkuntzaren prozesamendurako azterketa linguistikoa egitean, elementu horien ezaugarriak erauzi eta era normalizatuan antolatu behar dira, bestela esan, testuko denborek kronologiako zer une zehatzi egiten dioten erreferentzia azaleratu behar da, ekintzen ezaugarri gramatikalak eta semantikoak sailkatu behar dira eta loturetan elementu parte-hartzaileen segida erabaki behar da. Erabaki horiek guztiak EusTimeML markaketa lengoaian eta etiketatze-gidalerroetan adierazi ditugu. Esaterako, “bost minutu” iraupena bost minutu adieraziko da.

Behin denbora-egiturak nola sailkatu eta normalizatu erabaki ostean, corpus etiketatuak sortu ditugu. Corpusetan albisteak eta historia testuak batu eta testuko denbora-egiturak eskuz markatu ditugu eta beren ezaugarriak gehitu dizkiegu. Horrela denbora-informazioa duen corpusa sortu dugu. Corpus hau etiketatzaileen trebakuntzarako, etiketatze-irizpideen ebaluaziorako, ikasketa automatikorako eta tresna automatikoen ebaluaziorako urre patroi gisa erabili da.

Aurretik azaldutako guztia baliatuta, denbora-informazioan gertaeren, denbora-adierazpenen eta erlazioen inguruan ari gara lanean. Denbora-adierazpenei dagokienez, erregela bidezko EusHeidelTime tresna garatu dugu. EusHeidelTimek testuko denbora-adierazpenak identifikatu eta balio normalizatuak ematen dizkie. Horretarako testuetan aurki daitezkeen denbora-adierazpenen egiturak aztertu ditugu eta egitura bakoitzarentzat erregela bat sortu. Ez dugu, ordea, adierazpen bakoitzarentzat erregela bat sortu, egituraren zatiak (urteak, hilabeteak, asteko egunak, etab.) multzokatu ditugu eta multzo horiek idatzi ditugu erregeletan.

EusHeidelTimeren erregelak eta hizkuntza baliabideak—egitura zerrendak eta bakoitzaren balio normalizatuak—sortu ostean, denbora-informazioa lantzeko sortutako corpusaren lagin bat automatikoki etiketatu dugu eta lagin hori eskuz etiketatuarekin konparatu dugu. Denbora-adierazpenen % 90 inguru antzemateko gai izan gara; aurrera egitera animatzen gaituen emaitza. Hala ere, denbora-adierazpenak ez dira denbora-informazioa adierazten duten egitura bakarrak eta gertaerak eta erlazioak automatikoki prozesatzeko lanean jarraitu behar da.

Denbora-informazioa era zabalean tratatzeko gai garenean, informazio hori kronologien sorrera automatikoan, gertaeren aurreikuspenean edo etorkizunaren iragarpenean erabili ahal izango dugu. Ondorioz, euskarazko denbora-informazioaren prozesamendua oso erabilgarria izango da etorkizun hurbilean medikuntzan, ekonomian eta beste hainbat arlotan.

Artikuluaren fitxa:
  • Aldizkaria: Ekaia
  • Zenbakia: Ekaia 30
  • Artikuluaren izena: Euskarazko denbora-informazioaren tratamendu automatikoa TimeMLren eta HeidelTimeren bidez.
  • Laburpena: Hizkuntzaren prozesamenduan (HP), denbora-informazioa beharrezkoa da testuak ulertzeko, testuko gertaerak noiz jazotzen diren edo zenbat irauten duten adierazten baitu. Artikulu honetan, euskarazko denbora-informazioaren azterketa eta prozesamendua aurkezten dira. Lehenik, denbora-egituren deskribapena egin da. Bigarren, informazio egituratua emateko markaketa-lengoaia eta horren bidez etiketatutako corpusak azaldu dira. Ondoren, etiketatzeko tresna automatikoa ere deskribatzen da eta lehen etiketatze automatikoaren saiakera bat eta horren emaitzak ere ematen dira.
  • Egileak: Begoña Altuna, Mª Jesús Aranzabe eta Arantza Díaz de Ilarraza
  • Argitaletxea: UPV/EHUko argitalpen zerbitzua
  • ISSN: 0214-9001
  • Orrialdeak: 153-165
  • DOI: 10.1387/ekaia.16362

—————————————————–
Egileaz: Begoña Altuna eta Arantza Díaz de Ilarraza UPV/EHUko Hizkuntza eta Sistema Informatikoak saileko ikertzaileak dira eta Mª Jesús Aranzabe UPV/EHUko Euskal Hizkuntza eta Komunikazioa saileko ikertzailea da.
—————————————————–
Ekaia aldizkariarekin lankidetzan egindako atala.

Eman iritzia

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>