Dependentzia Unibertsalen eredura egokitutako euskarazko zuhaitz-bankua

Argitalpenak · Dibulgazioa

Hizkuntzaren Prozesamenduan (HP) linguistikoki etiketatutako corpusak oinarrizko baliabideak dira hizkuntzaren ikerketarako eta hizkuntza-teknologien garapenerako.

1. irudia: “Ene laztan gozo ederra…” testuaren irudia. (Irudia: Berria, Wikimedia Commons)

Corpus horietan, elementu lexikoei buruzko informazio linguistikoa eransten da, eskuarki etiketen bidez. Elementu lexiko horiek zuriunetik zuriunera bitarteko alfabetoko karaktereen segidatzat hartzen diren testu-hitzak edo tokenak dira HPan; alegia, hitzak ez ezik puntuazio-markak, zenbakiak, laburtzapenak edo antzeko beste edozein karaktere.

Euskararen Prozesamendurako Erreferentzia Corpusa (EPEC) maila linguistiko desberdinetan (morfologia, sintaxia eta semantika, batez ere) etiketatuta dagoen 300.000 hitzeko euskarazko corpusa da. Corpus horren etiketatze sintaktikoa Dependentzia Gramatika ereduari jarraituz gauzatu da; horrela, corpuseko esaldi bakoitza osatzen duten elementu lexikoak binaka lotuz esaldi bakoitzaren dependentzia-zuhaitza edo zuhaitz sintaktikoa lortu da (2. irudia). Etiketatze-lan horren emaitza EPEC-DEP zuhaitz-bankua edo treebanka da.

2. irudia. “Noizean behin berak sortutako produktuak ematen zizkien.” esaldiaren dependentzia-zuhaitza EPEC-DEPen

Zuhaitz sintaktiko horietan, 2. irudikoan ikusten den moduan, hitz edo token bakoitza beste hitz edo token baten mendekoa da, edo esaldiaren erro hipotetikoaren (ROOT) mendekoa eta, era berean, hitzen arteko dependentzia-erlazio horietako bakoitzean mendekoak betetzen duen funtzio sintaktikoa adierazten da dependentzia-etiketen bidez.

2. irudian, gezien noranzkoak adierazten du erlazioan dauden bi hitz horietatik mendekoa geziaren helmuga den hitza dela eta gobernatzailea, berriz, geziaren abiapuntua den hitza; dependentzia-etiketei dagokienez, dependentzia-zuhaitz horretan ageri direnak hauek dira:

  • haos (hitz anitzeko osagaia)
  • ncsubj (non-clausal subject: sintagma mailako subjektua)
  • ncobj (non-clausal object: sintagma mailako objektua)
  • ncmod (non-clausal modifier: sintagma mailako modifikatzailea)
  • xmod (non-finite clausal modifier: mendeko perpaus ez-jokatua)
  • auxmod (auxiliary verb: aditz laguntzaiela) eta punct (puntua)

Lan honetan, EPEC-DEP zuhaitz-bankuaren 150.000 hitz Dependentzia Unibertsalen eredura automatikoki egokitzeko egin den lana aurkeztu da. Dependentzia Unibertsalen (DU; ingelesez, Universal Dependencies, UD) proiektuaren helburua hainbat hizkuntzatan sortu diren dependentzia-ereduan oinarritutako zuhaitz-bankuak etiketatze-eskema estandar berera egokitzea da, bateratze-lan horrek aukera emango duelako besteak beste hizkuntza askotan erabil daitezkeen analizatzaile sintaktiko estatistikoak garatzeko eta hizkuntzen tipologiaren araberako egitura sintaktikoak aztertzeko.

DU proiektuan definitutako kategoria gramatikalen zerrenda unibertsalari eta gidalerroei jarraituta, zuhaitz-bankuen egokitzapena tokenizazio, morfologia eta sintaxi mailetan egin behar da. EPEC-DEP zuhaitz-bankua egokitzeko lehen urrats honetan kontuan izan ditugu, halaber, irizpide hauek:

  1. egokituko den zuhaitz-bankuaren tamaina mugatzea
  2. esaldien egokitzapena automatikoki egitea ahal den denbora eta eskulan gutxien inplikatzeko
  3. egokitutako esaldi horiek zuzenak izatea.

Azken helburu hori lortzeko, zalantzazko kasuak baztertu egin dira eta ziurtasun handiarekin ondo dauden esaldiak baino ez dira egokitu.

Egokitzapen-lana egingarria gertatu da bi zuhaitz-bankuek sintaxiaren hurbilpen lexikalistari (erlazioak zatitu gabeko hitz-formen artean gertatzen dira eta ez morfemen artean) jarraitzen diotelako, eta biak bat datozelako eduki-hitzak hartzean izen-sintagmen eta aditz-kateen burutzat. Baina prozesu hori konplexua ere izan da.

Kontuan hartu behar da egokitzapen-prozesua ez dela izan euskarazko etiketak hartzea eta beraiei dagozkien DUen ereduko etiketetara egokitzea soilik. Prozesu horretan, atal batzuetan euskarazko etiketen bihurketa zuzena egin bada ere, beste batzuetan etiketen bihurketa aplikatu baino lehen honelakoak egin behar izan dira: etiketa bakoitzerako kasuak aztertu eta bere DUetako baliokidea identifikatu, zuhaitzaren egitura aldatu, puntuazio-markak moldatu, bihurketa gauzatuko duten programa informatikoak aplikatzeko ordena zuzena erabaki…

Egokitzapen-lan horretan oinarrituta ikus daiteke zer antzekotasun eta zer desberdintasun dauden bi zuhaitz-bankuen artean, eta are gehiago, lan horri esker euskara HPn kokatzen den nazioarteko proiektu garrantzitsu horren partaide izatea lortu dugu.

Iturria

Aranzabe, Maria Jesus; Atutxa, Aitziber; Bengoetxea, Kepa; Díaz de Ilarraza, Arantza; Goenaga, Iakes; Gojenola, Koldo; Uria, Larraitz (2019). «Dependentzia Unibertsalen eredura egokitutako euskarazko zuhaitz-bankua»; Ekaia, 35, 2019, 291-307. https://doi.org/10.1387/ekaia.19745

Artikuluaren fitxa

  • Aldizkaria: Ekaia
  • Zenbakia: Ekaia 35
  • Artikuluaren izena: Dependentzia Unibertsalen eredura egokitutako euskarazko zuhaitz-bankua
  • Laburpena: Hizkuntzaren Prozesamenduan kokatzen den Dependentzia Unibertsalen proiektuaren helburua da hainbat hizkuntzatan sortu diren dependentzia-ereduan oinarritutako zuhaitz-bankuak etiketatze-eskema estandar berera egokitzea. Artikulu honetan, eredu horretara automatikoki egokitu den euskarazko zuhaitz-bankua aurkezten da; halaber, egokitzapen-lan hori nola gauzatu den deskribatzen da eta, azkenik, horretan oinarrituta, azaltzen da zer antzekotasun eta zer desberdintasun diren jatorrizko zuhaitza-bankuaren eta Dependentzia Unibertsalen eredura egokitutako zuhaitz-bankuaren artean.
  • Egileak: Maria Jesus Aranzabe, Aitziber Atutxa, Kepa Bengoetxea, Arantza Díaz de Ilarraza, Iakes Goenaga, Koldo Gojenola, Larraitz Uria
  • Argitaletxea: UPV/EHUko argitalpen zerbitzua.
  • ISSN: 0214-9001
  • eISSN: 2444-3255
  • Orrialdeak: 291-308
  • DOI: 10.1387/ekaia.19745

Egileez

Maria Jesus Aranzabe, Aitziber Atutxa, Kepa Bengoetxea, Arantza Díaz de Ilarraza, Iakes Goenaga, Koldo Gojenola eta Larraitz Uria UPV/EHUko Ixa taldean dabiltza.


Ekaia aldizkariarekin lankidetzan egindako atala.

Utzi erantzuna

Zure e-posta helbidea ez da argitaratuko. Beharrezko eremuak * markatuta daude