Euskararako analizatzaile sintaktiko-estatistikoak hobetzeko esperimentuak

Kepa Bengoetxea eta Koldo Gojenola

Egun, informazio gehiena ordenagailuetan gorde eta prozesatzen da. Ordenagailuan dagoen informazioa era egokian prozesatzeko, beharrezkoa da gizakiaren hizkuntza ulertzea. Hizkuntza ulertzearen ataza ondo gauzatzeko, hizkuntzaren maila ezberdinak (morfologia, sintaxia, semantika, eta abar) landu eta hizkuntzaren prozesamenduko (HP) teknikak eta baliabideak garatu behar dira, adibidez: datu-base lexikala, zuhaitz-bankua (ingelesez, treebank), analizatzaile morfologikoak, analizatzaile sintaktikoak, eta abar. Ideia bat ulertzeko eta adierazteko, esaldiak erabiltzen dira, eta esaldia ulertzeko lehen baldintza da, esaldi horrek hizkuntzaren ordenaren araberakoa izatea, hau da, sintaxiaren araberakoa.
Irudia:
Irudia: Zuhaitz-bankua sintaktikoki etiketatutako corpus bat da. Corpuseko esaldi guztiak analizatu dira eta esaldiko hitz bakoitza etiketatu da, esaldiaren zuhaitz sintaktikoa lortuz.

Imajinatu, adibidez, “urdina eta edo delakoa” esaten dela. Esaldi honek lau hitz ezagun ditu, baina horrela lotuta, hitzek ez dute inongo zentzurik. Esaldiak lehen baldintza hori betetzen duen jakiteko, analizatzaile sintaktikoa erabil daiteke. Baina, analizatzaile sintaktikoen erabilera arlo desberdinetara zabaltzen ari da: analisi semantikoa lortzeko, gramatika-zuzentzaile modura lan egiteko edo gaizki erabilitako egiturak detektatzeko, bai eta, besteak beste, hizkuntzaren modelizazioan, informazioaren berreskurapenean, itzulpen automatikoan, galdera-erantzunetan, itzulpen automatikorako baliabideak sortzean edota parafrasien eskuratze automatikoan ere. Analizatzaile sintaktiko bat garatzeko orduan, azken urteotan asko ugaritu dira ikasketa automatikoan oinarritutako analizatzaile sintaktiko-estatistikoak.

Analizatzaile sintaktiko-estatistikoak zuhaitz-banku bat behar dute ikasteko. Zuhaitz-bankua sintaktikoki etiketatutako corpus bat da. Corpuseko esaldi guztiak analizatu dira eta esaldiko hitz bakoitza etiketatu da, esaldiaren zuhaitz sintaktikoa lortuz. Zuhaitz-bankua CoNLL-X formatuan egon behar da; hau da, esaldiko hitz bakoitzaren informazioa lerro batean jartzen da eta tabuladore batekin banatutako zutabetan hurrengo informazioa aurki daiteke: esaldian hitzak duen ordena zenbakia, esaldian duen hitz-forma, hitzaren lema, hitzaren kategoria, hitzaren azpikategoria, hitzaren ezaugarri morfosintaktikoak, hitzaren gobernatzailea eta gobernatzailearekiko duen dependentzia-etiketa.

Dependentzia-sintaxian eta datuetan oinarritutako 2006ko eta 2007ko CoNLL Shared Task (X. Compuntational Natural Language Learning) zereginen ondoren, grafoetan eta trantsizioetan oinarritutako hurbilpenak nagusitu ziren. Lan honetan, 2006ko CoNLL zereginen ondoren nagusitutako hurbilpen bietan (hots, trantsizio eta grafoetan) oinarritutako sistema onenen egokitzapena egin da, hau da, MaltParser eta MSTParser izenekoena, hurrenez hurren. Analizatzaile sintaktiko-estatistiko bat euskarara egokitzeko honako hiru oinarrizko elementu hauek egokituko dira:

  • algoritmo sintaktikoa,
  • ikasketa automatikoa,
  • ezaugarrien modeloa.

Analizatzaile sintaktiko-estatistikoak egokitu ostean, euskararako analizatzaile sintaktiko-estatistikoen emaitzak hobetzeko helburuarekin egindako esperimentu-multzoa aurkezten da. Lan honetan teknika ezberdinak aztertzen dira: zuhaitz-transformazioak, analizatzaileen pilaketa eta analizatzaile-modelo desberdinen irteeren konbinazioa. Nahiz eta buru-osagarri eta buru-modifikatzaile egitura gehienek analisi berdintsua izan dependentzia-gramatikan, badaude eztabaidagarriak diren egitura asko; besteak beste honako hauek: aditz-laguntzailea aditz nagusien gobernatzailea izatea edo ez; determinatzaile-sintagman determinatzailea burua izatea edo ez; postposizio-sintagman azken hitza burua izatea edo ez; koordinazioetan, juntagailua edo koordinazioaren lehenengo edo azken osagaia buru izatea edo ez.

Erabakitzeko unean teoria ezberdinak daude. Etiketatze teoria desberdinen eragina aztertzeko, euskarako zuhaitz-bankuari aplikatutako aurretiko eta ondorengo prozesaketa ezberdinak aplikatu dira: sintagmen transformazioa, mendeko perpausen transformazioa eta koordinazioaren transformazioa. Dependentzia-zuhaitzetan aplikatzen diren transformazioek kutxa beltzaren metodoa erabiltzen dute.

Analizatzaileen pilaketa

Analizatzaileen pilaketan bi analizatzaile bateratzeko, lehenengo analizatzailearen irteeran lortutako informazioa bigarren analizatzailearen sarrera aberasteko erabili da eta modelo bi elkarren osagarri izan ahal direla probatu da. Gainera, horrek aukera eman du, lehenengo analizatzailearen irteeran lortutako dependentzia-zuhaitzetatik informazioa goratzeko eta irteerako datuak gehiago aberasteko.

Bozketa bidezko konbinazioa

Analizatzaile desberdinen irteerak kontuan hartzen dira, irteera bateratu eta egokia lortzeko asmoarekin. Aztergai dauden esperimentuak egite aldera, eta dependentzietan oinarritutako analizatzaileen irteerak bateratzeko, bozketaren bidezko konbinaketa erabili da.

Sortutako oinarrizko sistemen (sistemen egokitzapena gauzatu ostean) eta sistema hedatuen (pilaketa eta zuhaitz- transformazio teknika osagarriak gauzatu ostean) irteerak konbinatu dira aniztasun faktoreak analisian izan dezakeen eragina probatzeko. Normalean esperimentuak egiteko zuhaitz-bankuan dauden ezaugarriak erabiltzen dira; hau da, hizkuntzalari-talde batek eskuz gainbegiratutako ezaugarriak. Baina euskaraz ezaugarriak era automatikoan lortzeko aukera dago, testua analizatzaile morfologikotik eta desanbiguatzaile morfologikotik pasatu ostean. Desanbiguazio-moduluen irteerak, batez beste, 1,3 aukera eskaintzen ditu hitz-forma bakoitzeko. Erabiltzen diren analizatzaile sintaktikoek aukera bakarra behar dutenez, desanbiguazio-moduluak ematen dituen aukeretatik lehenengo aukera (sarriena) hartu da.

Artikuluaren fitxa:
  • Aldizkaria: Ekaia
  • Zenbakia: 2016. urteko ale berezia, “2013-2014 Euskal Tesien 10 pasarte”
  • Artikuluaren izena: Euskararako analizatzaile sintaktiko-estatistikoa hobetzeko teknikak.
  • Laburpena: Artikulu honetan euskararako analizatzaile sintaktiko-estatistikoen emaitzak hobetzeko helburuarekin egindako esperimentu-multzoa aurkezten da. Lan honetan teknika ez-berdinak aztertzen dira: i) zuhaitz-transformazioak, ii) analizatzaileen pilaketa, eta iii) analizatzaile-modelo desberdinen irteeren konbinazioa. Emaitza guztiak zuhaitz-bankutik zuzenean hartutako urre-patroiko ezaugarri morfosintaktikoak erabiliz eta analisi morfologiko eta desanbiguatze-moduluetatik hartutako ezaugarri morfosintaktiko automatikoak erabiliz egin dira.
  • Egileak: Kepa Bengoetxea, Koldo Gojenola.
  • Argitaletxea: UPV/EHUko argitalpen zerbitzua.
  • ISSN: 0214-9001
  • Orrialdeak: 19-45
  • DOI: 10.1387/ekaia.14548

—————————————————–
Egileez: Kepa Bengoetxea eta Koldo Gojenola UPV/EHUko Hizkuntza eta Sistema Informatikoak saileko ikertzaileak dira.
—————————————————–
Ekaia aldizkariarekin lankidetzan egindako atala.

ekaia_ale_berezia_2016

Eman iritzia

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>