Euskarazko testu idatzien konplexutasunaren azterketa eta sinplifikazio automatikorako proposamena

Itziar Gonzalez-Dios, María Jesús Aranzabe eta Arantza Díaz de Ilarraza

Egunero milaka testu idazten dira, baina jende asko ez da gai testu horiek ulertzeko. Zergatik? Testuak atzerriko hizkuntza batean idatzita daudelako, hizkuntza ulertzeko arazoak (afasia, arazo kognitiboak…) dituztelako edo, besterik gabe, testu horiek konplexuegiak direlako.

Irudia: Testuak automatikoki sinplifikatzeko EuTS sistema diseinatu dute.

Baina, nola jakin dezakegu zein den testu horien konplexutasun maila? Eta, konplexuegiak badira, gure mailara egoki ditzakegu? Alegia, sinplifika ditzakegu? Nolakoak dira testu sinplifikatuak? Eta, makina batek prozesu horietan lagun gaitzake?

Konplexutasunaren analisia (readability assessment) eta testuen sinplifikazio automatikoa (automatic text simplification) hizkuntzaren prozesamenduko ikerlerroak dira eta horietan hizkuntzalaritza eta informatika uztartzen dira: labur esanda, hizkuntza deskribatu egiten da eta, ondoren, metodo informatikoen bitartez, deskribapen horiek automatizatu egiten dira.

Konplexutasunaren analisiak testu bat konplexua den ala ez edo zein konplexutasun maila duen aztertzen du eta testuen sinplifikazio automatikoak, berriz, testu konplexuak sinpleago bihurtzea du helburu, betiere jatorrizko esanahiari eutsiz. “Euskarazko egitura sintaktiko konplexuen analisirako eta testuen sinplifikazio automatikorako proposamena / Readability Assessment and Automatic Text Simplification. The Analysis of Basque Complex Structures[1] izeneko doktoretza-tesian bi ikerketa-lerro horiek euskarara ekarri ditugu eta, jarraian, labur azalduko dizuegu egindakoa.

Testuen konplexutasuna neurtzeko, alde batetik, corpus batean eskuzko azterketa bat egin dugu eta, beste aldetik, testuen konplexutasuna automatikoki sailkatzen duen sistema bat, ErreXail [2], inplementatu dugu. Corpus-azterketan, ingeleserako eta Brasilgo portugeserako egindako Siddharthan-en [3] eta Specia eta besteren [4] lanetan konplexutzat hartutako fenomenoak euskarazko corpusetan aztertu ditugu.

Fenomeno horiek dira perpaus koordinatuak, mendeko perpausak, aposizio-sintagmak, informazio biografikoa duten egitura parentetikoak eta adierazpenak adierazten dituzten postposizio-sintagmak. Corpus-azterketan oinarrituta, aipatutako fenomeno konplexuen sinplifikazio-proposamenak egin ditugu eta hiru sinplifikazio maila definitu ditugu, testuak irakurriko dituen pertsonaren euskara mailarekin lotutakoak. ErreXail sistemari dagokionez, sei maila linguistiko ezberdinetan banatzen diren 94 ezaugarri (ratio) inplementatu ditugu eta horietan oinarrituta ikasketa automatikoaren bidez testuak sinple ala konplexu bezala sailkatzen ditu. ErreXailek % 93,50eko asmatze-tasa du euskarri bektoredun makinak (SVM) erabiliz.

ErreXailek testu konplexutzat sailkatu dituen testuak automatikoki sinplifikatzeko, EuTS sistema diseinatu dugu, eta sinplifikazio prozesua automatikoki egiteko beharrezkoak diren tresnak (perpausen mugak [5] eta aposizioak [6] detektatzeko, esaterako) inplementatu ditugu. Kasu azterketa bezala, EuTSen arkitekturari jarraituz, Biografix [7] izeneko tresna eleaniztuna garatu dugu. Biografixek 8 hizkuntzatan informazio biografikoa duten egitura parentetikoetatik esaldi sinpleak sortzen ditu.

Gure hurbilpena konparatzeko, eskuz sinplifikatutako testuen corpusa, ETSC-CBST, [8] osatu eta eskuz analizatu dugu. Corpus horretan testuak sinplifikatzeko egin diren eragiketa nagusiak dira ezabatzea, bateratzea, banaketa, transformazioa, txertaketa, hurrenkera-aldaketa, eragiketarik eza eta bestelakoak.

Etorkizunerako, ErreXail sistemari ezaugarri gehiago gehitu nahi dizkiogu (semantikarekin lotutakoak, adibidez), EuTS sistemaren inplementazioa bukatu nahi dugu eta erabiltzaileekin ebaluatu nahi dugu. Horretaz gain, ETSC-CBST corpusa zabaltzen jarraitu nahi dugu.

Erreferentziak:

[1] Gonzalez-Dios I., (2016). Euskarazko egitura sintaktiko konplexuen analisirako eta testuen sinplifikazio automatikorako proposamena / Readability Assessment and Automatic Text Simplification. The Analysis of Basque Complex Structures. Euskal Herriko Unibertsitatea (UPV/EHU).

[2] Gonzalez-Dios I., Aranzabe M.J., Díaz de Ilarraza A. eta Salaberri H., (2014). Simple or Complex? Assessing the Readability of Basque Texts. Proceedings of COLING 2014, the 25th International Conference on Computational Linguistics: Technical Papers, 334-344.

[3] Siddharthan A., (2002). An Architecture for a Text Simplification System. Proceedings of the Language Engineering Conference, 64-71.

[4] Specia L., Aluísio eta Pardo T.A., (2008). Manual de Simplificação Sintática para o Português. Barne-txostena NILC-TR-08-06.

[5] Aranzabe M.J., Díaz de Ilarraza A., eta Gonzalez-Dios I., (2013). Transforming Complex Sentences using Dependency Trees for Automatic Text Simplification in Basque. Procesamiento de Lenguaje Natural, 50, 61-68.

[6] Gonzalez-Dios I., Aranzabe M.J., Díaz de Ilarraza A. eta Soraluze A., (2013). Detecting Apposition for Text Simplification in Basque. International Conference on Intelligent Text Processing and Computational Linguistics, 513-524.

[7] Gonzalez-Dios I., Aranzabe M.J. eta Díaz de Ilarraza A., (2014). Making Biographical Data in Wikipedia Readable: A Pattern-based Multilingual Approach. Proceedings of the Workshop on Automatic Text Simplification – Methods and Applications in the Multilingual Society (ATS-MA 2014), 11-20.

[8] Gonzalez-Dios I., Aranzabe M.J. eta Díaz de Ilarraza A., (2018). The Corpus of Basque Simplified Texs. Language Resources and Evaluation, 52(1), 217-247.

Artikuluaren fitxa:
  • Aldizkaria: Ekaia
  • Zenbakia: Ale berezia. 2018
  • Artikuluaren izena: Euskarazko testu idatzien konplexutasunaren azterketa eta sinplifikazio automatikorako proposamena.
  • Laburpena: Gure gizartean egunero milioika testu sortzen dira, eta ikerketa honen helburua testu horiek ulerterrazagoak egitea da. Izan ere, horietariko asko konplexuak direnez, ez dira eskuragarriak arazo kognitiboak dituzten pertsonentzat edo atzerriko hizkuntzak ikasten ari direnentzat, besteak beste. Testu konplexuetatik informazioa erauztea ere ez da lan erraza Hizkuntzaren Prozesamendua egiten duten sistementzat. Arazo horiei aurre egiteko, tesi-lan honetan euskarazko testu idatzien konplexutasuna aztertu dugu eta, konplexutasun hori tratatzeko helburuarekin, testuen sinplifikazio automatikorako proposamena egin dugu.
  • Egileak: Itziar Gonzalez-Dios, María Jesús Aranzabe eta Arantza Díaz de Ilarraza.
  • Argitaletxea: UPV/EHUko argitalpen zerbitzua
  • ISSN: 0214-9001
  • Orrialdeak: 209-224
  • DOI: 10.1387/ekaia.17907

————————————————–
Egileez:

Itziar Gonzalez-Dios, María Jesús Aranzabe eta Arantza Díaz de Ilarraza UPV/EHUko Ixa taldekoak dira.

————————————————–
Ekaia aldizkariarekin lankidetzan egindako atala.

Iruzkin 1

Eman iritzia

Asteon zientzia begi-bistan #231 - Zientzia Kaiera

[…] Aurkezten diguten tesi-lan honetan euskarazko testu idatzien konplexutasuna aztertu dute eta testuen sinplifikazio automatikoa proposatu dute arazo horiei aurre […]

Eman iritzia

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>