Euskarazko elkarrizketa sistema automatikoa sare neuronalen bidez

Argitalpenak · Dibulgazioa

Elkarrizketa sistema automatikoek pertsona eta makinen arteko komunikazioa eta interakzioa ahalbidetzen dute, lengoaia naturalaren bidez. Lan honetan eremu irekiko edo helbururik gabeko elkarrizketa sistemetan zentratuko gara. Sistema hauetan erabiltzaileak eta makinak ez diote elkarri hitz egiten helburu espezifiko batekin; interakzioa bera naturala eta zentzuduna izatea da helburua. Horretarako, sistemak esaldi ahal bezain logiko, koherente eta informatzaileekin erantzun behar dio erabiltzaileak esaten duenari. Hau da, sistemak era gizatiarrean hitz egin behar du.

Adimen artifizialaren beste arloetan izan duten emaitzengatik, sare neuronalak elkarrizketa sistema automatikoak eraikitzeko teknologia nagusia bilakatu dira. Sare neuronalak datuetatik eredu konputazional konplexuak lortzeko balio duten paradigma konputazional bat dira, bereziki eraginkorra datuen kantitatea oso handia denean. Ulertzekoa da, beraz, arloko autore gehienek ingelesez dauden datu-baseekin lan egitea, normalean hauek baitira handienak.

elkarrizketa sistema automatikoa
Irudia: Entrenamendu algoritmoan egiten diren optimizazio prozesuen laburpena. (Iturria: Ekaia aldizkaria)

Baina, zer gertatzen da baliabide gutxiagoko hizkuntzekin? Ba al dago sare neuronaletan oinarrituriko elkarrizketa sistema automatikoak eraikitzerik euskaraz? Lan honetan erakusten dugu baietz, badagoela. Normalean erabiltzen diren datu-baseak baino bi magnitude ordena txikiagoak diren datu-baseak erabiliz modu koherente eta zentzudunean euskaraz hitz egiten duen elkarrizketa sistema automatikoa aurkezten dugu. Horretarako, sare sortzaile aurkariez baliatu gara, baita euskararen morfologian oinarritutako aurreprozesamenduaz ere.

Sare neuronalen bidezko eremu irekiko elkarrizketa sistemak itzulpen automatikorako erabiltzen diren sareetan oinarritzen dira, hots, sekuentziatik-sekuentziarako sareetan. Dena den, hauek doitzeko erabili ohi diren ikasketa metodo gainbegiratuek irteera bakarra esleitzen diote sarrera bakoitzari, eta horrek ez ditu elkarrizketen propietateak behar bezala jasotzen. Izatez, hitz egiten dugunean, norbaitek esan duenari erantzuteko hamaika esaldi ezberdin erabili ahalko genituzke, guztiak onargarriak. Horrela, esaldi askoren erantzuna izan daitezkeen esaldi generikoak probabilitate handiarekin sortuko ditu sareak.

Arazo hori konpontzeko, ikasketa gainbegiratuaren ordez sare sortzaile aurkariak erabili ditugu. Sare sortzaile aurkariek Turingen testaren ideia era konputazionalean aplikatzea ahalbidetzen dute. Kasu honetan, erantzunak sortzen dituen sareari ez zaio adieraziko zein irteera dagokion sarrera bakoitzari. Horren ordez, beste sare batek, sare diskriminatzaileak, sare sortzaileak emandako erantzunak ebaluatuko ditu, zein punturaino gizatiarrak diren adieraziz, Turingen testaren epaile batek egingo lukeen modu berean. Sare sortzailearen helburua sare diskriminatzaileak berari emandako ebaluazioa ahal bezain beste hobetzea izango da. Sare diskriminatzailearena, aldiz, pertsonek sortutako eta sare sortzaileak sortutako esaldien artean bereiztea izango da. Modu honetan, bi sareak iteratiboki entrenatuko dira; sortzailea saiatuko da diskriminatzaileak hura pertsonatzat hartzen, diskriminatzaileak sortzailearen eta pertsonen artean bereizten ikasten duen bitartean.

Bestalde, sare hauek euskarazko corpus batekin doitu ditugu. Ingelesa ez bezala, euskara hizkuntza eranskaria da egitura morfologikoaren aldetik. Hau da, euskarak monema independenteak elkartuz sortzen ditu hitzak. Horrela, askotan euskaraz hitz batekin esan daitekeena ingelesez hainbat hitz erabiliz adierazi behar da. Adibidez, ingelesezko “to the cinema” euskaraz “zinemara” bezala itzuliko litzateke, edo “because of the baby” “haurrarengatik” bezala. Sareen ikuspegitik hitz bakoitza token independente bat denez, sareak ez lituzke euskaraz gertatzen diren hitzen arteko erlazioak ikusiko, euskararen prozesamendu automatikoa zailduz. Arazo honi irteera emateko, hitzen lexemak kasu marketatik eta postposizioetatik banatzea proposatu dugu.

Horrela, euskaraz era zentzudunean hitz egiteko gai den eta sare neuronaletan oinarritzen den lehen elkarrizketa sistema automatikoa sortu dugu. Hurrengo taulan sarrera mezu batzuen aurrean sistemak emandako erantzuna ikusi daiteke:

Iturria

López Zorilla, Asier; de Velasco Vázquez, Mikel; Justo, Raquel (2020). «Euskarazko elkarrizketa sistema automatikoa sare neuronalen bidez»; Ekaia, 37, 2020, 327-341. (https://doi.org/10.1387/ekaia.20987)

Artikuluaren fitxa

  • Aldizkaria: Ekaia
  • Zenbakia: Ekaia 37
  • Artikuluaren izena: Euskarazko elkarrizketa sistema automatikoa sare neuronalen bidez.
  • Laburpena: Lan honetan sare neuronalen bidez euskaraz hitz egiten ikasten duen elkarrizketa sistema automatiko bat aurkezten dugu. Horretarako, turingen testaren ideia era konputazionalean inplementatzen duten sare neuronal sortzaile aurkariak erabili ditugu. Normalean erabiltzen diren ingelesezko corpusak baino bi magnitude ordena txikiagoa den euskarazko corpus batekin halako sareak doitzea badagoela frogatzen dugu. Amaitzeko, euskararen morfologia kontuan hartzen duen aurreprozesamendua erabiltzea komenigarria dela erakusten dugu. Sare neuronaletan oinarrituta dagoen euskarazko lehen elkarrizketa sistema aurkezten dugu.
  • Egileak: Asier López Zorilla, Mikel de Velasco Vázquez, Raquel Justo
  • Argitaletxea: UPV/EHUko argitalpen zerbitzua
  • ISSN: 0214-9001
  • eISSN: 2444-3255
  • Orrialdeak: 327-341
  • DOI: 10.1387/ekaia.20987

Egileez

Asier López Zorilla, Mikel de Velasco Vázquez eta Raquel Justo UPV/EHUko Elektrizitatea eta Elektronika Sailekoak dira.


Ekaia aldizkariarekin lankidetzan egindako atala.

Utzi erantzuna

Zure e-posta helbidea ez da argitaratuko. Beharrezko eremuak * markatuta daude