Latxa euskarazko hizkuntza-eredua

Argitalpenak · Dibulgazioa

Latxa izeneko hizkuntza-eredu handien familia EHUko HiTZ zentroan garatu zen. Hizkuntza-ereduak testu masiboetatik hizkuntzaren patroi lexiko eta sintaktikoak ikasten dituzten sistemak dira. Aplikazio praktiko ugari dituzte: itzulpen automatikoa hobetu, testu-laburpenak sortu eta euskarazko eduki digital berria sortzen lagundu. Azken urteotan izugarri hobetu dira, baina gehienbat ingelesa bezalako hizkuntza handietan zentratu izan dira. Latxa sortzearekin, euskara bezalako hizkuntza txikiago batentzat ere kalitatezko ereduak sortzea posible dela frogatzea izan zen HiTZeko ikerlarion helburua.

Horrelako proiektu bat garatzea erronka handia da. Batetik, eredu handiak entrenatzeko konputazio-ahalmen izugarria behar da. Adibidez, kalkulu guztiak prozesadore grafiko (GPU) bakar batean burutuz gero, 180 aste beharko lirateke Latxa eredu handiena entrenatzeko. Zorionez, guk LEONARDO super-konputagailua erabili ahal izan genuen, eta aukera izan genuen lana modu paraleloan burutzeko, aldi berean 256 GPU erabiliz.

Latxa
Irudia: Latxa ereduek erakusten dute posible dela euskara bezalako baliabide urriko hizkuntzetarako ere kalitatezko hizkuntza-ereduak sortzea. (Iturria: HiTZ Zentroa)

Bestetik, beharrezkoa den testu kopuru handia biltzea zaila da, batez ere hizkuntza txikien kasuan. Guk 4,3 milioi dokumentu biltzea lortu genuen, guztira 4.200 milioi hitz inguru. Testu hauek hainbat iturritatik jaso genituen, hala nola Wikipediatik, Euskal Herriko komunikabideetatik, eta Internetetik bildutako euskarazko edukietatik. Kaleratzeko garaian, corpus hori euskararako publikoki eskuragarri zegoen handiena zen.

Testu horiek erabilita, aurretik ingelesez trebatutako LLama 2 izeneko eredu bat “euskaldundu” genuen, euskaraz ikasten jarrai zezan. Prozesu honi “aurreikasketa jarraitua” deitzen zaio. Horrela sortu genituen hiru Latxa eredu, gero eta konplexuagoak: txikienak 7.000 milioi parametro ditu, ertainak 13.000 milioi, eta handienak 70.000 milioi.

Eredu erraldoi horiek ebaluatzeko oso garrantzitsua da proba-multzo fidagarriak izatea, eta horiek hizkuntza gutxitarako existitzen dira. Latxarekin batera lau proba-multzo berri sortu genituen, guztira 24.000 galdera baino gehiagorekin. Galderak oso anitzak dira, eta euskara-gaitasuna, irakurmena, kultura orokorra eta ezagutza profesionala neurtzen dituzte. Zehazki, EusProficiency (EGA azterketako galderak), EusReading (EGAko irakurmen-galderak), EusTrivia (kultura orokorreko galderak) eta EusExams (oposizioak prestatzeko galderak) izeneko datu-multzoak sortu genituen.

Proba hauetan, gure Latxa ereduek ordura arteko sistema ireki guztiak gainditu zituzten. Are gehiago, ChatGPT garatu duen OpenAI enpresaren GPT-3.5 Turbo baino emaitza hobeak lortu zituen. GPT4rekin konparatuz, emaitzak okerragoak dira oro har, baina euskara-gaitasunean Latxak emaitza hobeak lortu zituen. Latxa aurkezten zuen publikazio zientifikoak artikulu hoberenaren saria irabazi zuen arlo honetako erakunde nagusitik, ACL izeneko erakundetik.

Gure lanak erakusten du posible dela euskara bezalako baliabide urriko hizkuntzetarako ere kalitatezko hizkuntza-ereduak sortzea. Hala ere, oraindik bide luzea dugu aurretik. Latxa hobetzen jarraitzen dugu, testu gehiago erabiliz eta sistema finduz. Azken helburua da gizakien agindu konplexuak ulertu eta bete ditzakeen sistema bat lortzea euskaraz.

Latxa ereduak, kodea eta erabilitako baliabide guztiak publikoki argitaratu genituen GitHub plataforman, beste ikertzaileek ere erabili eta hobe ditzaten. Horrela, euskararako eta beste hizkuntza txikiagoetarako hizkuntza-teknologien garapena bultzatu nahi dugu, hizkuntza-aniztasuna eta -berdintasuna sustatuz mundu digitalean. Bide horretan ACL izeneko bilgune berean aipatu zen euskara 1400 artikulu zientifikotan erabili izan dela esperimentuak egiteko.

Artikuluaren fitxa:

  • Aldizkaria: Ekaia
  • Zenbakia: Ale berezia Adimen artifiziala
  • Artikuluaren izena: Latxa euskarazko hizkuntza-eredua.
  • Laburpena: Artikulu honetan Latxa hizkuntza-ereduak (HE) aurkeztuko ditugu, egun euskararako garatu diren HE handienak. Latxa HEek 7.000 miloi parametrotik 70.000 milioira bitartean dituzte, eta ingeleseko LLama 2 ereduetatik eratorriak dira. Horretarako, LLama 2 gainean aurreikasketa jarraitua izeneko prozesua gauzatu da, 4.3 milioi dokumentu eta 4.200 milioi token duen euskarazko corpusa erabiliz. Euskararentzat kalitate handiko ebaluazio multzoen urritasunari aurre egiteko, lau ebaluazio multzo berri bildu ditugu: EusProficiency, EGA azterketaren atariko frogako 5.169 galdera biltzen dituena; EusReading, irakurketaren ulermeneko 352 galdera biltzen dituena; EusTrivia, 5 arlotako ezagutza orokorreko 1.715 galdera biltzen dituena; eta EusExams, oposizioetako 16.774 galdera biltzen dituena. Datu-multzo berri hauek erabiliz, Latxa eta beste euskarazko HEak ebaluatu ditugu (elebakar zein eleanitzak), eta esperimentuek erakusten dute Latxak aurreko eredu ireki guztiak gainditzen dituela. Halaber, GPT-4 Turbo HE komertzialarekiko emaitza konpetitiboak lortzen ditu Latxak, hizkuntza-ezagutzan eta ulermenean, testu-irakurmenean zein ezagutza intentsiboa eskatzen duten atazetan atzeratuta egon arren. Bai Latxa ereduen familia, baita gure corpus eta ebaluazio-datu berriak ere lizentzia irekien pean daude publiko https://github.com/hitz-zentroa/latxa helbideana.
  • Egileak: Naiara Pérez, Julen Etxaniz, Óscar Sainz, Itziar Aldabe, German Rigau, Eneko Agirre, Ahmed Salem, Aitor Ormazabal, Mikel Artetxe eta Aitor Soroa
  • Argitaletxea: EHUko argitalpen zerbitzua
  • ISSN: 0214-9001
  • eISSN: 2444-3255
  • Orrialdeak: 13-27
  • DOI: 10.1387/ekaia.26338

Egileez:

Naiara Pérez, Julen Etxaniz, Óscar Sainz, Itziar Aldabe, German Rigau, Eneko Agirre, Ahmed Salem, Aitor Ormazabal, Mikel Artetxe eta Aitor Soroa EHUko HiTZ Hizkuntza Teknologiako Euskal Zentroko Ixa ikerketa-taldeko ikertzaileak dira.


Ekaia aldizkariarekin lankidetzan egindako atala.

Utzi erantzuna

Zure e-posta helbidea ez da argitaratuko.Beharrezko eremuak * markatuta daude.