Genero aldetik anbiguoa den hizketaren sintesia euskaraz hizlari-bektore manipulazioaren bidez

Argitalpenak · Dibulgazioa

Text-to-speech (TTS) sistemak testua hizketa bihurtzen duten sistemak dira eta haien presentzia asko handitu da gure egunerokoan azken urteetan. Erabilera ugariena ahots-interfazea duten laguntzaile birtualetan aurki dezakegu. Nahiz eta gure egunerokoan laguntzaile birtualek gauza asko erraztu dizkiguten, komertzialki zabaldu diren laguntzaile gehienak emakume ahotsa dute eta honek hainbat ondorio kaltegarri ekarri ditu.

UNESCOk 2019an argitaratutako txosten batean laguntzaile birtualetan dagoen sexismoa nabarmendu zen eta laguntzaile birtual feminizatuak erabiltzearen ondorio kaltegarri ugari aipatzen ziren. Ondorioen artean agertzen ziren emakumeak lagunkoi eta otzanak diren mezuen zabalkundea edo hitzezko sexu-jazarpenei era apologetikoan erantzutearen normalizazioa. Txosten berak genero-anbiguotasuna duten laguntzaile birtualak sortzea gomendatu zuen, hau da, gizonezko edo emakumezko batena den garbi detekta ezin daitekeen ahots bat. Txosten hau abiapuntutzat hartuta, lan honen helburua genero-anbiguotasuna duen euskarazko ahots bat sortzea izan da. Emaitzek frogatu dute aurkeztutako metodoak genero-anbiguoko ahotsak lortzeko baliozkoak direla, kalitate onargarriak, baina hobetu daitezkeenak, lortuz.

Genero aldetik
irudia: laguntzaile birtual feminizatuak emakumeak lagunkoi eta otzanak diren mezuen zabalkunde dira. (Argazkia: John Tekeridis – pexels lizentziapean. Iturria: Pexels.com)

Genero-anbiguoko ahotsa sortzeko gure proposamenak hizlari-bektoreen manipulazioaren bidezko ahots transformazioa erabiltzen du. Hizketaren sintesiaren eremuan hizlari-bektoreak hizlari anitzeko TTS sistemekin erlazionaturik daude. TTS sare neuronal bat hainbat hizlarirekin aldi berean entrenatuz gero, sare neuronal berak ahalmena du testu bera hizlari ezberdinen ahotsera bihurtzeko. Transformazio honetan hizlari-bektorea da erabakitzen duena zein ahots aterako den, eta horregatik kontsideratzen da hiztunen ezaugarrien espazio latente baten adierazgarri dela. Hizlari originalen bektoreak manipulatu eta entrenatutako TTS sisteman sartzen baditugu ahots berriak sor ditzakegu. Lan honen ideia nagusia da bektore-espazio honetan gizon eta emakumeen ezaugarriak dituzten eremuak lokalizatzea, ondoren espazio horien erdibideko bektoreekin ahots anbiguoak sortzeko. Horretarako bi metodo desberdin proposatzen ditugu: bektoreen arteko distantzia euklidearrak edo distantzia angeluarrak erabiltzen dituztenak.

Distantzia euklidearrak erabiltzeko TTS sare neuronal hizlari-anitz bat entrenatu dugu hizlari-bektoreei tratamendu berezirik eman gabe. Distantzia angeluarrak erabiltzeko, ordea, entrenamendu fasean modulu normalizazioa aplikatzen zaie hizlari bektoreei denak hiperesfera batean kokatzeko. Hiperesfera batean dauden bektore guztien arteko diferentzia angelu bezala espresa daiteke. Erabili dugun TTS sistema Tacotron 2 izan da, Google-ek 2018an publikatu zuen sistema. Sistemak fonemetatik abiatuta audioaren mel-espektrograma sortzen du, ondoren beste sare neuronal bat erabiliz audio bihurtu daitekeena. Entrenatutako hizlari-bektoreak erabiliz, bi teknika erabili ditugu ahots anbiguoak lortzeko. Lehenengoan entrenamenduko gizonen eta emakumeen batezbesteko hizlari-bektorea kalkulatu dugu eta bi batezbestekoen erdibideko bektorea erabili dugu. Bigarrenean, entrenamenduko hizlari baten bektorea bi generoen batezbestekoen erdibidean dagoen eremura desplazatu dugu. Esperimentuetan mel-espektrograma audio seinale bihurtzeko Waveglow vocoderra erabili dugu.

Emaitzek erakutsi dute guk proposatutako metodoek genero-anbiguotasuna eta kalitate onargarria lortzen dutela. Metodo desberdinak konparatuz ikusi da entrenamenduko hizlarien hizlari-bektorea desplazatuz batezbesteko ahotsek baino kalitate eta anbiguotasun handiagoa lortzen dela, hauen artean distantzia angularrarekin emaitza onenak lortuz. Baina horretarako erreferentzia hizlariaren hizketa tonua beste generora hurbildu behar da. Hau da, tonu altuko gizona edo tonu baxuko emakume ahotsak erabili behar dira transformaziorako.

Ikerketa honek urrats garrantzitsua ematen du euskarazko laguntzaile birtual eta bozgorailu adimendun inklusiboagoak sortzeko, eta genero-anbiguoko ahotsak erabiltzeko aukera irekitzen du, genero-alborapenak gutxituz teknologia digitalen erabileran.

Artikuluaren fitxa:

  • Aldizkaria: Ekaia
  • Zenbakia: Ale berezia Adimen artifiziala
  • Artikuluaren izena: Genero aldetik anbiguoa den hizketaren sintesia euskaraz hizlari-bektore manipulazioaren bide.
  • Laburpena: Genero aldetik anbiguoa den ahotsa duten text-to-speech (TTS) sistemek gero eta interes handiagoa pizten dute; besteak beste, laguntzaile birtualetan eta bozgorailu adimendunetan genero-alborapenak eta estereotipoak saihesteko duten ahalmenagatik. Artikulu honetan, ahots-bihurketarako teknika berriak aplikatu dizkiegu ahots-bektoreei, sare neuronaletan oinarrituta dauden eta genero aldetik anbiguoak diren euskarazko TTS sistemak lortzeko. Hizlari-bektoreak hiztun anitzeko Tacotron 2-a entrenatuz lortu ditugu. Hizlari-bektoreen normalizazioa eta eskala-parametro bat erabiltzen duten eta erabiltzen ez duten sistemak konparatu ditugu, baita genero bakoitzeko batez besteko hizlari bektore eta ahots errealen hizlari bektoreen erabilera sistema horietan. Emaitzek frogatzen dute aurkeztutako metodoak baliozkoak direla genero aldetik anbiguoak diren ahotsak lortzeko eta kalitate onargarria dutela baina hobetu daitezkeela.
  • Egileak: Xabier Sarasola, Ander Corral, Igor Leturia eta Iñigo Morcillo
  • Argitaletxea: EHUko argitalpen zerbitzua
  • ISSN: 0214-9001
  • eISSN: 2444-3255
  • Orrialdeak: 113-124
  • DOI: 10.1387/ekaia.26334

Egileez:

Xabier Sarasola, Ander Corral, Igor Leturia eta Iñigo Morcillo Orai NLP Teknologiak ikerketa-zentroko ikertzaileak dira.


Ekaia aldizkariarekin lankidetzan egindako atala.

Utzi erantzuna

Zure e-posta helbidea ez da argitaratuko.Beharrezko eremuak * markatuta daude.