Adimen artifizialak kolaboratzen ikasi du; momentuz, jokoetan

Juanma Gallego

Deep Mindek hiru dimentsioko bideo-joko batean trebatu du haren adimen artifiziala, eta gizakiak baino askoz hobeto moldatu dela ikusi dute. Ez da konputazio ahalmen hutsa: joko horretan aurrera egiteko ezinbestekoa da besteekin elkarlanean aritzea.

1. irudia: Orain arte xake eta go jokoetan garaile atera da adimen artifiziala, baina oraingoan elkarlanaren beharra duen bideo-joko partida batean eskuratu du garaipena. (Argazkia: Sean Do / Unsplash)

Bigarren partidaren 37. mugimenduan, ordenagailuak zentzurik gabeko mugimendua egin du. Komentaristak zur eta lur geratu dira. “Hori oso arraroa da”, esan du batek. Barre bakar batzuk ere entzun dira aretoan. “Hau akats bat da”, besteak. Go partidan ordenagailuaren aurkaria den Lee Sedol aretotik atera da, eta itzuli denean, jarri duen aurpegia ere ikustekoa da. AlphaGo programak aukeratu du bosgarren lerroan fitxa bat jartzea, baina milaka urtetan zehar gizateriak bildutako esperientziak dio horrek ez duela zentzurik, hasierako mugimenduetan bederen. Hirugarren lerroan, bai; laugarrenean, ere. Hirugarrenak epe motzera “lurraldea” eskuratzeko aukerak biderkatzen ditu; eta laugarrenak, berriz, erdialdearen gaineko eragina izateko estrategian laguntzen du. Hori diote, bederen, go jokoan aditu direnek.

2016ko martxoan izan zen Google AlphaGo eta orduko munduko txapeldun Lee Sedol hegokorearraren aurkako partida hori. Garaile atera zen adimen artifiziala, eta, hein handi batean, adituen buruan sartzen ez zen mugimendu horri esker izan zen garaipena. Iraultza txikia egon zen adimen artifizialaren munduan, eta bereziki, go zaletuen artean.

Makina gizakiaren aurka aritzea ez zen kontu berria, xake-jokoan ordenagailuek aspaldi gainditu zituztelako gizakiak. Baina Go jokoa oso bestelakoa da. Kasu honetan, ezinezkoa da “indar konputazional” hutsa erabiltzea aukeran dauden mugimendurik hoberenak aurreikusteko. Go jokoan aukeran dauden posizioak izugarri handiak direlako. Horregatik, AlphaGo sistemaren arrakastaz hitz egitean, horren sortzaileek “intuizioa” edota “kreatibitatea” bezalako hitzak erabili dituzte. Horrelako planteamenduek, noski, eztabaida asko eragin dute mundu akademikoan, kontzeptu horiek, momentuz, gizakiei mugatuta daudelako, eta gizakien artean ere horiek zer diren edo horiek kuantifikatzea ez delako batere erraza.

Eztabaida hori bere horretan dagoela, go jokoan trebatutako adimen artifiziala garatu duen DeepMind enpresako ikertzaileek beste kontzeptu bat atera dute plazara: “kolaborazioa”. Science aldizkarian aurkeztu duten proposamenaren arabera kolaborazioan oinarritzen den bideo-joko batean ere gizakiei aurrea hartu die adimen artifizialak.

Elkarlanaren beharra

Quake III Arena Capture the Flag jokoan trebatu da ordenagailua, “harrapa ezazu bandera” motako jokoa, hain zuzen. Hiru dimentsioko bideo-jokoa da. Erabili duten joko nagusiaren aldaeran, bi talde bata bestearen kontra aritu behar dira arerioaren base batean banderak eskuratzeko eta haien basea babesteko. Dena dela, helburua lortzeko bi talde horiek elkarlana behar dute. Ikertzaileen esanetan, adimen artifizialak maila altuko partidak egin ditu, gizakiak egiten dituen partiden parekoak, baina harago joan da kontua: gizakiekin batera egindako partidetan garaile atera dira makinak. 40 jokalari trebatuen aurkako partidetan, algoritmoak partiden %21 baino ez du galdu, kontuan izanda, gainera, ikertzaileek erabakiak hartzeko algoritmoaren abiadura moteldu zutela, gizakien erritmora eta erreflexuetara egokitu aldera. Bai gizakiekin zein beste algoritmoekin ondo moldatu da adimen artifiziala, partida horietan jokalariak modu aleatorioan banandu direlako, makina edo gizaki ziren kontuan hartu gabe.

2. irudia: Quake III Arena Capture the Flag izeneko jokoan trebatu dute adimen artifiziala, eta ederki moldatu dela ikusi dute, zerotik hasita. (Irudia: Deep Mind)

Ikerketaren egileen arabera, emaitzek adierazten dute adimen artifiziala gai dela kooperazio-estrategia garatuak abiatzeko. Gizakiek garatu ohi dituzten estrategia berdinak garatu ditu algoritmoak. Talde lana egin beharra dago jokoan aurrera egiteko, eta noiz eraso eta noiz babestu ondo jakin behar da ere. Adibidez, arerioaren basetik gertu itxarotea, bandera berriak ateratzeko zain edota norberaren basean geratzea, hura defendatzeko.

For The Win izena eman diote erabilitako algoritmoari, eta ausaz sortutako milaka partidatan egin du ikasketa: bere buruaren kontra 450.000 partidetan jokatuz trebatu da algoritmoa. Orotara, adimen artifizialean oinarritutako 30 agente sortu dituzte, haien artean lankidetzan edota lehian aritzeko.

Aurreko saiakeretan adimen artifizialari jokoaren arauak edota hainbat argibide eman dizkiete, baina hau ez da izan oraingoan egin dutena. Aitzitik, adimen artifizialaren esku utzi dute pantailan gertatzen denaren inguruan ikasketa bere kabuz egitea, egindako esku-hartze bakoitzaren ondoren lortutako puntuazioaren arabera. Zentzu horretan, psikologia konduktistaren alorrean izaten den irakaspen prozesu berdina izan da: zerbait ondo egitean sari bat irabazten da, eta egoera horrek egindakoa errepikatzeko aukerak biderkatzen ditu, saio eta hutsegite bidez. Ikasketa automatikoaren alorrean, errefortzu bidezko ikasketa sakona deitzen diote ikaskuntza mota honi.

DeepMind enpresaren blogean ere azaldu dute, luze eta zabal, joko horretan makinak aurrera egin dezan erabili duten estrategia. Esanguratsua da blogean egindako sarrerari eman dioten titulua: “Agente kooperatibo konplexuen gorakada”. Bertan azaldu dute testuingurua. Agente anitzen ikasketan oinarritzen da adimen kolektiboa: bakoitzak bere kabuz ikasi arren, hainbat lagunen artean elkarlanean aritzeko gaitasuna dute gizakiek, eta orain makinak gaitasun horretan trebatzen saiatu dira ikertzaileak. Makinak trebatu baino, bidea eman diete haien kabuz trebatu daitezen. “Gure agenteei jarri diegun erronka izan da ikas dezaten zuzenean pixel hutsetatik ekintzak sortzen”, azaldu dute.

Gauzak zaildu dizkiete algoritmoei. Partida batetik bestera jokoaren mapa aldatzen duen aldaera erabili dute. Modu horretan sustatu nahi izan dute agente horiek estrategia orokorrak ikas ditzaten, joko zelaia oroimenean gorde beharrean. Hala eta guztiz ere, ederki moldatu dira eta, lehenago azaldu dugun moduan, kolaborazioan aritu dira. “Parte-hartzaileen artean egindako inkesta batean, agenteak gizakiak baino elkarlan handiagoa egin dutela ikusi da”.

Agenteek partida bakoitza nola adierazten duten ulertu aldera, algoritmoen sare neuronalen mapetan azaltzen diren aktibazio patroiei erreparatu diete. Modu horretan, joko egoera bakoitzaren arabera kolore jarri duen aurpegiadesberdina erakusten dute patroiek. –Aipatu ez badute ere, neurologoek antzeko estrategia erabiltzen duten giza burmuinean gertatzen diren prozesuak ulertu nahi dutenean–. “Agenteei inoiz ez zaie ezer adierazi joko-arauei buruz, baina jokoaren funtsezko kontzeptuen inguruan ikasi dute, eta Capture The Flag jokorako intuizioa garatu dute”. Intuizioa. Ez da hitz xumea, makina bati aplikatuta. Zirraragarriena da agian arrazoia izan dezaketela.

Erreferentzia bibliografikoa:

Max Jaderberg et al., (2019). Human-level performance in 3D multiplayer games with population-based reinforcement learning. Science, 364(6443), 859-865. DOI: 10.1126/science.aau6249.

———————————————————————————-

Egileaz: Juanma Gallego (@juanmagallego) zientzia kazetaria da.

———————————————————————————-

Eman iritzia

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>