Destilazioak nola murrizten duen AA ereduen tamaina eta kostua
Oinarrizko teknika horri esker, ikertzaileek eredu «irakasle» handi eta garesti bat erabil dezakete eredu «ikasle» bat merkeago entrenatzeko.
DeepSeek adimen artifizialaren arloko enpresa txinatarrak pasa den urtearen hasieran R1 izeneko txatbot bat kaleratu zuen, eta atentzio nabarmena bereganatu zuen. Atentzio horren zati handi baten oinarria hau izan zen: enpresa txiki eta ezezagun horrek baieztatu zuen sortu zuen txatbota munduko AAren arloko enpresa ezagunenen txatbotekin lehiatu ahal zela, kalkuluaren potentziaren eta kostuaren zati bat erabilita. Horren ondorioz, mendebaleko enpresa teknologiko askoren akzioek behea jo zuten. Nvidiak, AA eredu nagusiek funtzionatzeko txipak saltzen dituen enpresak, egun bakar batean historian beste edozein enpresak galdutakoa baino burtsako balio gehiago galdu zuen.

Atentzio horri lotuta, salaketaren bat ere jaso zuten. Iturri batzuek alegatu zutenez, DeepSeek enpresak baimenik gabe eskuratu zituen OpenAI-ko o1 ereduaren ezagutzak, destilazio izenez ezagutzen den teknikaren bidez. Komunikabideen zati handi batek aukera hori AAren industriarentzako kolpe handia izan zitekeela baieztatu zuen; izan ere, iradoki zuten DeepSeek enpresak adimen artifiziala modu eraginkorrago batean eratzeko modua deskubritu zuela.
Destilazioa —fenomenoa ezagutzaren destilazioa izenez ere ezaguna da— AAn askotan erabiltzen den tresna bat da, informatikaren arloan duela hamar urte ikertzen den gaia da eta teknologiaren arloko enpresa nagusiek beren ereduetan erabiltzen dute. Enric Boix-Adsera ikertzailearen hitzetan, «destilazioa da gaur egun ereduak eraginkorragoak izateko eskura duten tresna garrantzitsuenetariko bat». Boix-Adsera destilazioaren arloko ikertzaile aditua da Pensilvaniako Wharton School unibertsitatean.
Jakintza iluna
Destilazioaren ideia Googleko hiru ikertzailek 2015ean egin zuten artikulu batean sortu zen. Ikertzaile horien artean Geoffrey Hinton zegoen, AAren aitabitxia eta 2024an Nobel sariduna. Garai hartan, ikertzaileek ereduen multzoak egikaritzen zituzten —«horietako asko bata bestearen ondoan» azaldu du Oriol Vinyals adituak, Google DeepMind-eko ikertzailea eta artikuluaren egileetako bat—, errendimendua hobetzeko. «Oso neketsua eta garestia zen eredu guztiak modu paraleloan egikaritzea», adierazi du Vinyalsek. «Hori guztia eredu bakar batean destilatzeak jakingura eragiten zigun».
Ikertzaileek pentsatu zuten aurrera egiteko aukera egokia izan zitekeela ikaskuntza automatikoko algoritmoen ahulgune nabarmenetako bat lantzea; izan ere, erantzun oker guztiak berdin-berdin jotzen zituen txartzat, zein neurriraino okerrak ziren alde batera utzita. Irudiak sailkatzeko eredu batean, adibidez, penalizazio bera jasotzen zuen «txakur bat eta azeri bat nahasteak zein txakur bat eta pizza bat nahasteak» azaldu du Vinyalsek. Susmoa zuten ereduen multzoetan bazegoela akatsen larritasun mailari buruzko informazioa. Beharbada eredu «ikasle» txikiago batek eredu «irakasle» handiago baten informazioa erabil zezakeen irudiak zein kategoriatan sailkatu behar zituen jakiteko. Hintonek ideia horri «jakintza iluna» izena jarri zion, kosmologiaren arloko materia ilunaren analogia egiteko.
Hintonekin aukera hori eztabaidatu ostean, Vinyalsek eredu irakasleak eredu ikasle txikiago bati irudien kategoriari buruzko informazioa transmititzeko modua asmatzea lortu zuen. Gakoa zen eredu irakaslearen «helburu malguak» (soft targets) ardatz izatea; hots, aukera bakoitzari esleitutako probabilitateak kontuan hartzea, erantzun kategoriko itxien ordez. Adibidez, kalkulatu zuen irudi batek txakur bat erakusteko % 30eko probabilitatea zegoela, katu bat erakusteko % 20ko probabilitatea, behi bat erakusteko % 5ekoa eta auto bat erakusteko % 0,5ekoa. Probabilitate horiek erabiliz, irakasleak eraginkortasunez ikasleari erakusten zion txakurrak eta katuak oso antzekoak direla, behietatik ez oso desberdinak eta autoetatik oso desberdinak. Ikertzaileek deskubritu zuten informazio horrek ikasleari lagundu egiten ziola txakurren, katuen, behien eta autoen irudiak modu eraginkorragoan identifikatzeko. Eredu handi eta konplexu bat eredu arinagoa bihur zitekeen, ia zehaztasunik galdu gabe.
Hazkunde harrigarria
Ideiak ez zuen bat-bateko arrakasta izan. Artikulua jardunaldi batean atzera bota zuten, eta horrek Vinyals adoregabetu zuenez, beste gai batzuei ekin zien. Hala ere, destilazioa une gako batean iritsi zen. Garai hartan, ingeniariak deskubritzen ari ziren zenbat eta entrenatzeko datu gehiago sartu sare neuronaletan, orduan eta eraginkorragoak zirela. Laster, ereduen tamaina eta gaitasunak izugarri areagotu ziren, baina, aldi berean, egikaritze kostuak hazi egin ziren.
Ikertzaile askok destilaziora jo zuten, eredu txikiagoak sortzeko metodo gisa. 2018an, adibidez, Googleko ikertzaileek BERT izeneko lengoaia eredu bat aurkeztu zuten, eta enpresa laster hasi zen eredu hori erabiltzen mila milioika web bilaketa prozesatzen laguntzeko. Edonola ere, BERT handia eta garestia zen, eta, hortaz, hurrengo urtean beste garatzaile batzuek bertsio txikiago bat destilatu zuten (DistilBERT izenekoa) eta enpresan arloan eta arlo akademikoan ezagun bihurtu zen. Destilazioa hedatzen hasi zen, eta gaur egun zerbitzu gisa eskaintzen dute besteak beste enpresa hauetan: Google, OpenAI eta Amazon. Destilazioari buruzko jatorrizko artikulua eskuragarri dago soilik preprints arxiv.org zerbitzarian, eta dagoeneko 25.000 aldiz baino gehiagotan aipatu dute.
Destilaziorako beharrezkoa da eredu irakaslearen barruko funtzionamendurako sarbidea izatea; hortaz, ezinezkoa da hirugarren batek ezkutuan eredu itxi baten (o1 edo OpenAI, esaterako) datuak destilatzea, hasiera batean DeepSeekekin pentsatu zen bezala. Horiek horrela, eredu ikasle batek asko ikas dezake eredu irakasle batengatik, soilik galdera jakin batzuk eginez eta erantzunak bere berezko ereduak entrenatzeko erabiliz; edo, bestela esanda, destilazioaren ikuspegi ia sokratikoa erabiliz.
Bitartean, beste ikertzaile batzuek aplikazio berriak aurkitzen jarraitu dute. Pasa den urtarrilean NovaSky laborategiak (Kaliforniako Unibertsitatea, Berkeley) erakutsi zuen destilazioak ondo funtzionatzen duela arrazoiketako kate ereduak entrenatzeko (chain-of-thought), zenbait urratseko «pentsamendua» baliatzen baitute erantzun konplexuei hobeto erantzuteko. Laborategiak baieztatu zuen Sky-T1 kode irekiko ereduaren entrenamendurako 450 $ baino gutxiago behar izan zituztela, eta kode irekiko eredu askoz handiago baten antzeko emaitzak lortu zituzten. «Destilazioak testuinguru horretan ondo funtzionatzen duela ikusteak harritu gintuen», baieztatu du Dacheng Li Berkeley-ko doktoregai eta NovaSky taldeko zuzendarikideak. «Destilazioa oinarrizko teknika da AAren arloan».
Jatorrizko artikulua:
. (2025). How Distillation Makes AI Models Smaller and Cheaper, Quanta Magazine, 2025ko uztailaren 18a. Quanta Magazine aldizkariaren baimenarekin berrinprimatua.