Amazonek badaki

#KZJaia · Dibulgazioa

Gorka Azkune

online-shopping_0

Gaur egun Internet bidez erostea oso gauza arrunta bilakatu da. Ziur irakurtzen ari zaretenon artean gehienok duzuela kontu bat Amazonen, Fnac-en ala bestelako dendaren batean. Ohartu bazarete, denda horiek ez dira erosketak kudeatzera mugatzen. Diru gehiago ateratzeko asmotan, denda horiek produktu berriak aholkatzeko gai dira, modu pertsonalizatu eta automatiko batean. Adibidez, liburuak erosteko ohitura izanez gero, askotan aholkatzen dizkigute gure gustoko izan daitezkeen liburuak. Eta gehienetan asmatu egiten dute gainera!

Aholku zerbitzu horiek guztiz automatikoak dira. Amazon bezalako denda batek izan ditzakeen bezero guztientzat ezinezkoa litzateke bestela aholkularitza pertsonalizatu bat ematea. Atera kontuak zenbat jende izan beharko luketen lanean! Beraz, galdera nahiko garbi dago: nola dakite Amazonen ze liburu gustatzen zaidan?

Erregresio lineala

Demagun auto bat erosteko ideiarekin gabiltzala. Merkatuko prezioak begiratu ondoren, datu batzuk bildu ditugu. Zehazki, motorraren potentziaren arabera prezioen bilakaera erakusten duten datu batzuk ditugu. Jar ditzagun grafika batean txukun-txukun:

bildutako_datuak

Potentzia zaldietan jarri dugun bitartean, prezioa eurotan adierazi dugu. Datu horiek esku artean izanda eta kontuan hartuta guk 110 zaldiko auto bat erosi nahiko genukela, bere prezioa gutxi-gorabehera estima dezakegu. Horrela, kontzesionariora joan aurretik ideia bat izan dezakegu. Ziurrenik prezio hori estimatzeko gehienok hurrengo grafikan ikusten dena egingo genuke:

gure_ustea

Hots, puntu beltza jarri dugun inguruan pentsatuko genuke dagoela 110 zaldiko auto baten prezioa. Grafikan ageri den bezala, 14.500 euro inguruko prezioa izango genuke. Egin berri duguna, gehiegi pentsatu gabe egin arren, erregresio lineal bat da. Konturatu gabe, potentziaren eta prezioaren artean erlazio lineal bat dagoela ondorioztatu dugu datuak ikusita, eta gainera zuzen horren itxura ere estimatu dugu buruz.

Buruz eta naturaltasun osoz egin dugunaren emaitza, hurrengo grafikan bistaratu dugu, zuzen gorri bat marraztuz datuen gainean:

datuen_erregresioa

Zuk ez al duzu itxura horretako zuzen bat irudikatu autoaren prezioa estimatzerakoan? Hauxe da bada erregresio lineala. Izen potoloa gauza sinple batentzako, ezta? Matematikoki, erregresio linealaren helburua datuekiko errorea minimizatzen duen zuzena topatzea da. Gogoan izan zuzenaren ekuazioa, gure kasura aplikatuta,

prezioa = A x potentzia + B

dela, non A eta B zuzena definitzen duten bi parametroak diren. Erregresio linealak A eta B-ren balio optimoak bilatzen ditu, datuekiko errorea minimizatzeko. Besterik gabe.

Eta orain liburuekin

Ikasi berri dugunak asko lagunduko digu aholku sistemek nola funtzionatzen duten jakiteko. Demagun Andoni izeneko erabiltzaile batek lau liburu erosi, irakurri eta baloratu dituela. Liburu bakoitza, bere edukien arabera, hiru ezaugarriren arabera sailkatzen da: akzioa, erromantzea eta drama. Liburu bakoitzeko, ezaugarri bakoitzetik zenbat daukan gordetzen du sistemak. Suposatuz Andonik irakurri dituen lau liburu horietaz gain dendak beste bi liburu ere badituela, nola jakin lezake zein aholkatu?

Planteatu berri dugun arazoa hurrengo taulan laburbiltzen da:

Taula

Har dezagun adibide gisa Amodiozko itsasoan liburua. Eskuineko hiru zutabeei so eginez gero, argi dago erromantzea nagusitzen den liburu bat dela. Drama pixka bat ere topatuko dugu, baina akziorik bat ere ez.

Bestalde, ikus daitekeenez, Andonik irakurri dituen lau liburuetatik, Hiltzaile fina eta Gerra bateko kronikak gustatu zaizkio gehien. Baina Amodiozko itsasoan ez zaio batere gustatu. Triste bizi naiz eta liburua berriz, erdi-bidean geratu da. Beraz, datu horiek eskuetan izanik, ze eritzi izango ote du Andonik beste bi liburuekiko?

Arazo honek autoaren arazoaren antz handia du. Arazo hartan, potentzia eta prezioa erlazionatzen zituen datu batzuk genituen eta datu horietatik, erregresio lineala erabiliz, eredu bat ikasi dugu. Kasu hartan, eredua zuzen bat besterik ez zen. Zuzen haren ekuazioa ikasitakoan, edozein potentziatako autoren prezioa estima genezake.

Liburuen kasuan ere eszenatoki berean gaude. Oraingoan akzio, erromantze eta drama proportzioa, Andoniren balorazioekin erlazionatzen dituzten datuak ditugu. Autoen kasuan potentzia bakarrik genuen lekuan, liburuen kasuan hiru ezaugarri ditugu. Eta noski, horrek arazoa bistaratzeko gaitasuna lausotzen du. Liburuen kasuan grafika bat marraztea ezinezkoa zaigu, 4 dimentsiotakoa izan behar bailuke.

Hala eta guztiz ere, 4 dimentsiotako espazio horretan bada gainazal bat autoen kasuan zuzenak betetzen zuen papera betetzen duena. Oraingoan gure ekuazioa

Balorazioa = A x Akzioa + B x Erromantzea + C x Drama + D

da eta sistemak A, B, C eta D parametroak ikasi behar ditu dauzkan datuak erabilita.

Parametro horiek ikasi ondoren, sistema jada gai da baloraziorik ez duten liburuen balorazioa estimatzeko. Horrela, balizko balorazio horiek erabilita, erabaki dezake zein liburu aholkatu behar dion Andoniri. Ziuraski, denok jakingo duzue honezkero, Itsas pirata ausartak liburua dela Andoniri aholkatuko diotena.

Bukatzeko

Artikulu honetan ez dugu azaldu parametroak nola ikasten diren. Egia esanda, ikasketa prozesua ez da oso zaila. Deribatuak ulertuz gero, aise uler daiteke parametroak nola ikasten diren. Baina hori, agian, beste baterako utziko dugu.

Hemen ikusi dugun kasua oso sinplea izan da. Orokorrean, liburu bat sailkatzeko askoz ezaugarri gehiago daude eta beraien erlazioa balorazioekin ez da beti lineala izango. Hala ere, gaur ikasi dugun teknika, hots erregresio lineala, mota honetako aholku sistemen oinarria da. Oso ideia sinple bati atera dakiokeen etekinaren adibide egokia da erregresio lineala. Eta bestela, galdetu Amazoni!

Erreferentziak

Pazzani, M. J., & Billsus, D. (2007). Content-based recommendation systems. In The adaptive web (pp. 325-341). Springer Berlin Heidelberg.

Adomavicius, G., & Tuzhilin, A. (2005). Toward the next generation of recommender systems: A survey of the state-of-the-art and possible extensions. Knowledge and Data Engineering, IEEE Transactions on, 17(6), 734-749.


Egileaz: Gorka Azkune (@gazkune), informatikaria, eta DeustoTech-eko ikertzailea da.


Sarrera honek #KulturaZientifikoa 1. Jaialdian parte hartzen du.

1 iruzkina

Utzi erantzuna

Zure e-posta helbidea ez da argitaratuko.Beharrezko eremuak * markatuta daude.