Datu-meatzaritza

datu-masa handi batetik ezkutuko patroiak, korrelazioak eta informazio berriak erauzteko prozesua

Datu-meatzaritza (inglesez data mining) estatistikaren [1](datu-analisiaren) eta konputazio-zientzien esparru bat da, datu-multzo erraldoietan ereduak aurkitzea helburu duena; informazioaren erauzte-prozesu horretan adimen artifizialeko, estatistikako eta ikasketa automatikoko metodoak erabiltzen dira[2]. KDD (knowledge discovery in databases) izenez ezagutzen den prozesuaren zati bat besterik ez da. Izan ere, KDD prozesuak datu-meatzaritza aplikatu aurretik datuak biltzea, aukeratzea, garbitzea eta eraldatzea eskatu ohi du. Ondoren emaitzak ebaluatu, interpretatu eta azken erabakiak hartu behar izaten dira.

Bideo hau Ikusgela proiektuaren parte da.
Bideo hau Ikusgela proiektuaren parte da. Bideoak dituzten artikulu guztiak ikus ditzakezu hemen klik eginez gero.
Big data: zer diote zenbakiek gutaz?

Datu-multzo erraldoi horietan ezezagunak diren ereduak aurkitzearen ataza modu automatikoan edo erdi-automatikoan egiten da. Mota desberdineko ereduak izan ohi dira: datuen multzokatzea (clustering analisia), ohikoak ez diren instantzien (kasuen) detekzioa (Elementu atipikoen detekzioa), mendekotasunak aurkitzea etab. Aurkitutako eredu horiek sarrerako datu-multzo erraldoien interpretazio bat eskaintzen dute eta gerora aplika daitezkeen analisi gehigarrietan (ikasketa automatikoa) lagungarri izan daitezke.[3][4]

Data

Ezagutza aurkitzeko prozesuaren urratsak

aldatu

Datu-meatzaritza datu-multzo handietan ezagutza aurkitzeko prozesuaren (KDD-ren) zati bat da. Prozesu osoaren urratsak honakoak dira:

  1. Datu-multzoa aukeratzea: datu-multzoa osatzen duten kasuei (instantziei) buruzko informazioa bildu behar da, aldagaiak (aldagai iragarleak eta klase-aldagaiak) kontuan izanik.
  2. Datuen ezaugarrien analisia egitea: Histogramen analisia, sakabanatze-diagramen azterketa, ez-ohikoak diren balioen detekzioa edota falta diren datuen tratamendua egitea bereziki garrantzitsua izaten da.
  3. Datu-multzoa eraldatzea: Mota askotarikoa izan daiteke, problema bakoitzaren arabera erabaki beharrekoa izaten da datuei ondoen doakien eraldaketa egiteko. Urrats honen helburua datuak ahalik eta ondoen prestatzea da, ondoren datu-meatzaritzako teknikak aplikatzeko prest egon daitezen. Hori dela eta, urrats honi aurre-prozesaketa ere esan ohi zaio.
  4. Datu-meatzaritza aplikatzea. Ezagutza erauztea. Aukeratzen den datu-meatzaritza teknikaren araberakoa izango da eraikiko den ezagutza-eredua.
  5. Interpretazioa eta ebaluazioa egitea: Datu-multzotik erauzi den ezagutza-eredua ebaluatu behar da, baliagarria eta sinesgarria dela egiaztatzeko. Teknika desberdinak erabili izanagatik eredu desberdinak lortu badira, haien arteko konparaketa egitea komeni da, egokiena aukeratzeko. Datu-multzoaren ezagutza-arloan aditua den norbaiten laguntza beharrezkoa izan daiteke azken urrats honetan.

Ereduak ebaluazioaren azken urratsa gaindituko ez balu, prozesu osoa hasieratik edo tarteko urratsen batetik aurrera errepika liteke.

Datu-meatzaritzako teknikak aplikatzen hasi ziren lehen urte haietan, egitura jakin bat zuten datu-baseetan gordeta egoten ziren datuek; enpresa ugari izan dira munduan zehar halako datu-baseak sortu eta elikatu izan dituztenak. Egun ordea, gero eta arruntagoa da datu-meatzaritzako teknikak egiturarik gabeko datu-multzoei aplikatzea, hots: testu-fitxategi, interneteko web-orri (web-meatzaritza), etab.

Datu meatzaritzako teknikak

aldatu

Datu-multzoko datuekin egin nahi den analisiaren arabera, sailkapen gainbegiratua (a priori datu-baseko kasuen klasea ezaguna da) edo sailkapen gainbegiratu-gabea (a priori datu baseko kasuen klasea ez da ezaguna) bereiz daitezke. Hona hemen sailkapen gainbegiraturako teknika adierazgarrienetariko batzuk:

  • k-NN (K-Nearest Neighbour): Distantzian oinarritutako sailkatzailea da. Kasu berri bat sailkatzerakoan bere hurbileneko k auzokideen klaseen artean sarrien agertzen den klasea egokituko zaio. Inplementazioa erraza da.
  • Sailkatzaile Bayestarrak: Estatistika klasikoko probabilitate-teorian oinarritutako sailkatzaileen familia bat da. Kasu berriarentzat egindako iragarpenari probabilitate bat egokitzen zaio. Konputazionalki oso garestiak izan daitezkeenez, ereduari sinplifikazioak egin ohi zaizkio aldagai iragarleak haien artean independente direla suposatuz.
  • Erregresio lineala: Oinarria estatistika klasikoan duen sailkatzailea da.
  • Sailkatze-zuhaitzak: Zuhaitz-egitura duen sailkatze-ereduak sortzeko teknikak dira. Zuhaitza adierazten duen diagramak erpinak (aldagai iragarleak), ertzak (aldagaien balio desberdinetarako zabalduko direnak) eta hostoak (klase-aldagairako balioak) ditu. Erabaki-zuhaitzak eraikitzeko algoritmo ezagunenak ID3 eta C4.5 dira.
  • Neurona-sare artifizialak: Animalien nerbio-sistemaren simulazio moduan sortutako sailkatze-eredu konputazionalak dira. Elkarri konektatutako neuronen sare batez osaturik daude. Adibide ezagunak: perceptron, Multilaye perceptron, Self-organizing_map, etab. Gaur egun, neurona-sare artifizial sakonak oso emaitza onak ematen ari dira (ikaskuntza sakona).

Sailkapen gainbegiratu gaberako teknika ezagunenak hauek dira:

  • Datuen multzokatzea (Clustering): Datuak multzoetan banatzea helburu duten teknikak dira. Normalean distantzian oinarritutako irizpideak erabiltzen dira multzoak aurkitzeko. Algoritmo ezagunenak: K-means_clustering eta clustering hierarkikoa dira.

Software-tresnak

aldatu

Datu meatzaritzako ereduak sortzeko software ugari existitzen dira, libre zein komertzialak. Hemen adibide batzuk:

Erreferentziak eta oharrak

aldatu
  1. I. Jordan, Michael. Statistics and Machine learning. (Noiz kontsultatua: 2014-09-10).
  2. Data mining and knowledge discovery handbook. (2nd ed. argitaraldia) Springer 2010 ISBN 9780387098234..
  3. 1951-, Mitchell, Tom M. (Tom Michael),. (1997). Machine Learning. McGraw-Hill ISBN 0070428077..
  4. Ethem., Alpaydin,. (2010). Introduction to machine learning. (2nd ed. argitaraldia) MIT Press ISBN 9780262012430..

Kanpo estekak

aldatu