Descargue como PDF, TXT o lea en línea desde Scribd
Descargar como pdf o txt
Está en la página 1de 10
Herramientas de Minera de Datos
Alejandro Sosa Loera
Existen algunas herramientas de minera de datos comerciales o de cdigo abierto que utilizan distintas tcnicas de minera de datos, estas herramientas las podemos clasificar de acuerdo a las tareas de minera a la que estn enfocadas o algoritmos que usan, en tres grupos: libreras, suites y herramientas especficas. Libreras. Comprenden un conjunto de mtodos que implementan las funcionalidades y utilidades bsicas propias de la minera de datos: acceso a datos, inferencia de modelos, exportacin y comprobacin de resultados. Las libreras constituyen una interfaz para el desarrollador, por lo que para su manejo se requiere de conocimientos de programacin. La siguiente tabla muestra algunas de estas libreras: Herramienta Descripcin Plataforma Formatos Entrada y Modelos de Salida Modelos de Aprendizaje / Tareas Soportadas Xelopes Librera con licencia GNU, implementada por Prudsys AG Implementado en Java, C++ y C#, se garantiza su portabilidad a cualquier sistema operativo. Existe interfaz para Corba. Se asegura cualquier formato de entrada sea fichero o base de datos, incluye formato ARFF, CSV, logs, y Excel. Salida: Formato PMML. rboles de Decisin lineales y no lineales, Mquinas de vectores soporte, Redes neuronales, Mtodos de agrupamiento, mtodos de reglas de asociacin. Orange Software basado en componentes de minera de datos. Incluye rangos de preprocesamiento, modelado y tcnicas de exploracin de datos. Implementado en C++, se pueden desarrollar mdulos en Python. Existen distribuciones para Windows, Linux y Macintosh. Formato entrada/salida usa ficheros separados por tabulacin, incluye otros como C4.5 Mtodo Bayesiano Nave. rboles de decisin, rboles de regresin, Vecinos ms prximos y Reglas de asociacin. Tanagra Software libre de propsitos acadmicos y de investigacin. Soporta varios mtodos de minera de datos, la desventaja de Tanagra es que incluye tcnicas de visualizacin limitadas. Implementado en Borland Delphi 6 bajo Windows. Formato del fichero de entrada ARFF o XLS. Formatos de salida HTML. Reglas de Asociacin, rboles de clasificacin, vecino ms prximo, Bayesiano nave. Redes neuronales. MLC++ Conjunto de libreras y utilidades para testear y comparar la eficiencia de diversos algoritmos sobre un mismo problema. Distribuido por Silicon Graphics bajo dominio de investigacin. Acceso a datos con formato plano siguiendo el estilo de los archivos del repositorio UCI. ID3, rboles de decisin perezosos, rboles de decisin con opciones, mtodos bayesianos y el perceptron. Suites. Integra en un mismo entorno capacidades para el preprocesado de datos, ofrecen diversidad de mtodos incluyendo clasificacin, clustering, y preparacin de los datos, dan facilidad para el diseo de experimentos y soporte grafico para la visualizacin de resultados. A diferencia de las libreras su manejabilidad no se encuentra condicionada a que se posean conocimientos de programacin, ya que existe una interfaz por lo regular grafica que facilita la interaccin con la herramienta. La siguiente tabla muestra algunas suites: Herramienta Descripcin Plataforma Formatos Entrada y Modelos de Salida Modelos de Aprendizaje / Tareas Soportadas WEKA Herramienta visual GNU, desarrollada por la universidad de waikato. Implementada en Java, se garantiza su portabilidad a Windows, Linux y otros Sistemas Operativos. Es posible actualizar o modificar su cdigo Entrada: ARFF, CSV, C4.5 y Binario. Salida: Fichero o a una Base de Datos, tambin de manera grfica. rboles de Decisin, Tablas de Decisin, Vecinos ms prximos, Mquinas de vectores soporte, Reglas de asociacin, Mtodos de agrupamiento, Modelos combinados. SPSS Clementine Es uno de los sistemas de minera de datos mas popular, herramienta visual comercializada por SPSS, posee arquitectura cliente / servidor. Sistema multiplataforma, disponible para sistemas Windows, Sun Solaris, HP-UX AIX y OS/400. Acceso a Datos: ODBC, tablas Excel, archivos planos ASCII y archivos SPSS. Salida: Visualizacin grafica dde resultados (histogramas, diagramas de dispersin, etc.), informes HTML y texto, exportacin de los modelos a distintos lenguajes (C, SPSS, HTML, SQl) rboles de Decisin (C5.0 y C&RT), redes neuronales (redes de Kohoen, perceptron multicapa y RBF), agrupamiento(K medias), reglas de asociacin(GRI, A priori, etc.), regresin lineal y logstica, combinacin de modelos (boosting con C5.0) Kepler Sistema desarrollado por la GMD (German General Research Center for Information Technologie) y comercializado por Dialogis. Soporta mltiples modelos de anlisis y su diseo contempla aspectos como la flexibilidad y extensibilidad Interfaz grafica implementada en Java, disponible en plataformas Sun/Solaris y Windows. Acceso a Datos: ODBC, tablas Excel, archivos planos ASCII y archivos SPSS. Salida: Kepler puede exportar datos en formato ASCII, Facts (Anotacin de Prolog), meta informacin rboles de Decisin, redes neuronales, regresin no lineal, vecinos mas prximos, algoritmos multirelacionales, utilidades estadsticas. ODMS: Oracle Data Mining Suite (Darwing) Desarrollado por Thinking Machines como Darwing y adquirido y comercializado por Oracle. Diseado bajo arquitectura cliente/servidor, tiene gran versatilidad para el acceso a grandes volmenes de datos. El cliente est disponible para entornos Windows, mientras que el servidor puede ejecutarse sobre sistemas Windows, Sun Solaris y HP- UX 11.0 Acceso a datos: almacenes de datos, BD relacionales (oracle, SQL server, informix, sybase), archivos planos, conjunto datos SAS. Salida: Visualizacin grafica de modelos inferidos, estadsticos Redes neuronales para clasificacin y regresin, regresin lineal, rboles de decisin (CART), vecinos mas prximos, aprendizaje bayesiano, tcnicas de agrupamiento (kmedia y O- agrupamiento) DBMiner Sistema interactivo desarrollado inicialmente bajo licencia publica, la versin empresarial es comercializada por DBMiner Technology Inc. Sistema para extraer conocimiento de grandes bases de datos relacionales, almacenes de datos y web. Disponible para plataformas Windows Acceso a datos: almacenes de datos, BD relacionales. Salida: Visualizacin grafica de modelos inferidos, estadsticos Caracterizacin, clasificacin, agrupamiento, asociacin, discriminador, predictor RapidMiner (Yale) Es un software de tipo Open-Source con licencia GNU GPL, basado en JAVA. Se presenta bajo 3 versiones de descarga: Versin Open-Source : permite su libre uso en todas las formas de la licencia GNU GPL Versin Libre: posee una interfaz grfica mejorada, pero no bajo licencia GNU GPL Versin Comercial Trabaja bajo plataformas Windows y Linux Acceso a datos: almacenes de datos, BD relacionales. Salida: exportacin de resultados a PDF / Excel / HTML / RTF maquinas de vectores soporte, rboles de decisin, agrupamiento y algoritmos genticos. DB2 Intelligent Miner Herramienta comercial cliente/servidor desarrollada por IBM. Trabaja con grandes volmenes de datos. Posee un lenguaje de programacin. El cliente est disponible para entornos Windows y AIX, mientras que el servidor puede ejecutarse sobre sistemas Windows, Solaris, AIX, OS(390, 400) y z/OS Acceso a datos: DB2, archivos planos, BD relacionales. Salida: Visualizacin grafica de modelos inferidos, estadsticos Agrupamiento, asociaciones, patrones, clasificacin, prediccin, anlisis de series temporales SAS Enterprise Miner Herramienta desarrollada por SAS Institute, posee una arquitectura distribuida, con una potente interfaz grafica. Diseo inspirado en la metodologa SEMMA (Sample, Explore, Modify, Model and Assess) Tanto el cliente como el servidor de SAS Enterprise Miner trabajan bajo plataformas Windows, Linux, Solaris, HP-UX, Digital Unix, etc. Acceso a datos: formato de archivo propio de SAS, almacenes de datos, BD relacionales (Oracle, DB2, Sybase, etc.). Salida: visualizador de resultados, informes en HTML. rboles de Decisin (CHAID, C&RT, C4.5), regresin lineal y logstica, redes neuronales (MLP y RBF), construccin de modelos mltiples. Realiza tareas de evaluacin. Statistica Data Miner Sistema visual desarrollado por Statsoft Ltd. Trabaja con grandes volmenes de datos Sistema disponible en plataformas Windows Acceso a Datos: ODBC, tablas Excel, archivos planos ASCII, tablas DBase, lotus, BD Oracle, Microsoft SQL Server y Sybase. Salida: Visualizacin grafica dde resultados (histogramas, diagramas de dispersin, etc.) Reglas de asociacin, rboles de decisin (GTREES, CART), agrupamientos (K medias y EM), redes neuronales, utilidades estadsticas para la regresin de modelos lineales, no lineales, regresin multiple, etc. Herramientas Especficas A diferencia de la generalidad de las suites, este tipo de herramientas se caracterizan por centrarse en un determinado modelo (redes neuronales, rboles de decisin, modelos estadsticos, etc.) o en una determinada tarea de minera de datos (clasificacin, agrupamiento, etc.). No se requieren de tcnicas de programacin para poder ser utilizadas. Herramienta Descripcin Plataforma Formatos Entrada y Modelos de Salida Modelos de Aprendizaje / Tareas Soportadas CART Herramienta grafica desarrollada por Salford System. Tiene utilidades para anlisis estadstico y minera de datos orientada a tareas de clasificacin o regresin. Disponible en plataformas Windows, Linux, Unix (Solaris, IBM, AIX, Digital Unix, SGI Irix y HP-UX) Acceso a mas de 70 formatos de archivos diferentes, visualizacin interactiva del modelo, informacin estadstica relativa al modelo. Inferencia de rboles de decisin. AutoClass Herramienta que rene 3 distribuciones de este sistema (AutoClass III, AutoClass X y AutoClass C) desarrolladas bajo el auspicio de la NASA. Multiplataforma: Windows, Unix (Solaris, SunOS), Linux (Red Hat) Formato de archivo de entrada propio organizado en filas y columnas. Genera informes que describen las clases encontradas. Agrupamiento, utilizando mtodos bayesianos Neural Planner, NeuroDiet y Easy NN-Plus Desarrolladas por Stephen Wolstenholme. Herramientas para trabajar en modelos de aprendizaje Ejecutables en plataforma Windows Importacin de archivos txt, csv, xls, bmp o archivos binarios. Salida visual o exportacin del modelo a archivos de texto o csv. Redes Neuronales NeuroShell Conjunto de herramientas graficas independientes para trabajar con modelos de aprendizaje basados en redes neuronales Ejecutables en plataforma Windows Importacin de archivos ASCII, MetaStock, CSI, AIQ Redes Neuronales (TurboProp2, GRNN) SEE5 / C5.0 Herramienta centrada en la construccin de modelos de clasificacin basados en rboles de decisin y conjunto de reglas. Opera sobre grandes volmenes de datos. Disponible en plataforma Windows, Solaris, Irix y Linux Trabaja con un formato predefinido (*.data), pero traduce fuentes de datos accesibles va ODBC a *.data. Exporta los modelos a cdigo en C. rboles de decisin Con lo anterior se pueden clasificar las herramientas de minera de datos por plataforma, datos de entrada y modelo de salida, tipo de algoritmo que utiliza, etc. Clasificacin por Plataforma: Windows Linux OS2 SUN Solaris HP-UX AIX Digital Unix OS/400 Xelopes X X X Orange X X X Tanagra X MLC++ WEKA X X X SPSS Clementine X X X X X X X Kepler X X ODMS: Oracle Data Mining Suite (Darwing) X X X DBMiner X RapidMiner (Yale) X X DB2 Intelligent Miner X X SAS Enterprise Miner X X X X X Statistica Data Miner X CART X X X X X AutoClass X X X Neural Planner, NeuroDiet y Easy NN-Plus X NeuroShell X SEE5 / C5.0 X X X L i b r e r i a s S u i t e s H e r r a m i e n t a s E s p e c i f i c a s Plataformas Herramienta Clasificacin por Entrada de Datos y Salida del Modelo Ar. Plano o Texto Excel Almac. Datos C4.5 ODBC SPSS BD Relacional ARFF Formato Propio Archivos Planos HTML BD/SQL Grafico Visual Xelopes X X X X Orange X X X Tanagra X X X MLC++ X WEKA X X X X X X SPSS Clementine X X X X X X X X Kepler X X X X X X X ODMS: Oracle Data Mining Suite (Darwing) X X X X DBMiner X X X X RapidMiner (Yale) X X X X X DB2 Intelligent Miner X X X X SAS Enterprise Miner X X X X Statistica Data Miner X X X X X CART X X AutoClass X X Neural Planner, NeuroDiet y Easy NN-Plus X X X X NeuroShell X X SEE5 / C5.0 X X X Entrada de Datos Salida L i b r e r i a s S u i t e s H e r r a m i e n t a s E s p e c i f i c a s Herramienta Dado el poco conocimiento actual que tengo de las herramientas para minera de datos descritos anteriormente, no me es posible clasificarlas por los algoritmos que usan, tipos de visualizacin, etc. Pero como complemento anexo clasificaciones realizadas por John F. Elder IV & Dean W. Abbott, Elder Research en la conferencia A Comparison of Leading Data Mining Tools. presentada en el Fourth International Conference on Knowledge Discovery & Data Mining, en 1998 en la ciudad de Nueva York. La siguiente clasificacin fue tomada de la pgina: St@tServ - Data Mining Software (http://www.statserv.com/datamsoft.html). Assoc Sequ. Pat. Seq. Time Bayes Net. NN- CL Tree- CL Bayes k-NN Lin- Disc MBR Assoc k- Means D- Clust NN- Clust G- Stats Reg nl- Reg Tests PCA Factor NN- Pred RBF Pred Fuzzy Time Series MBR Win32 UNIX Web Para. Scal. SQL Objects API Code Adaptative Methods Group ? X X X X X X X X X X X X X X X X X X X X X Angoss International Ltd. KnowledgeSEEKER X X X Angoss International Ltd. KnowledgeStudio X X X X X X X X X X X X X X Attar XpertRule Profiler AZMY Thinkware SuperQuery Office X X X Bissantz Kppers & Co. Delta Miner Bluecrest Consultancy NeuralParts X X X X Business Objects BusinessMiner X X ClopiNet ClopiNet X X X X X X X X X X Cognos 4Thought X Cognos Scenario X X X CSI, Inc. Advisor Toolkit X X X X X X X X X X X X X X X X X X X X X X Data Distilleries B.V. Data Surveyor Data Mining Technologies Nuggets DataMind DataCruncher X Datasage, Inc. Datasage Eudaptics Software GmbH Viscovery SOMine X X X X X X X X X GR-FX Pty Limited GR-FX Group 1 Model 1 X X HNC Software Inc. DataBase Mining Hycones Information Tech. AIRA X X HYPERparallel //Discovery X X X X X X X X X X X X X IBM Intelligent Miner X X X X X X X X X X X X X X X X X X X X X X Information Discovery Data Mining Suite Intellix A/S KnowMan X X X X X X X X X ISoft Alice / AC2 X X X X X X X X Magnify Inc. PATTERN Megaputer Intelligence PolyAnalyst X X X X X X X X X X X X MIT GmbH DataEngine X X X X Morgan Kaufmann Publishers Data-Miner Software Kit NCR Corporation KDW / MDT NeoVista Solutions, Inc. NeoVista Decision Series X X X Neuralware Inc. NeuralWorks Predict X X X NeuroDimension, Inc. NeuroSolutions X X X X X X X X X X Neurotec Custominer X X X X OPIN Systems, Inc. Reveal Oracle Darwin X X X X X X X X X X X X X X Partek Inc Partek X X X X X X X X X (+MD X X X Pilot Software Pilot DSS Quadstone Limited Decisionhouse X X X X X X X X Red Brick Systems, Inc. Red Brick Data Mine X X X X Salford Systems CART X X X X X X X X SAS Institute Inc. SAS Enterprise Miner X X X X X X X X X X X X X X X X Sentient Machine Research DataDetective X X X X Silicon Graphics Inc. MineSet X X X X X X X X X X X SLP-Infoware Statlab SPSS Inc. Clementine X X X X X X X X X X X X X X X X SRA International KDD Toolset Syllogic B.V. Syllogic Data Mining Tool Torrent Systems, Inc. ORCHESTRATE Trajecta dbProphet X X X X X X X X X X X X X X Ultragem Eikoplex Umetri SIMCA Unica Technologies, Inc Unica Pattern Recognition Workbench X X X X X X X X WhiteCross Systems HeatSeeker v3.0 X X X X X X WizSoft WizWhy / WizRule X X X X X Company Product Prediction OS Others Link Analysis Classification Clustering Statistics La nomenclatura utilizada en algunos de los conceptos es la siguiente: Link Analysis : [ Assoc. = Associations analysis ] [ Sequ. Pat. = Sequential Patterns ] [ Seq. Time = Sequential time patterns ] [ Bayes Net. = Bayes Networks ] Classification: [ NN-CL = Neural Networks Classification ] [ Bayes = Bayesian Classification ] [ k-NN = k-nearest neighbours classification ] [ Lin-Disc = linear discriminant analysis ] [ MBR = Memory based Reasoning ] [ Assoc. = Classification by Associations] Clustering: [k-Means = k-Means Clustering ] [ D-Clust = demographic clustering = relational analysis ] [ NN-Clus = Neural Networks Clustering ] Statistical methods: [ G-Stats = Means, Std dev, Frequencies, ] [ Reg = Linear Regression ] [ nl-Reg = non-linear regression ] [ Tests = t-tests, F-test, Chi2 tests ] [ PCA = Principal Component Analysis ] [ Factor = Factor Analysis ] Prediction: [ NN-Pred = Neural Networks Prediction Models ] [ RBF Pred = Radial Based Functions predictions ] [ Fuzzy = Fuzzy logic predictions ] [ Time Series = Times Series Analysis ] [ MBR = Memory based Reasoning ] Operating System: [ OS = Operating System ] Others: [Para. Scal. = Parallel Scalability ] [ SQL = Simple Query Language functions ] [ Objects = C++ objects generated for applications ] [ API = the algorithms can be used by other programs ] [ Code = the code is available ] REFERENCIAS Orallo Hernndez, J.: Quintana Ramrez, Ma. J..:Ramrez Ferri, C.: Introduccin a la Minera de Datos. Prentice Hall, 2004 Portal, The Guide to Computing Literature. URL: http://portal.acm.org/citation.cfm?id=778212.778299 Fecha de Acceso: Octubre 9, 2008 Kepler, Data Mining Software. URL: http://www.cs.bris.ac.uk/Research/MachineLearning/Kepler/ Fecha de Acceso: Octubre 8, 2008 DBMiner Software Software. URL: http://www.dbminer.com/products/index.html Fecha de Acceso: Octubre 9, 2008 DataMining Lab, KDD-98 URL: http://www.datamininglab.com/pubs/kdd98_elder_abbott_nopics_bw.pdf Fecha de Acceso: Octubre 9, 2008 St@tServ - Data Mining Software, URL: http://www.statserv.com/datamsoft.html Fecha de Acceso: Octubre 9, 2008