Mineria de Datos
Mineria de Datos
Mineria de Datos
C-27-IN-6012-010 - Noviembre de 2002 DAEDALUS Data, Decisions and Language, S.A. http://www.daedalus.es
Copyright DAEDALUS Data, Decisions and Language, S.A. Todos los derechos reservados. Enven sus consultas, sugerencias o comentarios a: DAEDALUS Data, Decisions and Language, S.A. Centro de Empresas La Arboleda Ctra. N-III, Km. 7,300 E-28031 Madrid Tel.: +34 91 332 43 01 Fax: +34 91 331 97 40 Correo-e: info@daedalus.es http://www.daedalus.es
Copyright
DAEDALUS Data, Decisions and Language, S.A. Todos los derechos reservados.
NDICE
1 2
RESUMEN...................................................................................................2 CLAVES OCULTAS EN SUS DATOS ..............................................................3 2.1 2.2 2.3 2.4 2.5 2.6 2.7 LOS DATOS, ORIGEN DE LA INFORMACIN........................................................... 3 ESTRUCTURACIN DE LOS DATOS .................................................................... 3 DATA WAREHOUSING ................................................................................. 4 INFORMACIN OCULTA EN LOS DATOS ............................................................... 5 QU ES Y QU NO ES LA MINERA DE DATOS ........................................................ 6 DEFINICIN, CARACTERIZACIN Y ESTRUCTURA DEL PROBLEMA................................... 7 ESTAMOS DISPUESTOS A USAR LOS RESULTADOS?................................................ 8
PARA QU SIRVE LA MINERA DE DATOS ..................................................9 3.1 MINERA DE DATOS FRENTE A OLAP Y DSS........................................................ 9 3.2 QU SE PUEDE ESPERAR? ......................................................................... 11 3.2.1 Marketing.................................................................................... 11 3.2.2 Prediccin ................................................................................... 12 3.2.3 Reduccin de riesgos .................................................................... 12 3.2.4 Deteccin de fraudes .................................................................... 12 3.2.5 Control de calidad......................................................................... 12 3.2.6 Procesos industriales..................................................................... 13
CONCLUSIONES .......................................................................................15
MINERA DE DATOS
Documento bsico
1 RESUMEN
Con la denominada sociedad de la informacin se est produciendo un fenmeno curioso. Da a da se multiplica la cantidad de datos almacenados. Sin embargo, contrariamente a lo que pudiera esperarse, esta explosin de datos no supone un aumento de nuestro conocimiento, puesto que resulta imposible procesarlos con los mtodos clsicos. La mayora de las multinacionales generan ms informacin en una semana que la que cualquier persona podra leer en toda su vida, e incluso las pequeas empresas generan un volumen de datos que no son capaces de manejar. De modo que actualmente nos enfrentamos a la paradoja de que, cuantos ms datos estn disponibles, menos informacin tenemos. Para superar este problema, en los ltimos aos han surgido una serie de tcnicas que facilitan el procesamiento avanzado de los datos y permiten realizar un anlisis en profundidad de los mismos de forma automtica. La idea clave es que los datos contienen ms informacin oculta de la que se ve a simple vista. Este documento ofrece una perspectiva general del proceso completo de extraccin del conocimiento oculto en los datos, denominado KDD (Knowlegde Discovery in Databases) y, ms en concreto, de las tcnicas utilizadas en la fase de descubrimiento de informacin propiamente dicha, denominada minera de datos. En la seccin 2 se definen una serie de conceptos bsicos que ayudarn a situar la minera de datos dentro de diferentes entornos de trabajo. Adems se definen conceptos asociados a la minera de datos como Data Warehouse y OLAP. Si el lector ya tiene una cierta idea de lo que se puede conseguir con la minera de datos, y lo que desea es saber qu tipo de aplicaciones o problemas pueden ser abordados con esta tecnologa, puede ir directamente a las seccin 3. En ella se establecen los objetivos que podemos alcanzar con las diferentes tcnicas existentes. Este documento puede complementarse con otros documentos bsicos accesibles en www.daedalus.es: Minera de datos Tecnologa, en el que se profundiza en las tcnicas propias de la minera de datos. Desarrollo de proyectos de minera de datos, donde se describe la metodologa CRISP-DM, un estndar industrial con ms de 160 empresas y organizaciones en su grupo de inters. Web Mining Minera de uso de la Web. Si su trabajo se desarrolla en el mundo de Internet, seguro que le interesar cmo aplicar la minera de datos a este mbito.
C-27-IN-6012-010
Como podemos ver, la cuestin no es sencilla, y se agrava cuando los diferentes ficheros se encuentran en sistemas informticos y soportes diferentes.
C-27-IN-6012-010
Es cierto que cada una de estas fuentes de datos puede ser manejada por separado. Seguro que hay quien opina que los datos estn en diferentes ficheros porque representan informaciones y procesos distintos, y que no tiene sentido estructurar la informacin ms all de lo que ya est. Y es posible que si as lo hacemos encontremos informacin til. Pero no es menos cierto que nos estamos hurtando a nosotros mismos la posibilidad de descubrir un conocimiento que va ms all de cada una de las parcelas de nuestro negocio: un conocimiento que representa la interaccin entre diferentes procesos, que es, precisamente, donde se encuentra la informacin ms valiosa.
Como se puede apreciar, las palabras ms empleadas son: informacin de inters, negocio, integracin,... De su conjunto podemos expresar que el Data Warehouse es un almacn estructurado de la informacin clave de nuestro negocio, que integra datos provenientes de todos los departamentos, sistemas, etc. y que nos permite analizar el funcionamiento de nuestra compaa y tomar decisiones sobre su gestin. No se trata de una simple agregacin de las diferentes bases de datos. Es importante destacar que hay algunas diferencias de concepto respecto a stas y a su forma de uso. Una base de datos operativa almacena la informacin de un sector del negocio, se actualiza a medida que llegan datos que deban ser almacenados y se opera mediante los cuatro mecanismos clsicos Aadir-Eliminar-Modificar-Imprimir: Clsicamente se orienta hacia la elaboracin de informes peridicos. Suele manejar pequeos volmenes de datos. Entorno dimensionado para muchas transacciones (gran cantidad actualizaciones).
de
En cuanto al Data Warehouse, su actualizacin se realiza a intervalos regulares (tpicamente una al da) dentro de un proceso controlado, y tras realizar un preprocesado de los datos que se van a almacenar. Su orientacin es hacia la consulta del estado del negocio. Se ofrece informacin bajo demanda (anlisis libre mediante el herramientas de generacin de informes que atacan el Data Warehouse). Refleja el modelo de negocio, frente al modelo de proceso. uso de
1 El trmino Data Warehouse es de difcil traduccin como una sola palabra. No existe un trmino nico aceptado comnmente, por lo que hemos preferido mantenerlo en su idioma original.
C-27-IN-6012-010
Almacena grandes volmenes de datos (informacin histrica e integracin de datos de mltiples aplicaciones). Dimensionado para consultas largas y elaboradas. Actualizaciones controladas y no eliminacin de datos (el Data Warehouse contiene toda la historia de la compaa).
Sistemas Operacionales
Informes predefinidos
Anlisis OLAP
Limpieza de Datos
Minera de datos
Extraccin
Carga
La estructura de esta gran base de datos es multidimensional, con diferentes puntos de vista que reflejan los distintos aspectos del negocio. As los responsables de producto pueden analizar su evolucin a lo largo del tiempo en diferentes sectores y localizacin geogrfica. Sobre los mismos datos, los responsables de grandes cuentas pueden obtener informacin sobre los tipos de productos que se han vendido, por regiones, a lo largo del tiempo. Un director regional podr estudiar cmo evoluciona su mercado particular, etc. El ejemplo clsico para representar un Data Warehouse es el de un cubo de datos, del que se pueden extraer diferentes rodajas o puntos de vista, se puede analizar una parte concreta, o estudiar el conjunto global. Ms adelante, cuando describamos las herramientas OLAP, volveremos sobre esta idea. Cuando mantenemos una estructura de Data Warehouse, pero adaptada slo a un sector de la empresa, o para un fin concreto, se utiliza un Data Mart. Los Data Marts pueden extraerse del Data Warehouse de la empresa, aunque tambin es posible que el Data Warehouse se construya a partir de los Data Marts que se hayan ido diseando e implantando en los diferentes departamentos. Este segundo enfoque es el que se utiliza cuando se comienza por aplicar estas tcnicas en algunas de las reas del negocio y no en su globalidad.
C-27-IN-6012-010
Para un departamento de fidelizacin de una compaa area: muchos usuarios que hacen vuelos de menos de 3 das a Berln alquilan un coche en el aeropuerto. Para un operador de telefona: durante el mes siguiente al lanzamiento de una campaa de descuento en llamadas internacionales por parte de una compaa de la competencia, nuestros pequeos clientes redujeron su consumo en este sector, mientras que los grandes clientes lo mantuvieron.
Esta informacin puede ser extrada haciendo uso de diversas tcnicas y ninguna de ellas debe ser despreciada, sino agregada al resto para obtener mejores resultados. Sin embargo, en este documento bsico nos centraremos en la minera de datos y en las ventajas que puede aportar frente a otras tcnicas.
Minera de datos
OLAP
Informes
En el caso de la minera de datos el proceso es muy distinto: la consulta que se realiza a la base de datos (al Data Warehouse) busca relaciones entre parejas de productos que son adquiridos por una misma persona en una misma compra. De esa informacin, el sistema deduce, junto a otras muchas, la afirmacin anterior. Como podemos ver, en este proceso se realiza un acto de descubrimiento de conocimiento real, puesto que no es necesario ni siquiera sospechar la existencia de una relacin entre estos dos productos para encontrarla.
2 W. Frawley, G. Piatesky-Shapiro, C. Matheus, Knowledge Discovery in Databases: An Overview, AI Magazine, Otoo 1992 (pg. 213-228).
En la mayora de la bibliografa se hace referencia a minera de datos tomando el sentido de descubrimiento de conocimiento en bases de datos.
C-27-IN-6012-010
C-27-IN-6012-010
embargo, se trata precisamente de informacin que puede resultar de vital importancia para la empresa y que no se puede desdear. Bsicamente, y como ya hemos comentado, la clave que diferencia la minera de datos respecto de las tcnicas clsicas es que el anlisis que realiza es exploratorio, no corroborativo. Se trata de descubrir conocimiento nuevo, no de confirmar o desmentir hiptesis. Con cualquiera de las otras tcnicas es necesario tener una idea concreta de lo que se est buscando y, por tanto, la informacin que se obtiene con ellas est condicionada a la idea preconcebida con que se aborde el problema. Con la minera de datos es el sistema y no el usuario el que encuentra las hiptesis, adems de comprobar su validez. La minera de datos, esencialmente, permite obtener a partir de los datos un modelo del problema que se analiza, bien sean las ventas de un artculo para mejorar la campaa de marketing, las caractersticas tcnicas de un producto en control de calidad o un proceso industrial cuyo control se desea optimizar, por citar algunos ejemplos. El modelo obtenido permitir simular el comportamiento del sistema real y obtener conclusiones aplicables en el da a da.
C-27-IN-6012-010
OLAP (On-Line Analytical Processing) se define como anlisis rpido de informacin multidimensional compartida4. El trmino OLAP aparece en contraposicin al concepto tradicional OLTP (On-Line Transactional Processing), que designa el procesamiento operacional de los datos, orientado a conseguir la mxima eficacia y rapidez en las transacciones (actualizaciones) individuales de los datos, y no a su anlisis de forma agregada. Las herramientas OLAP permiten navegar a travs de los datos almacenados en el Data Warehouse y analizarlos dinmicamente desde una perspectiva multidimensional, es decir, considerando unas variables en relacin con otras y no de forma independiente entre s y permitiendo enfocar el anlisis desde distintos puntos de vista. Esta visin multidimensional de los datos puede visualizarse como un cubo de Rubik, que puede girarse para examinarlo desde distintos puntos de vista, y del que se pueden seleccionar distintas rodajas o cubos dependiendo de los aspectos de inters para el anlisis. Los DSS permiten al responsable de la toma de decisiones consultar y utilizar de manera rpida y econmica las enormes cantidades de datos operacionales y de mercado que se generan en una empresa. Gracias al anlisis OLAP, pueden verificarse hiptesis y resolverse consultas complejas. Adems, en el curso del anlisis, la interpretacin de los datos puede dar lugar a nuevas ideas y enfoques del problema, sugiriendo nuevas posibilidades de anlisis. Sin embargo, el anlisis OLAP depende de un usuario que plantee una consulta o hiptesis. Es el usuario el que lo dirige y, por tanto, el anlisis queda limitado por las ideas preconcebidas que aqul pueda tener. La minera de datos constituye un paso ms en el anlisis de los datos de la empresa para apoyar la toma de decisiones. No se trata de una tcnica que sustituya los DSS ni el anlisis OLAP, sino que los complementa, permitiendo realizar un anlisis ms avanzado de los datos y extraer ms informacin de ellos. Como ya se ha comentado anteriormente, utilizando minera de datos es el propio sistema el que descubre nuevas hiptesis y relaciones. De este modo, el conocimiento obtenido con estas tcnicas no queda limitado por la visin que el usuario tiene del problema. Las diferencias entre minera de datos y OLAP radican esencialmente en que el enfoque desde el que se aborda el anlisis con cada una de ellas es completamente distinto. Fundamentalmente:
C-27-IN-6012-010
El anlisis que realizan las herramientas OLAP es dirigido por el usuario, deductivo, parte de una hiptesis o de una pregunta del usuario y se analizan los datos para resolver esa consulta concreta. Por el contrario, la minera de datos permite razonar de forma inductiva a partir de los datos para llegar a una hiptesis general que modele el problema. Adems, las aplicaciones OLAP trabajan generalmente con datos agregados, para obtener una visin global del negocio. Por el contrario, la minera de datos trabaja con datos individuales, concretos, descubriendo las regularidades y patrones que presentan entre s y generalizando a partir de ellos.
MD inductivo concretos/individuales
Un ejemplo clarificar la diferencia entre ambas tcnicas: Una pregunta tpica de un sistema OLAP/DSS sera: El ao pasado, se compraron ms furgonetas en Catalua o en Madrid?. La respuesta del sistema sera del tipo En Catalua se compraron 12.000 furgonetas, mientras que, durante el mismo intervalo, en Madrid se compraron 10.000. Obviamente es una informacin interesante y til, pero restringida por las hiptesis realizadas a priori. En cambio, un problema tpico para resolver utilizando minera de datos sera, por ejemplo: Hallar un modelo que determine las caractersticas ms relevantes de las personas que compran furgonetas. A partir de los datos del pasado, el sistema de minera de datos proporcionara una respuesta del tipo: Depende de la poca del ao y la situacin geogrfica. En invierno, los habitantes de Madrid que pertenecen a un cierto grupo de edad y nivel de ingresos probablemente comprarn ms furgonetas que gente de las mismas caractersticas en Catalua. Como puede verse, se trata de problemas distintos, de modo que segn los objetivos perseguidos deber utilizarse una tcnica u otra. Adems, puesto que sus conclusiones son complementarias, en general ser conveniente combinar ambas para obtener los mejores resultados.
Informacin
Anlisis Avanzado
Simulacin/optimizacin Prediccin Segmentacin/clasificacin Construccin de modelos Descubrimiento de patrones Verificacin de hiptesis Anlisis condicional simple (Qu pasa si...?) Drill-down (profundizar) Clculos contextuales Porcentajes Recuentos & Totales Consultas
10
C-27-IN-6012-010
3.2.1 Marketing
Este es uno de los campos donde los xitos de la minera de datos son ms conocidos. Cuanto ms precisa sea la informacin que tengamos sobre los clientes, mayores posibilidades tendremos de aumentar nuestros ingresos y rentabilizar al mximo nuestras acciones. El objetivo fundamental puede resumirse en determinar quin comprar qu, cundo y dnde. Targeting: Podemos aumentar espectacularmente el porcentaje de respuesta a una campaa de marketing si se dirige a los objetivos adecuados. La minera de datos permite detectar entre los potenciales clientes los que presentan una mayor probabilidad de responder a la campaa y dirigirla a ellos especficamente, con lo cual se consigue reducir drsticamente los costes. Fidelizacin de clientes: Conseguir un nuevo cliente o recuperar uno perdido resulta mucho ms costoso que mantener uno que ya lo es. De ah la rentabilidad de las campaas de fidelizacin de clientes, que detectan aqullos que parece ms probable que se vayan a perder, permitiendo llevar a cabo iniciativas que eviten dicha prdida.
C-27-IN-6012-010
11
La minera de datos tambin permite detectar nuevas oportunidades de mercado, comparando hbitos de consumo de diferentes clientes, por ejemplo, o determinando la ubicacin ms conveniente para un determinado negocio.
3.2.2 Prediccin
Conocer a priori cmo evolucionar una variable en el futuro constituye una informacin muy valiosa y supone una indudable ventaja competitiva. Se trata de una herramienta de evidente inters tanto desde el punto de vista comercial, como en gestin o control de procesos. A partir de los datos histricos almacenados y utilizando tcnicas de minera de datos pueden elaborarse modelos que permitan estimar con precisin la evolucin de una variable en el futuro. Disponer de esta informacin con tiempo suficiente permite adecuar la respuesta de forma ptima. Esto puede resultar til en los campos ms diversos: Deteccin de oportunidades. Prevencin de problemas. Gestin ptima del personal. Optimizacin de stocks.
12
C-27-IN-6012-010
clasificaciones errneas: productos defectuosos que se consideraron correctos por error y productos correctos, desechados por un exceso de precaucin. Localizacin precoz de defectos El control de calidad no slo debe realizarse al final del proceso. Cuanto antes se detecte un fallo, menor ser su impacto. Adems de las ventajas de los sistemas automticos ya comentadas, en este caso existe un problema aadido. A menudo no resulta fcil medir la variable que determina la calidad del producto en tiempo real o en la cadena de produccin. En estos casos, es imprescindible utilizar tcnicas de minera de datos para descubrir posibles relaciones que permitan detectar los fallos utilizando las variables disponibles durante el proceso. Identificacin de causas de fallos La minera de datos no slo resulta til para discriminar los productos defectuosos. Tambin ayuda a determinar los fallos ms frecuentes as como identificar las causas de los mismos. Esto permite adoptar medidas para evitarlos en el futuro. Anlisis no destructivo A menudo, para obtener la informacin que se necesita, hay que realizar un anlisis destructivo. Un ejemplo tpico es la evaluacin de la resistencia de un material, medida que se establece forzndolo hasta que se rompe. Utilizando minera de datos es posible estimar con bastante exactitud el valor de este tipo de parmetros en funcin de otras caractersticas que s pueden medirse sin destruir el producto. Esto permite controlar la calidad de todos los productos fabricados y no slo de una pequea muestra, ya que no se destruyen con el examen.
C-27-IN-6012-010
13
Implementar programas de mantenimiento predictivo Uno de los problemas de todo equipo de mantenimiento de un proceso es establecer el calendario de reparaciones. Las reparaciones, limpiezas y ajustes programados suponen en muchos casos parar el proceso productivo, con las consiguientes prdidas, no slo de lo que se deja de producir sino de los costes de parada y arranque de la cadena. Un anlisis profundo de los datos de que se disponga puede permitir hacer una planificacin ptima de estas paradas, de manera que se minimice su impacto.
14
C-27-IN-6012-010
4 CONCLUSIONES
La minera de datos es una herramienta que permite convertir los datos recogidos durante el funcionamiento normal de nuestro negocio en informacin valiosa. No es una tecnologa que suplante a otras, sino que es complementaria y, en muchos casos, se aprovecha de lo que otros mecanismos, como la estadstica, puedan aportarle. Tcnicas como el agrupamiento y la clasificacin automtica de clientes facilitan el diseo y puesta en marcha de planes de marketing mucho ms eficaces. Si nuestro trabajo se centra en el entorno industrial, la minera de datos puede aportar informacin valiosa sobre la calidad de nuestros productos, el mantenimiento preventivo o la propia optimizacin de nuestros procesos. Si nos movemos en las nuevas tecnologas, el anlisis del acceso a nuestros servidores de internet, puesto en relacin con las ventas realizadas o los servicios ofrecidos, ser ms potente utilizando web mining que haciendo un simple anlisis de trfico. En resumen, la minera de datos nos permite tomar una posicin en nuestro mercado que nos diferencie de nuestros competidores. DAEDALUS-Data, Decisions and Language, S.A. pone al servicio de sus clientes la experiencia de sus profesionales en el aprendizaje automtico, la minera de datos y los servicios telemticos durante ms de 10 aos. Una experiencia que nos permite afrontar los nuevos retos tecnolgicos con la mayor seguridad.
DAEDALUS, S.A.
Centro de Empresas "La Arboleda" Ctra. N-III, km. 7,300 E-28031 Madrid (Espaa) tel: +34 913.324.301 fax: +34 913.319.740 info@daedalus.es http://www.daedalus.es
16
C-27-IN-6012-010