Minería de Datos
Minería de Datos
Minería de Datos
Proceso[editar]
Un proceso típico de minería de datos consta de los siguientes pasos generales:
1. Selección del conjunto de datos, tanto en lo que se refiere a las variables objetivo
(aquellas que se quiere predecir, calcular o inferir), como a las variables
independientes (las que sirven para hacer el cálculo o proceso), como posiblemente
al muestreo de los registros disponibles.
2. Análisis de las propiedades de los datos, en especial los histogramas, diagramas
de dispersión, presencia de valores atípicos y ausencia de datos (valores nulos).
3. Transformación del conjunto de datos de entrada, se realizará de diversas formas
en función del análisis previo, con el objetivo de prepararlo para aplicar la técnica de
minería de datos que mejor se adapte a los datos y al problema, a este paso también
se le conoce como preprocesamiento de los datos.
4. Seleccionar y aplicar la técnica de minería de datos, se construye el modelo
predictivo, de clasificación o segmentación.
5. Extracción de conocimiento, mediante una técnica de minería de datos, se obtiene
un modelo de conocimiento, que representa patrones de comportamiento observados
en los valores de las variables del problema o relaciones de asociación entre dichas
variables. También pueden usarse varias técnicas a la vez para generar distintos
modelos, aunque generalmente cada técnica obliga a un preprocesado diferente de
los datos.
6. Interpretación y evaluación de datos, una vez obtenido el modelo, se debe proceder
a su validación comprobando que las conclusiones que arroja son válidas y
suficientemente satisfactorias. En el caso de haber obtenido varios modelos mediante
el uso de distintas técnicas, se deben comparar los modelos en busca de aquel que
se ajuste mejor al problema. Si ninguno de los modelos alcanza los resultados
esperados, debe alterarse alguno de los pasos anteriores para generar nuevos
modelos.
Si el modelo final no superara esta evaluación el proceso se podría repetir desde el principio o,
si el experto lo considera oportuno, a partir de cualquiera de los pasos anteriores. Esta
retroalimentación se podrá repetir cuantas veces se considere necesario hasta obtener un
modelo válido.
Una vez validado el modelo, si resulta ser aceptable (proporciona salidas adecuadas y/o con
márgenes de error admisibles) éste ya está listo para su explotación. Los modelos obtenidos
por técnicas de minería de datos se aplican incorporándolos en los sistemas de análisis de
información de las organizaciones, e incluso, en los sistemas transaccionales. En este sentido
cabe destacar los esfuerzos del Data Mining Group, que está estandarizando el
lenguaje PMML (Predictive Model Markup Language), de manera que los modelos de minería
de datos sean interoperables en distintas plataformas, con independencia del sistema con el
que han sido construidos. Los principales fabricantes de sistemas de bases de datos y
programas de análisis de la información hacen uso de este estándar.
Tradicionalmente, las técnicas de minería de datos se aplicaban sobre información contenida
en almacenes de datos. De hecho, muchas grandes empresas e instituciones han creado y
alimentan bases de datos especialmente diseñadas para proyectos de minería de datos en las
que centralizan información potencialmente útil de todas sus áreas de negocio. No obstante,
actualmente está cobrando una importancia cada vez mayor la minería de datos
desestructurados como información contenida en ficheros de texto, en Internet, etc.
Regresión lineal.- Es la más utilizada para formar relaciones entre datos. Rápida y eficaz
pero insuficiente en espacios multidimensionales donde puedan relacionarse más de 2
variables.
Reglas de asociación.- Se utilizan para descubrir hechos que ocurren en común dentro
de un determinado conjunto de datos.
Según el objetivo del análisis de los datos, los algoritmos utilizados se clasifican en
supervisados y no supervisados (Weiss y Indurkhya, 1998):
Algoritmos supervisados (o predictivos): predicen un dato (o un conjunto de ellos)
desconocido a priori, a partir de otros conocidos.
Algoritmos no supervisados (o del descubrimiento del conocimiento): se descubren
patrones y tendencias en los datos.
Comportamiento en Internet[editar]
También es un área en boga el del análisis del comportamiento de los visitantes —sobre todo,
cuando son clientes potenciales— en una página de Internet. O la utilización de la información
—obtenida por medios más o menos legítimos— sobre ellos para ofrecerles propaganda
adaptada específicamente a su perfil. O para, una vez que adquieren un determinado
producto, saber inmediatamente qué otro ofrecerle teniendo en cuenta la información histórica
disponible acerca de los clientes que han comprado el primero.
Terrorismo[editar]
La minería de datos ha sido citada como el método por el cual la unidad Able Danger del
Ejército de los EE.UU. había identificado al líder de los atentados del 11 de septiembre de
2001, Mohammed Atta, y a otros tres secuestradores del "11-S" como posibles miembros de
una célula de Al Qaeda que operan en los EE. UU. más de un año antes del ataque. Se ha
sugerido que tanto la Agencia Central de Inteligencia y su homóloga canadiense, Servicio de
Inteligencia y Seguridad Canadiense, también han empleado este método.6
Juegos[editar]
Desde comienzos de la década de 1960, con la disponibilidad de oráculos para
determinados juegos combinacionales, también llamados finales de juego de tablero (por
ejemplo, para las tres en raya o en finales de ajedrez) con cualquier configuración de inicio, se
ha abierto una nueva área en la minería de datos que consiste en la extracción de estrategias
utilizadas por personas para estos oráculos. Los planteamientos actuales
sobre reconocimiento de patrones, no parecen poder aplicarse con éxito al funcionamiento de
estos oráculos. En su lugar, la producción de patrones perspicaces se basa en una amplia
experimentación con bases de datos sobre esos finales de juego, combinado con un estudio
intensivo de los propios finales de juego en problemas bien diseñados y con conocimiento de
la técnica (datos previos sobre el final del juego). Ejemplos notables de investigadores que
trabajan en este campo son Berlekamp en el juego de puntos-y-cajas (o Timbiriche) y John
Nunn en finales de ajedrez.
Videojuegos
En el transcurrir de los años las tecnologías y los avances con relación a la minería de datos
se vieron involucrados en diferentes procesos de negocios y la industria de los videojuegos no
se quedó atrás en este campo, la necesidad por conocer a sus consumidores y el gusto de
estos es parte fundamental para sobrevivir en un ambiente tan competitivo como lo es este, se
necesitan de diferentes datos para antes de siquiera comenzar la idea de proyecto en un
nuevo videojuego. Grandes compañías desarrolladoras han caído bajo el manto de
cancelaciones, pérdidas, fracasos y en casos hasta la misma quiebra por el mal manejo de la
información. En los últimos años estas empresas desarrolladoras de videojuegos entendieron
la gran importancia del contenido que se maneja y como lo ve el consumidor por eso se
enfocaron en la contratación de servicios de empresas especializadas en este sector de
minería de datos para poder presentar productos de calidad y que realmente gusten al público
basándose en el análisis de la información obtenida en el transcurrir de los años
“videojugabilisticos” de su público objetivo.
Ciencia e Ingeniería
En los últimos años la minería de datos se está utilizando ampliamente en diversas áreas
relacionadas con la ciencia y la ingeniería. Algunos ejemplos de aplicación en estos campos
son:
Genética
En el estudio de la genética humana, el objetivo principal es entender la
relación cartográfica entre las partes y la variación individual en las secuencias
del ADN humano y la variabilidad en la susceptibilidad a las enfermedades. En términos más
llanos, se trata de saber cómo los cambios en la secuencia de ADN de un individuo afectan al
riesgo de desarrollar enfermedades comunes (como por ejemplo el cáncer). Esto es muy
importante para ayudar a mejorar el diagnóstico, prevención y tratamiento de las
enfermedades. La técnica de minería de datos que se utiliza para realizar esta tarea se
conoce como "reducción de dimensionalidad multifactorial".7
Ingeniería eléctrica
En el ámbito de la ingeniería eléctrica, las técnicas de minería de datos han sido ampliamente
utilizadas para monitorizar las condiciones de las instalaciones de alta tensión. La finalidad de
esta monitorización es obtener información valiosa sobre el estado del aislamiento de los
equipos. Para la vigilancia de las vibraciones o el análisis de los cambios de carga en
transformadores se utilizan ciertas técnicas para agrupación de datos (clustering) tales como
los mapas auto-organizativos (SOM: Self-organizing map). Estos mapas sirven para detectar
condiciones anormales y para estimar la naturaleza de dichas anomalías.8
Análisis de gases
También se han aplicado técnicas de minería de datos para el análisis de gases
disueltos (DGA: Dissolved gas analysis) en transformadores eléctricos. El análisis de gases
disueltos se conoce desde hace mucho tiempo como la herramienta para diagnosticar
transformadores. Los mapas auto-organizativos (SOM) se utilizan para analizar datos y
determinar tendencias que podrían pasarse por alto utilizando las técnicas clásicas (DGA).
De la estadística
Ciertamente, la minería de datos bebe de la estadística, de la que toma las siguientes
técnicas:
Sistemas Expertos: Son sistemas que han sido creados a partir de reglas prácticas
extraídas del conocimiento de expertos. Principalmente a base de inferencias o de causa-
efecto.
Sistemas Inteligentes: Son similares a los sistemas expertos, pero con mayor ventaja ante
nuevas situaciones desconocidas para el experto.
Redes neuronales: Genéricamente, son métodos de proceso numérico en paralelo, en el
que las variables interactúan mediante transformaciones lineales o no lineales, hasta
obtener unas salidas. Estas salidas se contrastan con los que tenían que haber salido,
basándose en unos datos de prueba, dando lugar a un proceso de retroalimentación
mediante el cual la red se reconfigura, hasta obtener un modelo adecuado.
La importancia que han cobrado los datos no estructurados (texto, páginas de Internet,
etc.).
La necesidad de integrar los algoritmos y resultados obtenidos en sistemas operacionales,
portales de Internet, etc.
La exigencia de que los procesos funcionen prácticamente en línea (por ejemplo, en casos
de fraude con una tarjeta de crédito).
Los tiempos de respuesta. El gran volumen de datos que hay que procesar en muchos
casos para obtener un modelo válido es un inconveniente; esto implica grandes
cantidades de tiempo de proceso y hay problemas que requieren una respuesta en tiempo
real.
Herramientas de software
Existen muchas herramientas de software para el desarrollo de modelos de minería de datos
tanto libres como comerciales como, por ejemplo:
RapidMiner Orange SPSS Modeler
KXEN Powerhouse SAS Enterprise Miner
KNIME Quiterian STATISTICA Data Miner
Neural Designer R Weka
OpenNN KEEL
¿Qué es la minería de
datos?
El reto de estos nuevos profesionales es extraer información de enormes bases de
datos. ¿Estás preparado para la era del big data?
Muy Interesante
2 minutos de lectura
Tradicionalmente el objetivo de la minería era la obtención de carbón. No obstante, una
nueva generación de mineros ha aparecido en el inicio de esta cuarta revolución
industrial. Son los mineros o exploradores de datos, que cuales en lugar de buscar carbón
intentan descubrir patrones en enormes volúmenes de datos. Los métodos utilizados de
estos nuevos profesionales son la inteligencia artificial, el aprendizaje automático, la
estadística y sistemas de base de datos.
En el primero de los pasos se trata el tipo de información que el cliente desea extraer de la
base de datos. La segunda etapa es la que requiere más trabajo ya que se tiene
de seleccionar, limpiar, enriquecer, reducir y transformar la base de datos que nos ha
facilitado el cliente. Una vez la hemos procesado y está lista para implementarle el
algoritmo de inteligencia artificial, tenemos que escoger qué algoritmo nos va a dar
mejores resultados.
Para resolver estos problemas hay muchos algoritmos a utilizar, los principales son: los de
asociación, los clústeres, los de árbol de decisión, los de regresión lineal, el clasificador
Bayesiano ingenuo, los de red neuronal, los clústeres de secuencia y los de serie temporal.
Por estas razones la minería de datos se está convirtiendo en uno de los trabajos con
mayor proyección para el futuro, ya que ahorra grandes cantidades de dinero para las
empresas y abre nuevas oportunidades de negocio.
Pronóstico: cálculo de las ventas y predicción de las cargas del servidor o del
tiempo de inactividad del servidor.
Riesgo y probabilidad: elección de los mejores clientes para la distribución
de correo directo, determinación del punto de equilibrio probable para los
escenarios de riesgo, y asignación de probabilidades a diagnósticos y otros
resultados.
Recomendaciones: determinación de los productos que se pueden vender
juntos y generación de recomendaciones.
Búsqueda de secuencias: análisis de los artículos que los clientes han
introducido en el carrito de la compra y predicción de posibles eventos.
Agrupación: distribución de clientes o eventos en grupos de elementos
relacionados, y análisis y predicción de afinidades.
1. Definir el problema
2. Preparar los datos
3. Explorar los datos
4. Generar modelos
5. Explorar y validar los modelos
6. Implementar y actualizar los modelos
El siguiente diagrama describe las relaciones existentes entre cada paso del
proceso y las tecnologías de Microsoft SQL Server que se pueden usar para
completar cada paso.
El proceso que se ilustra en el diagrama es cíclico, lo que significa que la
creación de un modelo de minería de datos es un proceso dinámico e
iterativo. Una vez que ha explorado los datos, puede que descubra que
resultan insuficientes para crear los modelos de minería de datos adecuados y
que, por tanto, debe buscar más datos. O bien, puede generar varios modelos
y descubrir entonces que no responden adecuadamente al problema
planteado cuando los definió y que, por tanto, debe volver a definir el
problema. Es posible que deba actualizar los modelos una vez implementados
debido a que haya más datos disponibles. Puede que haya que repetir cada
paso del proceso muchas veces para crear un modelo adecuado.
El primer paso del proceso de minería de datos, tal como se resalta en el siguiente
diagrama, consiste en definir claramente el problema y considerar formas de usar
los datos para proporcionar una respuesta para el mismo.
Este paso incluye analizar los requisitos empresariales, definir el ámbito del
problema, definir las métricas por las que se evaluará el modelo y definir los
objetivos concretos del proyecto de minería de datos. Estas tareas se traducen en
preguntas como las siguientes:
Es importante tener en cuenta que los datos que se usan para la minería de
datos no necesitan almacenarse en un cubo de procesamiento analítico en
línea (OLAP), ni siquiera en una base de datos relacional, aunque puede usar
ambos como orígenes de datos. Puede realizar minería de datos mediante
cualquier origen de datos definido como origen de datos de Analysis
Services .Por ejemplo, archivos de texto, libros de Excel o datos de otros
proveedores externos. Para obtener más información, vea Orígenes de datos
admitidos (SSAS - Multidimensionales).
Puede usar herramientas como Master Data Services para sondear los orígenes de
datos disponibles y determinar su disponibilidad para la minería de datos. Puede
usar herramientas como SQL Server Data Quality Services, o el generador de
perfiles de datos de Integration Services, para analizar la distribución de los datos y
solucionar problemas, como la existencia de datos incorrectos o la falta de datos.
Cuando tenga definido los orígenes, combínelos en una vista del origen de datos
con el Diseñador de vistas del origen de datos de Herramientas de datos de SQL
Server. Para obtener más información, vea Vistas del origen de datos en modelos
multidimensionales. Este diseñador también contiene algunas herramientas que
podrá usar para explorar los datos y comprobar que funcionarán a la hora de crear
un modelo. Para obtener más información, vea Explorar datos en una vista del
origen de datos (Analysis Services).
Generar modelos
Deberá definir qué columnas de datos desea que se usen; para ello, creará una
estructura de minería de datos. La estructura de minería de datos se vincula al
origen de datos, pero en realidad no contiene ningún dato hasta que se procesa. Al
procesar la estructura de minería de datos, Analysis Servicesgenera agregados y
otra información estadística que se puede usar para el análisis. Cualquier modelo
de minería de datos que esté basado en la estructura puede utilizar esta
información. Para obtener más información sobre cómo se relacionan las
estructuras de minería de datos con los modelos de minería de datos,
vea Arquitectura lógica (Analysis Services - Minería de datos).
También puede utilizar los parámetros para ajustar cada algoritmo y puede aplicar
filtros a los datos de entrenamiento para utilizar un subconjunto de los datos,
creando resultados diferentes. Después de pasar los datos a través del modelo, el
objeto de modelo de minería de datos contiene los resúmenes y modelos que se
pueden consultar o utilizar para la predicción.
Es importante recordar que siempre que los datos cambian, debe actualizar la
estructura y el modelo de minería de datos. Al actualizar una estructura de minería
de datos volviéndola a procesar, Analysis Services recupera los datos del origen,
incluido cualquier dato nuevo si el origen se actualiza dinámicamente, y vuelve a
rellenar la estructura de minería de datos. Si tiene modelos que están basados en la
estructura, puede elegir actualizar estos, lo que significa que se vuelven a entrenar
con los nuevos datos, o puede dejar los modelos tal cual. Para más información,
vea Requisitos y consideraciones de procesamiento (minería de datos).
Explorar y validar los modelos
Puede explorar las tendencias y patrones que los algoritmos detectan mediante los
visores del diseñador de minería de datos de Herramientas de datos de SQL
Server. Para obtener más información, vea Visores de modelos de minería de
datos. También puede comprobar si los modelos crean predicciones correctamente
mediante herramientas del diseñador como el gráfico de mejora respecto al
modelo predictivo y la matriz de clasificación. Para comprobar si el modelo es
específico de sus datos o se puede usar para realizar inferencias en la población
general, puede usar la técnica estadística denominada validación cruzada para
crear automáticamente subconjuntos de los datos y probar el modelo con cada
uno. Para obtener más información, vea Prueba y validación (minería de datos).
Use los modelos para crear predicciones que luego podrá usar para tomar
decisiones comerciales. SQL Server pone a su disposición el lenguaje DMX,
que podrá usar para crear consultas de predicción, y el Generador de
consultas de predicción, que le ayudará a generar las consultas. Para más
información, vea Referencia de Extensiones de minería de datos (DMX).
Crear consultas de contenido para recuperar estadísticas, reglas o fórmulas
del modelo. Para obtener más información, vea Consultas de minería de
datos.
Incrustar la funcionalidad de minería de datos directamente en una
aplicación. Puede incluir Objetos de administración de análisis (AMO), que
contiene un conjunto de objetos que la aplicación pueda utilizar para crear,
cambiar, procesar y eliminar estructuras y modelos de minería de
datos. También puede enviar mensajes XML for Analysis (XMLA) directamente
a una instancia de Analysis Services. Para obtener más información,
vea Desarrollo (Analysis Services - Minería de datos).
Utilizar Integration Services para crear un paquete en el que se utilice un
modelo de minería de datos para dividir de forma inteligente los datos
entrantes en varias tablas. Por ejemplo, si una base de datos se actualiza
continuamente con clientes potenciales, puede utilizar un modelo de minería
de datos junto con Integration Services para dividir los datos entrantes en
clientes que probablemente compren un producto y clientes que
probablemente no compren un producto.Para más información,
consulte Usos típicos de Integration Services.
Crear un informe que permita a los usuarios realizar consultas directamente
en un modelo de minería de datos existente. Para obtener más información,
vea Reporting Services en SQL Server Data Tools (SSDT).
Actualizar los modelos después de la revisión y análisis. Cualquier
actualización requiere que vuelve a procesar los modelos. Para más
información, consulte Processing Data Mining Objects.
Actualizar dinámicamente los modelos, cuando entren más datos en la
organización, y realizar modificaciones constantes para mejorar la efectividad
de la solución debería ser parte de la estrategia de implementación. Para
obtener más información, vea Administración de las soluciones y los objetos
de minería de datos.
El proceso en la minería de datos
GESTIÓN DOCUMENTAL
minería de datos:
Seleccionar el conjunto de los datos
Se trata de seleccionar la información relacionada con las variables objetivo y las
variables independientes como también el muestreo de los registros disponibles.
Aprendizaje automático
Ir a la navegaciónIr a la búsqueda
Modelos[editar]
El aprendizaje automático tiene como resultado un modelo para resolver una tarea dada. Entre
los modelos se distinguen1
Tipos de algoritmos[editar]