Ensayo Minería de Datos
Ensayo Minería de Datos
Ensayo Minería de Datos
Maestrista:
Ing. Vílchez Fabián Cesar Gabriel
Catedrático:
Mg. Tarma Vivas Willy Nelson
Curso:
Estadística e Investigación de Operaciones
Aplicada
Período:
2022 – II
1. INTRODUCCIÓN
La minería de datos llamada creada hacia los 90’ fue llamada Big Data y más
adelante fue llamada “ciencia de los datos”. Tuvo diversos nombres, pero al final
el mismo concepto y argumento. Se trata de encontrar datos desconocidos en un
mar de datos, o en todo caso simularlo y proyectarlo según necesidades del
cliente. Para una universidad estatal peruana este tema viene siendo algo nuevo,
pero al investigar a nivel internacional ya tiene muchos años usándose y no tan
solo en el área del marketing sino en todas las áreas que se pueda abarcar, es decir
la minería de datos es aplicable en todas las áreas y disciplinas. De la misma
manera utilizada por todos los profesionales que quieran realizar investigaciones,
pruebas de sensibilidad y proyecciones de consumo, maquinarias, producción,
salud, telecomunicaciones, etc. Según estudios realizados la Data Minig trae
beneficios a las organizaciones que lo apliquen de esta manera se ha realizdo
investigaciones en las universidades de Standford en Califormia y el instituto de
Rensealer en Nueva York investigadores que dan énfasis al marketing, evaluación
de riesgos. control de costos. De la misma manera las adelante se verá en este
ensayo la manera cómo funciona el procesamiento de datos donde se da la
recopilación, preparación, minería de datos y análisis e interpretación de datos,
para aplicar las técnicas que son Limpieza de datos , seguimiento de patrones,
clasificación, asociación, dirección de valores atípicos, clustering, regresión,
predicción, patrones secuenciales, árboles de decisión, tópicos estadísticos,
visualización, redes neuronales, procesamiento a largo plazo y inteligencia
artifificial. Teniendo conocimiento de las técnicas de procesamiento de datos nos
abrimos paso a conocer de que manera podemos utilizar los BIG DATA o
herramientas para minar datos, los cuales son Oracle DM, Rapid Miner, Orange
DM, Weka, Knime, Sisense, Dundas, Intersoft, Qlick y Monkey Learn. Entoces de
esta manera se estaría realizando la aplicación de la minería de datos en minería y
de esta manera concluyendo este ensayo donde se resume el amplio poder
benéfico de la datamining. Quedo muy a gusto el haber aprendido sobre este tema
ya que me abre puertas de oportunidad para aplicar la big data a mi carrera para
poder aumentar mi producción y tener objetivos claros. La evolución de los
estadistas, los mineros de datos, evaluar y proyectar producciones a mediano y
largo plazo para de esta manera poder tomar decisiones asertivamente.
2. DESARROLLO
A nivel internacional también podremos otorgar una visión sobre el tema puesto
que en la LELAND STANDFORD JUNIOR UNIVERSITY de California, los
investigadores Rajaraman A. & Ullman J. D. (2011) mencionan en su libro
MINING OF MASSIVE DATASETS que la minería de datos es una moda de
los 90’ y que a mediados del 2010 cambió de nombre a “BIG DATA”. Hoy en día
se conoce como “CIENCIA DE LOS DATOS” sin embargo el concepto sigue
siendo el mismo, el utilizar el hardware más potente, los sistemas de
programación más potentes y algoritmos más eficientes para resolver problemas
en ciencia, comercio, salud, gobierno, las humanidades y muchos otros campos
del esfuerzo humano. De la misma manera en el RENSSEALER POLYTECHNIC
INSTITUTE de Nueva York los investigadores Mohamed J. Zaki y Wagner
Meira Jr. (2020) Publicaron un libro DATA MINING MACHINE LEARNING
donde se enfocan matemáticamente a los métodos probabilísticos, los cuales
mencionan que la minería de datos es usar metodologías, análisis probabilístico y
geométricos para realizar predicciones y utilizarlas para realizar una acertada toma
de decisiones.
Bajo estas definiciones sobre data mining podremos decir que “Es una
herramienta que permite procesar los datos mediante metodologías y técnicas
de análisis de datos para diseñar, desarrollar y ejecutar proyectos mediante
software y sistemas de programación los cuales nos ayuden a realizar
predicciones y simulaciones de estos para realizar una adecuada toma de
decisiones y adquirir conocimiento nuevo en un entorno de mejora continua.”
El área de estudio corresponde a los distritos mineros de Rodalquilar y San José, situados en
el extremo SE de la Península Ibérica, dentro de la provincia de Almería, España. El área
coincide en su mayor parte con el campo volcánico de edad miocena de Cabo de Gata, que
forma la sierra del mismo nombre. El área se extiende a lo largo de la costa, y en ella se
encuentran muchas de las mineralizaciones filonianas de metales básicos y preciosos del SE
de España (Arribas-Rosado y Arribas-Moreno, 1995). El campo volcánico está situado en la
parte oriental de la Cordillera Bética, un complejo cinturón orogénico de edad alpina que se
formó como consecuencia de la colisión de las placas tectónicas Africana y Europea.
Este método es simple, está basado en la multiplicación de cada capa de entrada por un peso
o factor de ponderación que indica su importancia en el modelo, y la posterior suma de las
capas así modificadas. El resultado es una nueva capa con valores numéricos, cuya magnitud
representa en una escala relativa la favorabilidad de cada zona. Esta aproximación posibilita
una selección flexible de las zonas de interés, y permite, además, tener en cuenta la
distribución espacial de las mismas en el proceso de selección (Bonham-Carter, 1994). El
método presenta la ventaja adicional de poder ser aplicado indistintamente a capas con dos o
más clases. En el caso de capas de entrada binarias, éstas llevan asociado solamente el valor
del peso asignado. En cambio, con las capas multiclase se introduce mucha más información
en el modelo, puesto que se asigna un valor de favorabilidad diferente a cada una de las
clases. En estas aproximaciones también se hace intervenir información derivada de los datos,
en el sentido que los umbrales para la binarización o definición de las clases pueden ser
obtenidos mediante el análisis de las relaciones entre un mapa de indicios y los mapas de
entrada (Rigol-Sánchez, 2000). La aplicación del método de suma ponderada a mapas de
entrada multiclase implica la asignación no sólo de un peso a cada capa de entrada al modelo,
sino también el establecimiento de un peso diferente a cada una de las clases que compone
cada mapa. La función de combinación utilizada en este caso se representa mediante la
expresión simple: * F P P Pcl i i n i ij i n = / / en la que F es la puntuación que indica la
favorabilidad estimada por el modelo; Pi es el peso para el mapa de entrada i, y Pclij es la
puntuación para la clase j del mapa i. El valor de j depende de la clase temática que aparezca
en cada píxel o polígono del mapa i. En esta situación, la puntuación no está necesariamente
en el intervalo [0, 1], sino en un rango que varía en función de la magnitud de los pesos
usados. La suma ponderada de capas multiclase es un método frecuentemente utilizado en la
modelización espacial con SIG, debido fundamentalmente a su sencillez conceptual, fácil
aplicación y notable flexibilidad a la hora de incorporar información relevante (en forma de
pesos) en el proceso de combinación. No obstante, BonhamCarter (1994) argumenta que la
principal limitación del método radica en su naturaleza lineal aditiva. bilidad usando distintas
combinaciones de los mapas relevantes multiclase que estaban disponibles en la base de datos
de exploración. En este estudio se llevaron a cabo numerosos experimentos de los que
seguidamente se presenta un ejemplo ilustrativo; para ello se utilizaron los modelos de
depósito y las guías de exploración para elaborar los criterios a aplicar en la evaluación de la
hipótesis de potencialidad minera. El estudio se orientó a la selección de zonas propicias para
la presencia de depósitos de sulfuros metálicos (Pb-Zn-Cu-Ag-Au). Para este análisis se
empleó una reclasificación en cuatro niveles de favorabilidad para todos los mapas de entrada
(funciones de favorabilidad): (1) muy poco favorable, (2) poco favorable, (3) favorable y (4)
muy favorable. Para la asignación de puntuación a las cuatro clases de cada mapa (Pclij), se
optó por seguir un esquema común con valores 2, 4, 8 y 16. Para el peso asignado a cada
mapa (Pi ) se definió un esquema análogo a porcentajes, con pesos individuales acotados en
el rango [0, 100] y cuya suma total es 100. En la Tabla 2 se detallan las capas utilizadas para
los depósitos de sulfuros polimetálicos y los pesos asignados a cada una. El resultado de la
aplicación de este modelo es una nueva capa ráster en la que cada celda toma un valor en el
rango [2, 16]. Este valor se ha interpretado como un índice de favorabilidad minera (IFM),
que indicaría las zonas con más potencial para contener un depósito mineral del tipo en
cuestión. 2.2.2. Modelos basados en regresión logística múltiple El análisis de regresión es un
método estadístico bien conocido y extendido en numerosas disciplinas científicas, usado
para explorar las relaciones entre distintas variables sobre la base de observaciones de esas
variables. El método implica la derivación de una relación matemática entre un conjunto de
variables predictivas o explicativas independientes y una condición dependiente específica
(Davis, 1986). El objetivo es, por tanto, explicar las variaciones en el conjunto de
observaciones de la variable dependiente en términos de las variables independientes.
Además de la identificación de un buen modelo, un objetivo adicional es la obtención de una
buena estimación de los coeficientes de regresión. Asimismo, en algunas situaciones, como
es el caso práctico planteado, hay un objetivo último que es proporcionar una ecuación
predictiva. No obstante, como se mecionaba anteriormente, el conocimiento del fenómeno
estudiado es un aspecto importante a la hora de especificar un modelo de regresión, y en
general, cualquier modelo basado en los datos. Uno de los principales problemas que se
encuentran en regresión múltiple con datos espaciales se debe al incumplimiento de los
supuestos del método de mínimos cuadrados, que es el proceso utilizado para ajustar y hacer
inferencia, o bien debido a la naturaleza de los datos (Haining, 1990). Si la variable
dependiente a modelizar es categórica, como es el caso de la presencia o ausencia de un
recurso geológico, el modelo de regresión lineal normal no es adecuado y se debe emplear un
modelo lineal generalizado como la regresión logística múltiple (Petruccelli et al., 1999). La
regresión logística múltiple permite identificar las variables importantes en la predicción de la
probabilidad de presencia de un depósito, en la que la presencia o ausencia del depósito se
define como una variable dicotómica dependiente. Los coeficientes de regresión para cada
variable derivados de las observaciones experimentales en el área de estudio, son utilizados
como pesos en un algoritmo aplicable a la base de datos SIG, por ejemplo, mediante álgebra
de mapas (Tomlin, 1991). De esta forma, se obtiene un mapa que muestra en términos de
probabilidad (intervalo [0,1]) la presencia de un depósito mineral, equivalente al IFM.
Cuantitativamente, la relación de dependencia entre la ocurrencia y el conjunto de variables
predictivas se expresa como: Px =p(D)=1/( 1+{exp[-(B0 +B1 X1 + ... +Bp Xp )]}) donde D
es presencia/ausencia de depósitos, X1 ... Xp son el conjunto de variables o capas de
información de exploración (por ejemplo, alteración hidrotermal, distancia a fracturas,
anomalía geoquímica, etc.), y B0 ...Bp son los coeficientes derivados de la regresión
logística. Es decir, D es la variable dependiente y X1 ... Xp son las variables independientes.
Para aplicar la regresión logística múltiple a los datos de exploración se obtuvieron, en primer
lugar, los datos adecuados de entrada para construir el modelo en un paquete estadístico
externo al SIG. Todas las variables predictoras se transformaron linealmente al intervalo [0,1]
y la variable dependiente (presencia de depósitos) en una capa binaria. Para ilustrar el
proceso descrito se presenta un experimento en el que se construyó y aplicó. un modelo para
la predicción de depósitos de oro en el distrito de Rodalquilar. En este experimento se utilizó
un subconjunto de siete capas de información: (1) distancia a estructuras de fracturación; (2)
componente principal 1 de la geoquímica, relacionada esencialmente con la litología, con
valores positivos para elementos metálicos asociados a rocas básicas y negativos para
elementos metálicos asociados a rocas ácidas; (3) componente principal 2 de la geoquímica,
relacionada con elementos metálicos típicos de las mineralizaciones de oro; (4) anomalía
gravimétrica residual; (5) anomalía magnética residual; (6) cociente TM 5/7, y (7) cociente
TM 3/1; estas dos últimas variables se refieren a cocientes de datos radiométricos de las
bandas 5, 7, 3 y 1 de una imagen Landsat TM de la estación seca de verano (7/7/2001). Se
interpretan como indicadores de la abundacia de arcillas de alteración hidrotermal y de
óxidos de hierro, respectivamente (Sabins, 1996; Vincent, 1997). Para los análisis se
seleccionaron 49 indicios mineros, depósitos de oro conocidos, situados en el distrito. Este
conjunto (unos) se completó con una muestra de 56 celdas, a priori estériles (ceros), mediante
muestreo aleatorio estratificado (selección de un punto aleatorio en el interior de la celda).
Resultados y discusión
Los resultados de la aplicación de los modelos SIG descritos para integración de datos
espaciales en investigación de recursos geológicos son mapas de un índice de potencialidad o
favorabilidad minera (IFM). El mapa que se muestra en la Figura 3 indica la favorabilidad a
la presencia de depósitos de sulfuros polimetálicos, obtenida con el método de suma
ponderada multiclase. En el mismo se observa que las zonas con mayor potencialidad se
sitúan en torno al distrito de San José, concretamente en la parte central y noroccidental de la
Sierra de Cabo de Gata. En este caso, el IFM alcanza valores máximos, superiores a 13 (tonos
rojos), solamente en un pequeño sector. En el distrito de Rodalquilar los valores de IFM son
medios, principalmente al sur y este del sector conocido como Cerro del Cinto, junto a la
localidad de Rodalquilar. El análisis del porcentaje de indicios situados en cada clase del
mapa de favorabilidad generado, así como el área porcentual que ocupa cada una de las
clases, indica que las clases con valor IFM ≥ 6, que representan una extensión del 15 % del
área total, contienen el 84 % de los indicios. Es evidente el interés de estos resultados pues
reducen considerablemente el área objetivo de futuros reconocimientos mediante sondeos de
investigación. En términos generales, el modelo de suma ponderada multiclase ha resultado
una técnica de gran utilidad y muy potente para la creación de mapas de favorabilidad
minera. El número de combinaciones de capas y esquemas de ponderación es enorme, lo que
proporciona a este método de modelización de una gran flexibilidad. En el caso de la
aplicación del modelo de regresión logística múltiple en el distrito de Rodalquilar, dio como
resultado la siguiente expresión en la que se muestran los coeficientes del modelo para cada
variable independiente:
3. CONCLUSIÓN
I. La miería de datos es una herramienta que ha tomado cuerpo desde
las épocas de los 90’ y ha sido reinventada utilizando softwares
potentes de minado de datos en la web.
II. El minado de datos es aplicable en todas las áreas a nivel global y
de la misma manera a todos los profesionales puesto que ellos
utilizan manejo de datos.
III. Las organizaciones que aplican el minado de datos trae en
consecuencia diversos beneficios que mejoran la producción y
objetivos trazados.
IV. Respecto a la producción en minería se puede aplicar
minería de datos en mi área de trabajo, la construcción de
chimeneas mediante raiseboring donde se planea el tipo de
producción, mantenimiento y logística de máquinas. Hasta con una
aplicación de geomecánica realizar una predicción de cáida de
rocas mediante redes neuronales.
4. REFERENCIAS
2022, de https://www.academia.edu/2099490/El_proceso_de_miner
%C3%ADa_de_datos_asistido_por_ontolog%C3%ADas (consulta 20 de
octubre 2022).
https://www.esic.edu/rethink/tecnologia/mineria-datos-proceso-areas-se-
puede-aplica .
uso-beneficios/ .
https://www.spiceworks.com/tech/big-data/articles/what-is-data-mining/ .
https://www.techtarget.com/searchbusinessanalytics/definition/data-
mining