Ensayo Minería de Datos

1WS2DE3RTF5G6Y7UNIVERSIDAD NACIONAL
DEL CENTRO DEL PERÚ
Facultad de Ingeniería de Minas

Unidad de Posgrado
Maestría en Gestión Minera
ENSAYO: Minería de datos y

minería de datos en minería
Maestrista:
Ing. Vílchez Fabián Cesar Gabriel
Catedrático:
Mg. Tarma Vivas Willy Nelson
Curso:
Estadística e Investigación de Operaciones
Aplicada
Período:
2022 – II
1. INTRODUCCIÓN
La minería de datos llamada creada hacia los 90’ fue llamada Big Data y más
adelante fue llamada “ciencia de los datos”. Tuvo diversos nombres, pero al final
el mismo concepto y argumento. Se trata de encontrar datos desconocidos en un
mar de datos, o en todo caso simularlo y proyectarlo según necesidades del
cliente. Para una universidad estatal peruana este tema viene siendo algo nuevo,
pero al investigar a nivel internacional ya tiene muchos años usándose y no tan
solo en el área del marketing sino en todas las áreas que se pueda abarcar, es decir
la minería de datos es aplicable en todas las áreas y disciplinas. De la misma
manera utilizada por todos los profesionales que quieran realizar investigaciones,
pruebas de sensibilidad y proyecciones de consumo, maquinarias, producción,
salud, telecomunicaciones, etc. Según estudios realizados la Data Minig trae
beneficios a las organizaciones que lo apliquen de esta manera se ha realizdo
investigaciones en las universidades de Standford en Califormia y el instituto de
Rensealer en Nueva York investigadores que dan énfasis al marketing, evaluación
de riesgos. control de costos. De la misma manera las adelante se verá en este
ensayo la manera cómo funciona el procesamiento de datos donde se da la
recopilación, preparación, minería de datos y análisis e interpretación de datos,
para aplicar las técnicas que son Limpieza de datos , seguimiento de patrones,
clasificación, asociación, dirección de valores atípicos, clustering, regresión,
predicción, patrones secuenciales, árboles de decisión, tópicos estadísticos,
visualización, redes neuronales, procesamiento a largo plazo y inteligencia
artifificial. Teniendo conocimiento de las técnicas de procesamiento de datos nos
abrimos paso a conocer de que manera podemos utilizar los BIG DATA o
herramientas para minar datos, los cuales son Oracle DM, Rapid Miner, Orange
DM, Weka, Knime, Sisense, Dundas, Intersoft, Qlick y Monkey Learn. Entoces de
esta manera se estaría realizando la aplicación de la minería de datos en minería y
de esta manera concluyendo este ensayo donde se resume el amplio poder
benéfico de la datamining. Quedo muy a gusto el haber aprendido sobre este tema
ya que me abre puertas de oportunidad para aplicar la big data a mi carrera para
poder aumentar mi producción y tener objetivos claros. La evolución de los
estadistas, los mineros de datos, evaluar y proyectar producciones a mediano y
largo plazo para de esta manera poder tomar decisiones asertivamente.
2. DESARROLLO
La minería de datos ha tenido muchas definiciones según los autores y campos de

aplicación pues esta herramienta se utiliza en diversos campos como la
administración, negocios e ingeniería. En este sentido las definiciones más
relevantes son:
En las investigaciones de Vergaray A.D. (2016) en su libro DATA MINIG:

MINERIA DE DATOS define minería de datos como una práctica de análisis
que permite obtener un determinado conocimiento a partir de una base de datos.
Así como también Cisaro, S. G. (2008) en su investigación “EL PROCESO DE
LA MINERIA DE DATOS ASISTIDO POR ONTOLOGÍAS” menciona que
la minería de datos ocupa uso de metodologías y técnicas de análisis de datos en
diseño, desarrollo y evaluación con el fin de hallar nuevos conocimientos.
A nivel internacional también podremos otorgar una visión sobre el tema puesto
que en la LELAND STANDFORD JUNIOR UNIVERSITY de California, los
investigadores Rajaraman A. & Ullman J. D. (2011) mencionan en su libro
MINING OF MASSIVE DATASETS que la minería de datos es una moda de
los 90’ y que a mediados del 2010 cambió de nombre a “BIG DATA”. Hoy en día
se conoce como “CIENCIA DE LOS DATOS” sin embargo el concepto sigue
siendo el mismo, el utilizar el hardware más potente, los sistemas de
programación más potentes y algoritmos más eficientes para resolver problemas
en ciencia, comercio, salud, gobierno, las humanidades y muchos otros campos
del esfuerzo humano. De la misma manera en el RENSSEALER POLYTECHNIC
INSTITUTE de Nueva York los investigadores Mohamed J. Zaki y Wagner
Meira Jr. (2020) Publicaron un libro DATA MINING MACHINE LEARNING
donde se enfocan matemáticamente a los métodos probabilísticos, los cuales
mencionan que la minería de datos es usar metodologías, análisis probabilístico y
geométricos para realizar predicciones y utilizarlas para realizar una acertada toma
de decisiones.
Bajo estas definiciones sobre data mining podremos decir que “Es una
herramienta que permite procesar los datos mediante metodologías y técnicas
de análisis de datos para diseñar, desarrollar y ejecutar proyectos mediante
software y sistemas de programación los cuales nos ayuden a realizar
predicciones y simulaciones de estos para realizar una adecuada toma de
decisiones y adquirir conocimiento nuevo en un entorno de mejora continua.”
Habiendo conocido el concepto de minería de datos es preciso conocer también el

campo de acción de esta herramienta. Se hizo una investigación con varias fuentes
de las cuales se seleccionó las más relevantes (citados en referencias) por tener
más características, técnicas y explicar bien los campos de acción a nivel nacional
e internacional. Del mismo modo se cotejó y filtró la información de los
investigadores (Stedman & Hughes, 2021), (Novoseltseva, 2021), (Kanade, 2022)
y (_ESIC Business & Marketing School, 2018) para dar un alcance actualizado y
obtener una visión panorámica de lo que se desea explicar. Entonces generalmente
la minería de datos abarca todo tipo de campo de acción, es decir se puede aplicar
en todas las áreas, pero para fines explicativos se tomará la moda de las
investigaciones citadas.
 Comercio: Se aplica minería de datos en la segmentación de

clientes, previsión de ventas y análisis de riesgos.
 Medicina y farmacia: La extracción de datos permite realizar

diagnósticos más precisos. Disponer de toda la información del
paciente, como historiales médicos, exámenes físicos y pautas de
tratamiento, permite prescribir tratamientos más eficaces. También
permite una gestión más eficaz, eficiente y rentable de los recursos
sanitarios al identificar riesgos, predecir enfermedades en
determinados segmentos de la población o prever la duración de los
ingresos hospitalarios. La detección de fraudes o irregularidades y el
fortalecimiento de los vínculos con los pacientes gracias a un mayor
conocimiento de sus necesidades son también ventajas del uso de la
minería de datos en medicina.
 Seguridad y detección de fraude: Se maneja amplia fuente de

información y aplica a reconocimiento facial, identificaciones
biométricas, accesos a redes no permitidas y localización GPS.
 Recuperación de información no numérica: Minería de

texto, minería web, búsqueda e identificación de imagen, video, voz y
texto de bases de datos multimedia.
 Astronomía: Identificación y seguimiento de estrellas,
galaxias, asteroides y diversos cuerpos espaciales.
 Geología, minería, agricultura y pesca: Identificación de

áreas de uso para distintos cultivos o de pesca o de explotación minera
en base de datos de imágenes satelitales.
 Ciencias ambientales: Identificación de modelos de

funcionamiento de ecosistemas naturales y/o artificiales para mejorar
su observación, gestión y control.
 Ciencias sociales: Estudio de los flujos de la opinión pública.

planificación de ciudades, identificación de barrios con conflicto en
función de valores sociodemográficos.
 Marketing: La minería de datos se utiliza para explorar bases

de datos cada vez más amplias y mejorar la segmentación del mercado.
Analizando las relaciones entre parámetros como la edad del cliente, su
sexo, sus gustos, etc. Es posible adivinar su comportamiento para
dirigir campañas de fidelización personalizadas. La minería de datos en
marketing también predice qué usuarios son propensos a darse de baja
de un servicio, qué les interesa en función de sus búsquedas o qué debe
incluir una lista de correo para lograr comprender un mayor índice de
respuesta.
 Banca: Los bancos usan la minería de datos para comprender

mejor los riesgos del mercado. Se aplica habitualmente a las
calificaciones crediticias y a los sistemas inteligentes de lucha contra el
fraude para analizar las transacciones, las operaciones con tarjeta, los
patrones de compra y los datos financieros de los clientes. La minería
de datos también permite a los bancos conocer mejor nuestras
preferencias o hábitos online para optimizar el rendimiento de sus
campañas de marketing, estudiar el rendimiento de los canales de venta
o gestionar las obligaciones de cumplimiento normativo.
 Educación: La minería de datos beneficia a los educadores

para acceder a los datos de los estudiantes, predecir los niveles de
rendimiento y encontrar estudiantes o grupos de estudiantes que
necesitan atención adicional. Por ejemplo, los estudiantes que son
débiles en la asignatura de matemáticas.
 Comercio electrónico: Los sitios web de comercio utilizan la

minería de datos para ofrecer ventas cruzadas y ventas adicionales a
través de sus sitios web. Uno de los nombres más famosos es Amazon,
que utiliza técnicas de minería de datos para conseguir más clientes en
su tienda de comercio electrónico.
 Comercio minorista: Los supermercados, por ejemplo,

utilizan patrones de compra conjunta para identificar asociaciones de
productos y decidir cómo colocarlos en los pasillos y estantes. La
minería de datos también detecta qué ofertas son más valoradas por los
clientes o aumentan las ventas en la cola de la caja.
 Proveedores de servicios: Los proveedores de servicios, como

los de telefonía móvil y servicios públicos, utilizan la minería de datos
para predecir las razones por las que un cliente abandona su empresa.
Analizan los datos de facturación, las interacciones con el servicio de
atención al cliente y las quejas presentadas a la empresa para asignar a
cada cliente una puntuación de probabilidad y ofrecerle incentivos.
 Compañías de seguros: La minería de datos ayuda a las

compañías de seguros a rentabilizar el precio de sus productos y a
promover nuevas ofertas entre sus clientes nuevos o existentes.
 Fabricación: Con la ayuda de la minería de datos, los

fabricantes pueden predecir el desgaste de los activos de producción.
Pueden anticipar el mantenimiento, lo que les ayuda a reducirlo para
minimizar el tiempo de inactividad.
 Investigación de delitos: La minería de datos ayuda a los

organismos de investigación de delitos a desplegar los efectivos
policiales (¿Dónde es más probable que se produzca un delito y
cuándo?), a quien buscar en un paso fronterizo, etc.
 Televisión y radio: Hay redes que aplican la minería de datos

en tiempo real para medir sus audiencias de televisión (IPTV) y radio
en línea. Estos sistemas recogen y analizan, sobre la marcha,
información anónima de las visualizaciones de los canales, las
emisiones y la programación. La minería de datos permite a las
cadenas hacer recomendaciones personalizadas a los oyentes de radio y
a los espectadores de televisión, así como conocer sus intereses y
actividades en tiempo real y comprender mejor su comportamiento.
Las cadenas también obtienen conocimientos valiosos para sus
anunciantes, que utilizan estos datos para dirigirse a sus clientes
potenciales con mayor precisión.
 Entretenimiento: Los servicios de Streaming utilizan la

minería de datos para analizar qué cosa están viendo o escuchando los
usuarios y realizar recomendaciones personalizadas basadas en las
vivencias y hábitos de las personas que miran las transmisiones.
Según los investigadores citados y entendimiento personal la Big Data o Data

Mining abarca todos los campos de estudio simple y llanamente porque todos
usamos datos para realizar una toma de decisiones. Podremos decir entonces que
hay varios profesionales que pueden aplicar esta herramienta ya que en las
respectivas áreas se aplica minería de datos. Esta herramienta es de gran ayuda
para:
o Abogados o Ingenieros en todas las ramas
o Médicos o Administradores
o Enfermeras o Contadores
o Obstetras o Economistas
o Educadores
o Investigadores
o Astrónomos
o Comunicadores Sociales
o Streamers
o Fiscales
o Detectives
o Corredor de seguros
o Corredores de bolsa
Entonces podremos valorar la importancia de este proceso. Para esto nos basamos
en (Stedman & Hughes, 2021) donde menciona que “Data mining is a crucial
component of successful analytics initiatives in organizations” (Data Mining es
un componente crucial para un exitoso análisis de iniciativas en las
organizaciones). La información que se genera puede ser usada en la BI (business
intelligence) y con aplicaciones avanzadas realizar una data histórica para realizar
simulaciones en tiempo real.
La efectividad de la Data mining incide en varios aspectos de planeamiento y
estrategias de negocios. Conociendo estos temas inferimos que el minado de datos
trae beneficios a las empresas u organizaciones que lo apliquen. Según (Kanade,
2022), “Data mining is beneficial for most businesses primarily because it can
run through vast volumes of data and identify hidden patterns, relationships,
and trends. The results are helpful for predictive analytics that help in strategic
planning while keeping a stock of the current business scenario” (El datamining
es beneficioso para la mayoría de las empresas principalmente porque puede
ejecutar grandes volúmenes de datos e identificar patrones, relacione y tendencias
ocultas. Los resultados son útiles para el análisis predictivo que ayuda en la
planificación estratégica mientras mantiene un balance del escenario comercial
actual). Entonces los beneficios del dataminig para las empresas son:
 Marketing y anuncios dirigidos: La minería de datos permite a los
equipos de marketing comprender mejor el comportamiento y las
preferencias de los clientes. Les permitirá dirigir anuncios dirigidos a los
respectivos clientes que muestren un patrón de comportamiento. Además,
el departamento de ventas se beneficia de la minería de datos, ya que les
ayuda a dirigirse a clientes con una inclinación particular hacia productos
específicos. Además les permite vender más servicios y productos a
clientes mayores.
 Identificación de problemas de servicio al cliente: La minería de datos
es una herramienta eficaz para realizar un seguimiento de los problemas de
servicio al cliente cuando los clientes interactúan con los agentes del
centro de contacto a través de llamadas y chats en línea. Les da la
oportunidad de brindar un mejor servicio al cliente, gracias al análisis en
profundidad posible a través de la minería de datos.
 Gestión mejorada de la cadena de suministro (SCM): Con la minería de
datos las empresas pueden identificar las tendencias del mercado y
predecir el comportamiento futuro de los clientes que puede afectar la
demanda del producto. Esto permite a las empresas planificar para el
futuro y administrar el suministro de los bienes y servicios para satisfacer
las demandas del mercado. Además, los gerentes de SCM pueden
planificar sus operaciones logísticas en consecuencia,
 Mantenimiento del tiempo de actividad de producción: La recopilación
y extracción de datos de sensores, dispositivos IoT, máquinas de
fabricación y equipos industriales ayuda a crear aplicaciones de
mantenimiento predictivo que determinan problemas potenciales antes de
que el incidente real dañe la maquinaria. Estas advertencias pre
programadas reducen el tiempo de inactividad programado de las
máquinas, lo que aumenta la productividad general.
 Evaluar mejor los riesgos: La minería de datos permite a los
administradores de riesgos y al personal comercial interesado evaluar
mejor los riesgos relacionados con las finanzas, los asuntos legales o los
factores de seguridad cibernética que la empresa puede encontrar en el
futuro. Les da la oportunidad de prepararse adecuadamente para tales
eventos y tener un plan para manejar mejor tales percances.
 Impulse el ahorro de costos: La minería de datos puede identificar
fácilmente cualquier ineficiencia operativa en un proceso comercial típico.
Esta identificación temprana de problemas ayuda a agilizar los procesos
corporativos que se alimentan con los objetivos comerciales de una
empresa, lo que permite ahorrar considerablemente en gastos corporativos.
Habiendo aprendido los beneficios, campo de aplicación y conceptualización nos
surge la pregunta ¿Cómo funciona el Datamining? (Novoseltseva, 2021) nos
menciona que la minería de datos es manejada predominantemente por un grupo
de científicos de datos, profesionales de BI calificados, grupos de análisis,
analistas de negocios, ejecutivos expertos en tecnología y personal con una sólida
formación e inclinación hacia el análisis de datos .
Fundamentalmente, el aprendizaje automático (ML), la inteligencia artificial (IA),
el análisis estadístico y la gestión de datos son elementos cruciales de la minería
de datos que son necesarios para examinar, clasificar y preparar los datos para el
análisis. Los principales algoritmos de ML y las herramientas de inteligencia
artificial han permitido extraer fácilmente conjuntos de datos masivos, incluidos
datos de clientes, registros de transacciones e incluso archivos de registro
recopilados de sensores, actuadores, dispositivos IoT, aplicaciones móviles y
servidores.
La minería de datos tiene los siguientes procesos:
 Recopilación de datos: La minería de datos comienza con el paso de
recopilación de datos, donde se identifica, recopila y organiza la
información relevante para su análisis. Las fuentes de datos pueden
incluir almacenes de datos, lagos de datos o cualquier otra fuente que
contenga datos sin procesar en un formato estructurado o no estructurado.
 Preparación de datos: En el segundo paso, el enfoque principal es
ajustar los datos recopilados. Esto implica varios procesos, como el pre
procesamiento de datos, la creación de perfiles de datos y la limpieza de
datos, para corregir cualquier error de datos. Estas etapas son esenciales
para mantener la calidad de los datos antes de continuar con los procesos
de minería y análisis.
 Minería de datos: En el tercer paso, el profesional de datos selecciona
una técnica de minería de datos adecuada una vez que se prepara la
calidad de datos deseada. Aquí, se identifica un conjunto adecuado de
algoritmos de procesamiento de datos donde los datos de muestra se
entrenan inicialmente antes de ejecutarlos en todo el conjunto de datos.
 Análisis e interpretación de datos: En el último paso, los resultados
obtenidos en el tercer paso se utilizan para desarrollar modelos analíticos
para tomar decisiones comerciales futuras. Además, el equipo de ciencia
de datos comunica los resultados a las partes interesadas a través de
visualizaciones de datos y otras técnicas más sencillas. La información se
transmite de una manera que hace que el contenido sea digerible para
cualquier persona no experta que trabaje fuera del campo de la ciencia de
datos.
De la misma manera (Kanade, 2022) presenta técnicas para que las organizaciones
conviertan datos brutos en información procesable. Estas técnicas abarcan desde
la IA más avanzadas hasta los fundamentos de la preparación de datos que son
clave para maximizar el valor de las inversiones en datos.
a) Limpieza y preparación de datos:
La limpieza y preparación de los datos es una parte vital del proceso de
minería de datos. Los datos en bruto deben ser limpiados y formateados
para que sean útiles en los diferentes métodos de análisis. La limpieza y
preparación de datos incluye diferentes elementos de modelado de datos,
transformación, migración de datos, integración de datos y agregación. Es
un paso necesario para comprender las características y atributos básicos
de los datos y determinar su mejor uso.
b) Seguimiento de patrones:
El seguimiento de patrones es una técnica fundamental de minería de
datos. Se trata de identificar y supervisar las tendencias o patrones en los
datos para hacer inferencias inteligentes sobre los resultados del negocio.
Una vez que una organización identifica una tendencia en los datos de
ventas, por ejemplo, hay una base para tomar medidas para capitalizar esa
visión. Si se determina que un determinado producto se vende más que
otros para un grupo demográfico en particular, una organización puede
utilizar este conocimiento para crear productos o servicios similares, o
simplemente almacenar mejor el producto original para este grupo
demográfico.
c) Clasificación:
Las técnicas de minería de datos de clasificación implican el análisis de los
diversos atributos asociados a los diferentes tipos de datos. Una vez que
las organizaciones identifican las principales características de estos tipos
de datos, las organizaciones pueden categorizar o clasificar los datos
relacionados. Esto es fundamental para identificar, por ejemplo, la
información de identificación personal que las organizaciones pueden
querer proteger o eliminar de los documentos.
d) Asociación:
La asociación es una técnica de minería de datos relacionada con la
estadística. Indica que ciertos datos están vinculados a otros datos o
eventos basados en datos. Es similar a la noción de co-ocurrencia en el
aprendizaje automático, en el que la probabilidad de un evento impulsado
por los datos se indica por la presencia de otro. Esto significa que el
análisis de los datos muestra que existe una relación entre dos eventos de
datos: como el hecho de que la compra de hamburguesas se acompaña
frecuentemente de la de patatas fritas.
e) Detección de valores atípicos (outliers):
La detección de valores atípicos determina cualquier anomalía en los
conjuntos de datos. Una vez que las organizaciones encuentran
aberraciones en sus datos, es más fácil entender por qué se producen estas
anomalías y prepararse para cualquier ocurrencia futura para lograr mejor
los objetivos de negocio. Por ejemplo, si se produce un pico en el uso de
los sistemas transaccionales para tarjetas de crédito a una hora determinada
del día, las organizaciones pueden aprovechar esta información
averiguando por qué se produce para optimizar sus ventas durante el resto
del día.
f) Clustering:
El clustering es una técnica de análisis que se basa en enfoques visuales
para entender los datos. Los mecanismos de clustering utilizan gráficos
para mostrar dónde está la distribución de los datos en relación con
diferentes tipos de métricas. Las técnicas de clustering también utilizan
diferentes colores para mostrar la distribución de los datos. Los enfoques
de gráficos son ideales para utilizar la analítica de clústeres. Con los
gráficos y la agrupación en particular, los usuarios pueden ver visualmente
cómo se distribuyen los datos para identificar las tendencias que son
relevantes para sus objetivos empresariales.
g) Regresión:
Las técnicas de regresión son útiles para identificar la naturaleza de la
relación entre las variables de un conjunto de datos. Estas relaciones
pueden ser causales en algunos casos, o simplemente correlacionadas en
otros. La regresión es una técnica directa de caja blanca que revela
claramente cómo se relacionan las variables. Las técnicas de regresión se
utilizan en aspectos de previsión y modelado de datos
h) Predicción:
La predicción es un aspecto muy poderoso de la minería de datos que
representa una de las cuatro ramas de la analítica. El análisis predictivo
utiliza los patrones encontrados en los datos actuales o históricos para
extenderlos al futuro. De este modo, ofrece a las organizaciones una visión
de las tendencias que se producirán a continuación en sus datos. Hay
varios enfoques diferentes para utilizar el análisis predictivo. Algunos de
los más avanzados implican aspectos de aprendizaje automático e
inteligencia artificial. Sin embargo, el análisis predictivo no depende
necesariamente de estas técnicas: también puede facilitarse con algoritmos
más sencillos.
i) Patrones secuenciales:
Esta técnica de minería de datos se centra en descubrir una serie de
eventos que tienen lugar en secuencia. Es especialmente útil para la
minería de datos transaccionales. Por ejemplo, esta técnica puede revelar
qué artículos de ropa es más probable que compren los clientes después de
una compra inicial de, por ejemplo, un par de zapatos. Entender los
patrones secuenciales puede ayudar a las organizaciones a recomendar a
los clientes artículos adicionales para estimular las ventas.
j) Árboles de decisión:
Los árboles de decisión son un tipo específico de modelo predictivo que
permite a las organizaciones extraer datos de forma eficaz. Técnicamente,
un árbol de decisión forma parte del aprendizaje automático, pero se
conoce más popularmente como una técnica de aprendizaje automático de
caja blanca debido a su naturaleza extremadamente sencilla.
Un árbol de decisión permite a los usuarios comprender claramente cómo
las entradas de datos afectan a las salidas. Cuando se combinan varios
modelos de árboles de decisión se crean modelos de análisis predictivo
conocidos como bosque aleatorio. Los modelos de bosque aleatorio
complicados se consideran técnicas de aprendizaje automático de caja
negra, porque no siempre es fácil entender sus resultados en función de sus
entradas. Sin embargo, en la mayoría de los casos, esta forma básica de
modelización por conjuntos es más precisa que el uso de árboles de
decisión por separado.
k) Técnicas estadísticas:
Las técnicas estadísticas están en el centro de la mayoría de los análisis
involucrados en el proceso de minería de datos. Los diferentes modelos
analíticos se basan en conceptos estadísticos, que arrojan valores
numéricos aplicables a objetivos empresariales específicos. Por ejemplo,
las redes neuronales utilizan estadísticas complejas basadas en diferentes
pesos y medidas para determinar si una imagen es un perro o un gato en
los sistemas de reconocimiento de imágenes
l) Visualización:
Las visualizaciones de datos son otro elemento importante de la minería de
datos. Ofrecen a los usuarios una visión de los datos basada en
percepciones sensoriales que la gente puede ver. Las visualizaciones de
datos actuales son dinámicas, útiles para la transmisión de datos en tiempo
real, y se caracterizan por los diferentes colores que revelan diferentes
tendencias y patrones en los datos. Los cuadros de mando son una forma
poderosa de utilizar las visualizaciones de datos para descubrir las
percepciones de la minería de datos. Las organizaciones pueden basar los
cuadros de mando en diferentes métricas y utilizar las visualizaciones para
resaltar visualmente los patrones de los datos, en lugar de limitarse a
utilizar los resultados numéricos de los modelos estadísticos.
m) Redes neuronales:
Una red neuronal es un tipo específico de modelo de aprendizaje
automático que se utiliza a menudo con la IA y el aprendizaje profundo.
Llamadas así porque tienen diferentes capas que se asemejan al
funcionamiento de las neuronas en el cerebro humano, las redes
neuronales son uno de los modelos de aprendizaje automático más precisos
que se utilizan hoy en día.
n) Almacenamiento de datos:
El almacenamiento de datos es una parte importante del proceso de
minería de datos. Tradicionalmente, el almacenamiento de datos implicaba
el almacenamiento de datos estructurados en sistemas de gestión de bases
de datos relacionales para que pudieran ser analizados para la inteligencia
de negocios, la presentación de informes y las capacidades básicas de
cuadros de mando. Hoy en día, existen almacenes de datos en la nube y
almacenes de datos semiestructurados y no estructurados como Hadoop.
Mientras que los almacenes de datos se utilizaban tradicionalmente para
los datos históricos, muchos enfoques modernos pueden proporcionar un
análisis profundo de los datos en tiempo real.
o) Procesamiento de la memoria a largo plazo:
El procesamiento de la memoria a largo plazo se refiere a la capacidad de
analizar los datos durante largos períodos de tiempo. Los datos históricos
almacenados en los almacenes de datos son útiles para este propósito.
Cuando una organización puede realizar análisis sobre un periodo de
tiempo prolongado, es capaz de identificar patrones que de otro modo
podrían ser demasiado sutiles para detectarlos. Por ejemplo, al analizar la
deserción durante un período de varios años, una organización puede
encontrar pistas sutiles que podrían llevar a reducir la deserción en las
finanzas.
p) Aprendizaje automático e inteligencia artificial:
El aprendizaje automático y la inteligencia artificial (IA) representan
algunos de los desarrollos más avanzados en la minería de datos. Las
formas avanzadas de aprendizaje automático, como el aprendizaje
profundo, ofrecen predicciones muy precisas cuando se trabaja con datos a
escala. En consecuencia, son útiles para procesar datos en
implementaciones de IA como la visión por ordenador, el reconocimiento
de voz o el análisis de texto sofisticado mediante el Procesamiento del
Lenguaje Natural. Estas técnicas de minería de datos son buenas para
determinar el valor de los datos semiestructurados y no estructurados.
Para realizar minado de datos existen herramientas de extracción de datos para

esto (Kanade, 2022) ha realizado un Top 10 de herramientas de extracción de
datos, en el cual las organizaciones pueden iniciarse en la minería de datos
accediendo a estas herramientas, dado que el proceso de minería de datos
comienza justo después de la ingestión de datos. Es fundamental encontrar
herramientas de preparación de datos que soporten las diferentes estructuras de
datos necesarios para el análisis de minería de datos. Las organizaciones también
querrán clasificar los datos con el fin de explorarlos con las numerosas técnicas
discutidas anteriormente.
 ORACLE DATA MINING: Oracle Data Mining, conocido popularmente
como ODM, es un módulo de la base de datos Oracle Advanced Analytics.
Esta herramienta de minería de datos permite a los analistas de datos
generar información detallada y hacer predicciones. Ayuda a predecir el
comportamiento de los clientes, desarrolla perfiles de clientes e identifica
oportunidades de venta cruzada.
 RAPID MINER: Rapid Miner es uno de los mejores sistemas de análisis
predictivo, está escrito en lenguaje de programación JAVA. Proporciona
un entorno integrado para el aprendizaje profundo, la minería de texto, el
aprendizaje automático y el análisis predictivo. Ofrece una gama de
productos para construir nuevos procesos de minería de datos y análisis de
configuración predictiva.
 ORANGE DATA MINING: Es una suite de software perfecta para el
aprendizaje automático y la minería de datos. Es la mejor ayuda para la
visualización de datos y es un software basado en componentes. Los
componentes de Orange se llaman «widgets». Estos widgets van desde el
pre procesamiento y la visualización de datos hasta la evaluación de
algoritmos y el modelado predictivo. Los widgets ofrecen funcionalidades
importantes como:
visualizar la tabla de datos y permitir la selección de características, la
lectura de datos, el entrenamiento de predictores y la comparación de
algoritmos de aprendizaje, la visualización de elementos de datos, etc.
 WEKA: Weka tiene una interfaz gráfica de usuario que facilita el acceso a
todas sus funciones. Está escrito en lenguaje de programación JAVA.
Weka es un software de aprendizaje automático de código abierto con una
amplia colección de algoritmos para la minería de datos. Soporta
diferentes tareas de minería de datos, como la reprocesamiento, la
clasificación, la regresión, la agrupación y la visualización, en una interfaz
gráfica que facilita su uso. Para cada una de estas tareas, Weka
proporciona algoritmos de aprendizaje automático incorporados que le
permiten probar rápidamente sus ideas y desplegar modelos sin escribir
ningún código.
 KNIME: Es la mejor plataforma de integración para el análisis de datos y
la elaboración de informes desarrollada por KNIME.com AG. Funciona
con el concepto de canalización de datos modular. KNIME está formado
por varios componentes de aprendizaje automático y minería de datos
integrados. Es una plataforma gratuita y de código abierto para la minería
de datos y el aprendizaje automático. Su interfaz intuitiva permite crear
flujos de trabajo de ciencia de datos de principio a fin, desde el modelado
hasta la producción. Además, los diferentes componentes pre construidos
permiten un modelado rápido sin necesidad de introducir una sola línea de
código. Un conjunto de potentes extensiones e integraciones hacen de
KNIME una plataforma versátil y escalable para procesar tipos de datos
complejos y utilizar algoritmos avanzados. Con KNIME, los científicos de
datos pueden crear aplicaciones y servicios para la analítica o la
inteligencia empresarial. En el sector financiero, por ejemplo, los casos de
uso más comunes incluyen la puntuación de crédito, la detección de
fraudes y la evaluación del riesgo crediticio.
 SISENSE: Sísense es otra eficaz herramienta de minería de datos. Sisense
es extremadamente útil y el software de BI más adecuado cuando se trata
de la presentación de informes dentro de la organización. Tiene una
capacidad brillante para manejar y procesar datos para las organizaciones
de pequeña y gran escala. Analiza y visualiza instantáneamente conjuntos
de datos grandes y dispares. Es una herramienta ideal para crear cuadros
de mando con una amplia variedad de visualizaciones. Permite combinar
datos de varias fuentes para construir un repositorio común y, además,
refina los datos para generar informes ricos que se comparten entre los
departamentos para la presentación de informes. Sisense genera informes
muy visuales. Está especialmente diseñado para usuarios sin
conocimientos técnicos. Permite arrastrar y soltar, así como widgets. Se
pueden seleccionar diferentes widgets para generar los informes en forma
de gráficos circulares, gráficos de líneas, gráficos de barras, etc., en
función del objetivo de una organización. Los informes se pueden
desglosar con un simple clic para comprobar los detalles y los datos
completos.
 DUNDAS: Dundas es otra excelente herramienta de análisis de datos e
informes. Dundas es bastante fiable con sus rápidas integraciones e ideas
rápidas. Proporcionan un número ilimitado de patrones de transformación
de datos con atractivas tablas, diagramas y gráficos. Dundas BI pone los
datos en estructuras bien definidas de una manera específica con el fin de
facilitar el procesamiento para el usuario. Constituye métodos relacionales
que facilitan el análisis multidimensional y se centran en cuestiones
críticas para el negocio. Como genera informes fiables, reduce los costes y
elimina la necesidad de otro software adicional.
 INTERSOFT: Es una herramienta de análisis de cuadros de mando y de
informes que proporciona un desarrollo iterativo de informes /vistas de
datos & genera informes perfectos para los píxeles. Permite la
transformación rápida y flexible de datos de varias fuentes.
 QLIK: Qlick es una herramienta de minería y visualización de datos.
Tiene las siguientes características: Interfaces de arrastrar y soltar para
crear visualizaciones de datos flexibles e interactivos, responde
instantáneamente a las interacciones y los cambios, soporta múltiples
fuentes y tipos de archivos, permite una fácil seguridad para los datos y el
contenido en todos los dispositivos, permite compartir análisis relevantes,
incluyendo apps e historias, utilizando un HUB centralizado.
 MONKEY LEARN: Monkey Learn es una plataforma de aprendizaje
automático especializada en minería de textos. Disponible en una interfaz
fácil de usar, puede integrar fácilmente Monkey Learn con su herramienta
existente para realizar minería de datos en tiempo real. Empiece
inmediatamente con modelos de minería de texto preformados, como este
analizador de sentimientos que aparece a continuación, o cree una solución
personalizada para satisfacer necesidades empresariales más específicas.
Las herramientas de minería de texto de Monkey Learn ya se utilizan para
automatizar el etiquetado y el enrutamiento de los tickets en el servicio de
atención al cliente, para detectar automáticamente los comentarios
negativos en las redes sociales y para proporcionar información detallada
que permita tomar mejores decisiones.
Ejemplo de apliación:
El área de estudio corresponde a los distritos mineros de Rodalquilar y San José, situados en
el extremo SE de la Península Ibérica, dentro de la provincia de Almería, España. El área
coincide en su mayor parte con el campo volcánico de edad miocena de Cabo de Gata, que
forma la sierra del mismo nombre. El área se extiende a lo largo de la costa, y en ella se
encuentran muchas de las mineralizaciones filonianas de metales básicos y preciosos del SE
de España (Arribas-Rosado y Arribas-Moreno, 1995). El campo volcánico está situado en la
parte oriental de la Cordillera Bética, un complejo cinturón orogénico de edad alpina que se
formó como consecuencia de la colisión de las placas tectónicas Africana y Europea.
El conjunto volcánico calco alcalino de Cabo de Gata es el más importante,

volumétricamente, de los materiales volcánicos emergidos, y corresponde a una de las cuatro
series volcánicas descritas en el orógeno bético, concretamente a la serie calco alcalina s.s.
(Cabo de Gata y Mar de Alborán) de López-Ruiz y Rodríguez-Badiola (1980). Se caracteriza
por presentar una variedad de litologías desde andesitas basálticas a riolitas, pertenecientes a
una serie calco alcalina de contenido medio en potasio, con predominio de los términos
intermedios (andesitas y dacitas). (Fernández-Soler, 1996). Este magmatismo actuó desde el
Langhiense al Tortoniense Superior (15-7 Ma). Los depósitos messinienses que sellan la
actividad volcánica están representados por sedimentos carbonatados y margosos (complejos
arrecifales en torno a los grandes relieves). Posteriormente, se formaron niveles de evaporitas
en las zonas más deprimidas y subsidentes, y carbonatos estromatolíticos en las zonas
costeras. Los depósitos pliocenos y cuaternarios cubren también parcialmente las rocas
volcánicas. Como consecuencia de la actividad volcánica y subvolcánica, se desarrollaron
durante el Mioceno una serie de sistemas hidrotermales simultáneos a la emisión de las rocas
volcánicas que produjeron alteraciones de rango menor, sin interés económico, ligadas a la
circulación de fluidos marinos a través de poros y fracturas de las volcanitas emplazadas en
medios marinos (FernándezSoler, 1996). Asimismo, se produjeron grandes áreas de
alteraciones-mineralizaciones correspondientes a sistemas de circulación hidrotermal
(epitermal), acompañados comúnmente con disposiciones zonales del tipo de alteración.
Estos campos hidrotermales se vieron favorecidos en muchos casos por los sistemas de
fracturación creados por la formación de calderas volcánicas (Arribas et al., 1989), aunque en
otros casos se sitúan en relación con los sistemas de fracturación regionales (Hernández et al.,
1987). El distrito de San José se caracteriza principalmente por la asociación epitermal Pb-
Zn-(Ag-Cu-Au). En general, se trata de depósitos relacionados con cuerpos de brechas
hidrotermales, orientadas según patrones de fracturación regionales NE-SO y NO-SE, que
encajan en zonas de alteración de tipo adularia-sericita (Castroviejo, 1992). Los yacimientos
epitermales del distrito de Rodalquilar están constituidos por venas de Pb-Zn-(Ag-Cu-Au) de
baja sulfuración y, principalmente, por depósitos de Au-alunita- (Cu-Te-Sn) de alta
sulfuración, también llamados de tipo ácido-sulfatado, que incluyen venas, brechas
hidrotermales y depósitos diseminados (Arribas et al., 1988). Los sistemas hidrotermales
también originaron la formación de numerosos yacimientos de arcillas industriales como la
bentonita. Para realizar este estudio se ha dispuesto de un gran volumen de datos geológicos y
mineros, geoquímicos, geofísicos, imágenes de satélite, etc. En la Tabla 1 se indican los
conjuntos de datos primarios utilizados. A partir de éstos se han obtenido un gran número de
conjuntos de datos secundarios mediante distintas operaciones de análisis espacial, con la
finalidad de facilitar el proceso de integración de datos.
Métodos de integración de datos
Los modelos de integración de datos espaciales mediante SIG son categorizados en distintos
grupos en función de la metodología empleada o el objetivo perseguido. En términos
generales, un modelo SIG puede ser consideradoscomo el proceso de combinación de un
conjunto de mapas o capas de entrada para producir un mapa de salida (Burrough, 1986;
Aronoff, 1989; Berry, 1993): MapaSalida = f (Mapa1 , Mapa2 , Mapa3 , ..., Mapan ) La
función f presenta formas diferentes y puede ser categorizada en tres tipos dependiendo de la
naturaleza de la relación expresada (Bonham-Carter, 1994): (a) basada en teorías y principios
de la física y la química, (b) empírica, basada en observaciones de los datos (estadística o
heurística), o (c) algún tipo de mezcla entre teoría y empirismo, lo que da origen a otra
clasificación de los modelos en teóricos, empíricos e híbridos, respectivamente. Luo (1990) y,
posteriormente, Fabbri y Chung (1996) proponen una aproximación unificada a la integración
de datos espaciales para predicción mediante funciones de favorabilidad, en la que cada capa
o mapa relevante en el modelo es clasificada en función de su favorabilidad a la presencia de
un objeto concreto de interés (por ejemplo, un depósito mineral). Las capas clasificadas, o
funciones de favorabilidad, son combinadas siguiendo reglas que pueden ser lógicas,
aritméticas, probabilísticas, etc. (Figura 2). Las funciones de favorabilidad son deducibles
mediante la aplicación de métodos diversos de análisis espacial, que pueden ir desde una
simple reclasificación de las clases temáticas de un mapa hasta métodos estadísticos
avanzados (por ejemplo, estimación geoestadística). Se pretende con estos métodos
caracterizar la distribución espacial de las variables relacionadas con los recursos, para así
detectar las zonas anómalas de interés prospectivo; es decir, la delimitación de objetivos
parciales de exploración. Cada uno de estos objetivos parciales, en forma de capa de
información SIG, indica la favorabilidad a la presencia potencial de depósitos, y es obtenido a
partir del tratamiento de los datos generados por una técnica de exploración (por ejemplo,
geoquímica). En general, los objetivos parciales no permiten individualmente indicar de
forma excluyente la presencia de un depósito mineral, por lo que es necesario combinar todos
ellos para generar los objetivos finales con la mayor posibilidad de éxito (Bonham-Carter,
1994). Los modelos utilizados para la predicción de recursos geológicos, son típicamente
modelos predictivos de tipo empírico, estadísticos o heurísticos, ya que en la génesis de la
mayor parte de los recursos geológicos intervienen numerosos y complejos factores físico-
químicos difícilmente “predecibles” mediante teorías expresadas matemáticamente (Bonham-
Carter, 1994). Esto da lugar a una división adicional de los modelos espaciales empíricos en
dos tipos: basados en el conocimiento y basados en los datos (Bonham-Carter, 1994; Pendock
y Nedeljkovic, 1997). En el primer caso, los parámetros son estimados sobre la base de la
opinión de un experto en el tema, y en el segundo son obtenidos del análisis de las relaciones
espaciales entre las capas independientes y la capa dependiente. Los modelos basados en el
conocimiento hacen uso de funciones de integración tales como la lógica booleana, la suma
ponderada o la lógica difusa, mientras que los modelos basados en los datos utilizan
típicamente funciones como la regresión múltiple, el análisis discriminante, métodos
probabilísticos bayesianos o incluso redes neuronales (Bonham-Carter et al., 1989; Agterberg
et al., 1993; Bonham-Carter, 1994; Rigol-Sanchez et al., 2003). Los modelos basados en la
suma ponderada y en la regresión múltiple son, debido a sus características, dos de los
métodos más utilizados.
Modelos basados en suma ponderada
Este método es simple, está basado en la multiplicación de cada capa de entrada por un peso
o factor de ponderación que indica su importancia en el modelo, y la posterior suma de las
capas así modificadas. El resultado es una nueva capa con valores numéricos, cuya magnitud
representa en una escala relativa la favorabilidad de cada zona. Esta aproximación posibilita
una selección flexible de las zonas de interés, y permite, además, tener en cuenta la
distribución espacial de las mismas en el proceso de selección (Bonham-Carter, 1994). El
método presenta la ventaja adicional de poder ser aplicado indistintamente a capas con dos o
más clases. En el caso de capas de entrada binarias, éstas llevan asociado solamente el valor
del peso asignado. En cambio, con las capas multiclase se introduce mucha más información
en el modelo, puesto que se asigna un valor de favorabilidad diferente a cada una de las
clases. En estas aproximaciones también se hace intervenir información derivada de los datos,
en el sentido que los umbrales para la binarización o definición de las clases pueden ser
obtenidos mediante el análisis de las relaciones entre un mapa de indicios y los mapas de
entrada (Rigol-Sánchez, 2000). La aplicación del método de suma ponderada a mapas de
entrada multiclase implica la asignación no sólo de un peso a cada capa de entrada al modelo,
sino también el establecimiento de un peso diferente a cada una de las clases que compone
cada mapa. La función de combinación utilizada en este caso se representa mediante la
expresión simple: * F P P Pcl i i n i ij i n = / / en la que F es la puntuación que indica la
favorabilidad estimada por el modelo; Pi es el peso para el mapa de entrada i, y Pclij es la
puntuación para la clase j del mapa i. El valor de j depende de la clase temática que aparezca
en cada píxel o polígono del mapa i. En esta situación, la puntuación no está necesariamente
en el intervalo [0, 1], sino en un rango que varía en función de la magnitud de los pesos
usados. La suma ponderada de capas multiclase es un método frecuentemente utilizado en la
modelización espacial con SIG, debido fundamentalmente a su sencillez conceptual, fácil
aplicación y notable flexibilidad a la hora de incorporar información relevante (en forma de
pesos) en el proceso de combinación. No obstante, BonhamCarter (1994) argumenta que la
principal limitación del método radica en su naturaleza lineal aditiva. bilidad usando distintas
combinaciones de los mapas relevantes multiclase que estaban disponibles en la base de datos
de exploración. En este estudio se llevaron a cabo numerosos experimentos de los que
seguidamente se presenta un ejemplo ilustrativo; para ello se utilizaron los modelos de
depósito y las guías de exploración para elaborar los criterios a aplicar en la evaluación de la
hipótesis de potencialidad minera. El estudio se orientó a la selección de zonas propicias para
la presencia de depósitos de sulfuros metálicos (Pb-Zn-Cu-Ag-Au). Para este análisis se
empleó una reclasificación en cuatro niveles de favorabilidad para todos los mapas de entrada
(funciones de favorabilidad): (1) muy poco favorable, (2) poco favorable, (3) favorable y (4)
muy favorable. Para la asignación de puntuación a las cuatro clases de cada mapa (Pclij), se
optó por seguir un esquema común con valores 2, 4, 8 y 16. Para el peso asignado a cada
mapa (Pi ) se definió un esquema análogo a porcentajes, con pesos individuales acotados en
el rango [0, 100] y cuya suma total es 100. En la Tabla 2 se detallan las capas utilizadas para
los depósitos de sulfuros polimetálicos y los pesos asignados a cada una. El resultado de la
aplicación de este modelo es una nueva capa ráster en la que cada celda toma un valor en el
rango [2, 16]. Este valor se ha interpretado como un índice de favorabilidad minera (IFM),
que indicaría las zonas con más potencial para contener un depósito mineral del tipo en
cuestión. 2.2.2. Modelos basados en regresión logística múltiple El análisis de regresión es un
método estadístico bien conocido y extendido en numerosas disciplinas científicas, usado
para explorar las relaciones entre distintas variables sobre la base de observaciones de esas
variables. El método implica la derivación de una relación matemática entre un conjunto de
variables predictivas o explicativas independientes y una condición dependiente específica
(Davis, 1986). El objetivo es, por tanto, explicar las variaciones en el conjunto de
observaciones de la variable dependiente en términos de las variables independientes.
Además de la identificación de un buen modelo, un objetivo adicional es la obtención de una
buena estimación de los coeficientes de regresión. Asimismo, en algunas situaciones, como
es el caso práctico planteado, hay un objetivo último que es proporcionar una ecuación
predictiva. No obstante, como se mecionaba anteriormente, el conocimiento del fenómeno
estudiado es un aspecto importante a la hora de especificar un modelo de regresión, y en
general, cualquier modelo basado en los datos. Uno de los principales problemas que se
encuentran en regresión múltiple con datos espaciales se debe al incumplimiento de los
supuestos del método de mínimos cuadrados, que es el proceso utilizado para ajustar y hacer
inferencia, o bien debido a la naturaleza de los datos (Haining, 1990). Si la variable
dependiente a modelizar es categórica, como es el caso de la presencia o ausencia de un
recurso geológico, el modelo de regresión lineal normal no es adecuado y se debe emplear un
modelo lineal generalizado como la regresión logística múltiple (Petruccelli et al., 1999). La
regresión logística múltiple permite identificar las variables importantes en la predicción de la
probabilidad de presencia de un depósito, en la que la presencia o ausencia del depósito se
define como una variable dicotómica dependiente. Los coeficientes de regresión para cada
variable derivados de las observaciones experimentales en el área de estudio, son utilizados
como pesos en un algoritmo aplicable a la base de datos SIG, por ejemplo, mediante álgebra
de mapas (Tomlin, 1991). De esta forma, se obtiene un mapa que muestra en términos de
probabilidad (intervalo [0,1]) la presencia de un depósito mineral, equivalente al IFM.
Cuantitativamente, la relación de dependencia entre la ocurrencia y el conjunto de variables
predictivas se expresa como: Px =p(D)=1/( 1+{exp[-(B0 +B1 X1 + ... +Bp Xp )]}) donde D
es presencia/ausencia de depósitos, X1 ... Xp son el conjunto de variables o capas de
información de exploración (por ejemplo, alteración hidrotermal, distancia a fracturas,
anomalía geoquímica, etc.), y B0 ...Bp son los coeficientes derivados de la regresión
logística. Es decir, D es la variable dependiente y X1 ... Xp son las variables independientes.
Para aplicar la regresión logística múltiple a los datos de exploración se obtuvieron, en primer
lugar, los datos adecuados de entrada para construir el modelo en un paquete estadístico
externo al SIG. Todas las variables predictoras se transformaron linealmente al intervalo [0,1]
y la variable dependiente (presencia de depósitos) en una capa binaria. Para ilustrar el
proceso descrito se presenta un experimento en el que se construyó y aplicó. un modelo para
la predicción de depósitos de oro en el distrito de Rodalquilar. En este experimento se utilizó
un subconjunto de siete capas de información: (1) distancia a estructuras de fracturación; (2)
componente principal 1 de la geoquímica, relacionada esencialmente con la litología, con
valores positivos para elementos metálicos asociados a rocas básicas y negativos para
elementos metálicos asociados a rocas ácidas; (3) componente principal 2 de la geoquímica,
relacionada con elementos metálicos típicos de las mineralizaciones de oro; (4) anomalía
gravimétrica residual; (5) anomalía magnética residual; (6) cociente TM 5/7, y (7) cociente
TM 3/1; estas dos últimas variables se refieren a cocientes de datos radiométricos de las
bandas 5, 7, 3 y 1 de una imagen Landsat TM de la estación seca de verano (7/7/2001). Se
interpretan como indicadores de la abundacia de arcillas de alteración hidrotermal y de
óxidos de hierro, respectivamente (Sabins, 1996; Vincent, 1997). Para los análisis se
seleccionaron 49 indicios mineros, depósitos de oro conocidos, situados en el distrito. Este
conjunto (unos) se completó con una muestra de 56 celdas, a priori estériles (ceros), mediante
muestreo aleatorio estratificado (selección de un punto aleatorio en el interior de la celda).
Resultados y discusión
Los resultados de la aplicación de los modelos SIG descritos para integración de datos
espaciales en investigación de recursos geológicos son mapas de un índice de potencialidad o
favorabilidad minera (IFM). El mapa que se muestra en la Figura 3 indica la favorabilidad a
la presencia de depósitos de sulfuros polimetálicos, obtenida con el método de suma
ponderada multiclase. En el mismo se observa que las zonas con mayor potencialidad se
sitúan en torno al distrito de San José, concretamente en la parte central y noroccidental de la
Sierra de Cabo de Gata. En este caso, el IFM alcanza valores máximos, superiores a 13 (tonos
rojos), solamente en un pequeño sector. En el distrito de Rodalquilar los valores de IFM son
medios, principalmente al sur y este del sector conocido como Cerro del Cinto, junto a la
localidad de Rodalquilar. El análisis del porcentaje de indicios situados en cada clase del
mapa de favorabilidad generado, así como el área porcentual que ocupa cada una de las
clases, indica que las clases con valor IFM ≥ 6, que representan una extensión del 15 % del
área total, contienen el 84 % de los indicios. Es evidente el interés de estos resultados pues
reducen considerablemente el área objetivo de futuros reconocimientos mediante sondeos de
investigación. En términos generales, el modelo de suma ponderada multiclase ha resultado
una técnica de gran utilidad y muy potente para la creación de mapas de favorabilidad
minera. El número de combinaciones de capas y esquemas de ponderación es enorme, lo que
proporciona a este método de modelización de una gran flexibilidad. En el caso de la
aplicación del modelo de regresión logística múltiple en el distrito de Rodalquilar, dio como
resultado la siguiente expresión en la que se muestran los coeficientes del modelo para cada
variable independiente:
Las capas correspondientes a la distancia a lineamientos, fracturas y filones (distlff), el

componente principal 1 de la geoquímica (gqpc1) y la anomalía magnética residual (magr)
presentan coeficientes negativos, lo que señala que al aumentar su valor disminuye la
probabilidad de presencia de depósitos. El resto de variables presentan coeficientes positivos
indicando la relación contraria. El coeficiente mayor en valor absoluto corresponde al
cociente de las bandas radiométricas Landsat TM 5/7 (tm57), relacionado con las alteraciones
hidrotermales, seguido de la distancia a lineamientos, fracturas y filones (distlff) y la
anomalía gravimétrica residual (gravr). El componente principal 1 y la anomalía magnética
residual presentan una contribución relativamente pequeña al modelo. El análisis de los
coeficientes y el valor del estadístico de Wald asociado sugieren que la distancia a estructuras
de fracturación (distlff) y el cociente de las bandas Landsat TM 5/7 (tm57) son los más
interesantes en la determinación de la presencia o ausencia de depósitos minerales. La bondad
del ajuste se estimó sobre un subconjunto independiente de datos, observando que el modelo
es capaz de estimar de forma moderadamente aceptable la probabilidad de presencia de
depósitos en puntos (celdas) desconocidas (R2 =0.47). Los coeficientes estimados se
utilizaron para aplicar el modelo en el SIG y generar la capa de favorabilidad de presencia de
depósitos. El mapa resultante se muestra en la Figura 4 en una escala de 0 a 10. El examen
visual del mismo muestra su parecido a la capa de entrada TM 5/7, circunstancia lógica dado
que esta capa presenta el coeficiente de regresión logística más elevado. Las zonas de mayor
interés se sitúan en torno al sector del Cinto y al sur del área de los Tollos, las cuales ocupan
una extensión relativamente grande. También aparece una zona de valores altos al sur de la
carretera que parte de Rodalquilar hacia el oeste, pero bastante discontinua. Se observa
además una zona en el borde izquierdo del área analizada que presenta valores medios y
altos. En el borde norte se observa una pequeña zona también de interés potencial alto. La
comparación de la distribución espacial de los indicios mineros conocidos respecto a las
distintas clases de favorabilidad de los mapas obtenidos indica que más del 85 % de los
indicios se sitúa en las clases con valor IFM ≥ 5. Si se consideran las clases con valor IFM ≥
8, el porcentaje de indicios situados en ellas es del 75 %, mientras que el área supone el 25 %
del área total.
3. CONCLUSIÓN
I. La miería de datos es una herramienta que ha tomado cuerpo desde
las épocas de los 90’ y ha sido reinventada utilizando softwares
potentes de minado de datos en la web.
II. El minado de datos es aplicable en todas las áreas a nivel global y
de la misma manera a todos los profesionales puesto que ellos
utilizan manejo de datos.
III. Las organizaciones que aplican el minado de datos trae en
consecuencia diversos beneficios que mejoran la producción y
objetivos trazados.
IV. Respecto a la producción en minería se puede aplicar
minería de datos en mi área de trabajo, la construcción de
chimeneas mediante raiseboring donde se planea el tipo de
producción, mantenimiento y logística de máquinas. Hasta con una
aplicación de geomecánica realizar una predicción de cáida de
rocas mediante redes neuronales.
4. REFERENCIAS
 Vergaray, A. D. (2016). Data minig: minería de datos: Vol. I (2016.a ed.)
[Impreso]. Macro. https://editorialmacro.com/catalogo/data-mining/
(consulta 20 de octubre 2022) p.15.
 Cisaro, S. G. (2008, 1 enero). El proceso de minería de datos asistido por
ontologías. https://www.academia.edu.com. Recuperado 20 de octubre de
2022, de https://www.academia.edu/2099490/El_proceso_de_miner
%C3%ADa_de_datos_asistido_por_ontolog%C3%ADas (consulta 20 de
octubre 2022).
 Rajaraman, A. & Ullman, J. D. (2011). Mining of Massive Datasets (1.a
ed.) [Impreso]. Cambridge University Press. http://www.mmds.org/
(Consulta 20 de octubre 2022) p. 01.
 Zaki, M. J. & Jr, M. W. (2020, 12 marzo). Data Mining and Machine
Learning: Fundamental Concepts and Algorithms (2nd ed.) [Impreso].
Cambridge University Press. https://dataminingbook.info/book_html/
(consulta 20 de octubre 2022) p.03.
 ESIC Business & Marketing School. (2018, 1 enero). Minería de datos:
qué es, cómo es el proceso y a qué áreas se puede aplicar. ESIC.
Recuperado 20 de octubre de 2022, de
https://www.esic.edu/rethink/tecnologia/mineria-datos-proceso-areas-se-
puede-aplica .
 Novoseltseva, E. (2021, 28 abril). Minería de datos: casos de uso y
beneficios. Apiumhub. Recuperado 20 de octubre de 2022, de

https://apiumhub.com/es/tech-blog-barcelona/mineria-de-datos-casos-de-
uso-beneficios/ .
 Kanade, V. (2022, 4 octubre). What Is Data Mining? Definition,
Techniques, and Tools. Spiceworks. Recuperado 20 de octubre de 2022, de
https://www.spiceworks.com/tech/big-data/articles/what-is-data-mining/ .
 Stedman, C. & Hughes, A. (2021, 7 septiembre). data mining.
SearchBusinessAnalytics. Recuperado 20 de octubre de 2022, de
https://www.techtarget.com/searchbusinessanalytics/definition/data-
mining

Ensayo Minería de Datos

Cargado por

Copyright:

Formatos disponibles

Ensayo Minería de Datos

Cargado por

Información del documento

Descripción original:

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Ensayo Minería de Datos

Cargado por

Copyright:

Formatos disponibles

1WS2DE3RTF5G6Y7UNIVERSIDAD NACIONAL

DEL CENTRO DEL PERÚ

Facultad de Ingeniería de Minas

ENSAYO: Minería de datos y

La minería de datos ha tenido muchas definiciones según los autores y campos de

En las investigaciones de Vergaray A.D. (2016) en su libro DATA MINIG:

Habiendo conocido el concepto de minería de datos es preciso conocer también el

 Comercio: Se aplica minería de datos en la segmentación de

 Medicina y farmacia: La extracción de datos permite realizar

 Seguridad y detección de fraude: Se maneja amplia fuente de

 Recuperación de información no numérica: Minería de

 Geología, minería, agricultura y pesca: Identificación de

 Ciencias ambientales: Identificación de modelos de

 Ciencias sociales: Estudio de los flujos de la opinión pública.

 Marketing: La minería de datos se utiliza para explorar bases

 Banca: Los bancos usan la minería de datos para comprender

 Educación: La minería de datos beneficia a los educadores

 Comercio electrónico: Los sitios web de comercio utilizan la

 Comercio minorista: Los supermercados, por ejemplo,

 Proveedores de servicios: Los proveedores de servicios, como

 Compañías de seguros: La minería de datos ayuda a las

 Fabricación: Con la ayuda de la minería de datos, los

 Investigación de delitos: La minería de datos ayuda a los

 Televisión y radio: Hay redes que aplican la minería de datos

 Entretenimiento: Los servicios de Streaming utilizan la

Según los investigadores citados y entendimiento personal la Big Data o Data

Para realizar minado de datos existen herramientas de extracción de datos para

El conjunto volcánico calco alcalino de Cabo de Gata es el más importante,

Modelos basados en suma ponderada

Las capas correspondientes a la distancia a lineamientos, fracturas y filones (distlff), el

 Vergaray, A. D. (2016). Data minig: minería de datos: Vol. I (2016.a ed.)

[Impreso]. Macro. https://editorialmacro.com/catalogo/data-mining/

(consulta 20 de octubre 2022) p.15.

 Cisaro, S. G. (2008, 1 enero). El proceso de minería de datos asistido por

ontologías. https://www.academia.edu.com. Recuperado 20 de octubre de

 Rajaraman, A. & Ullman, J. D. (2011). Mining of Massive Datasets (1.a

ed.) [Impreso]. Cambridge University Press. http://www.mmds.org/

(Consulta 20 de octubre 2022) p. 01.

 Zaki, M. J. & Jr, M. W. (2020, 12 marzo). Data Mining and Machine

Learning: Fundamental Concepts and Algorithms (2nd ed.) [Impreso].

Cambridge University Press. https://dataminingbook.info/book_html/

(consulta 20 de octubre 2022) p.03.

 ESIC Business & Marketing School. (2018, 1 enero). Minería de datos:

qué es, cómo es el proceso y a qué áreas se puede aplicar. ESIC.

Recuperado 20 de octubre de 2022, de

 Novoseltseva, E. (2021, 28 abril). Minería de datos: casos de uso y

beneficios. Apiumhub. Recuperado 20 de octubre de 2022, de

 Kanade, V. (2022, 4 octubre). What Is Data Mining? Definition,

Techniques, and Tools. Spiceworks. Recuperado 20 de octubre de 2022, de

 Stedman, C. & Hughes, A. (2021, 7 septiembre). data mining.

SearchBusinessAnalytics. Recuperado 20 de octubre de 2022, de

También podría gustarte