s8 Interactivo Profundizacion Conbd1201 Des

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 23

CONTROL ESTADÍSTICO DE PROCESOS Y BIG DATA

CREACIÓN DEL ÁRBOL DE DECISIONES CON UN SOFTWARE DE


ANÁLISIS DE DATOS

INSTRUCCIONES:

En este material de estudio, se abordará la construcción de un árbol de decisiones


utilizando software de análisis de datos. Se discutirá cómo seleccionar atributos relevantes
y cómo interpretar los resultados del árbol, utilizando simbologías estándar para
representar las divisiones y decisiones. Además, se presentará el problema industrial que
se pretende resolver con el árbol de decisiones, y se explorará cómo la analítica avanzada,
la analítica predictiva y la analítica prescriptiva pueden ser aplicadas para identificar
patrones y relaciones en los datos que ayuden a proponer soluciones efectivas. Finalmente,
se explicará cómo diseñar un diagrama que represente el árbol de decisiones, mostrando
cómo visualizar las divisiones de los datos y las decisiones en un diagrama claro y
comprensible.

TEMARIO:
Creación del árbol
Definición del problema
Diseño del diagrama

CREACIÓN DEL ÁRBOL DE DECISIONES CON UN SOFTWARE DE ANÁLISIS DE


DATOS.
Creación del árbol

En el campo del análisis de datos, especialmente en el contexto de Big Data, los


profesionales se encuentran con una variedad de herramientas y técnicas diseñadas para
facilitar la toma de decisiones basadas en datos. Una de estas herramientas esenciales es el
árbol de decisiones.

Un árbol de decisiones puede visualizarse como un árbol en el que cada bifurcación


representa un criterio de decisión, y cada rama es una elección posible. Esta estructura
permite visualizar de manera clara y estructurada todas las posibles consecuencias de una
serie de decisiones. Es una herramienta poderosa que transforma datos complejos en una
representación visual fácil de interpretar, permitiendo a los profesionales anticipar
resultados y tomar decisiones informadas.

Sin embargo, como con todas las herramientas, es esencial comprender tanto sus fortalezas
como sus limitaciones. Los árboles de decisiones ofrecen claridad y simplifican situaciones
complejas, lo que es invaluable en la toma de decisiones. Su capacidad para manejar datos
tanto numéricos como categóricos sin requerir supuestos complejos es una ventaja
significativa. Pero es esencial ser cauteloso. Los árboles de decisiones, si no se construyen
con cuidado, pueden ser sensibles a pequeñas variaciones en los datos. Esta sensibilidad
puede llevar a interpretaciones erróneas o a modelos que no se generalizan bien a nuevos
conjuntos de datos.

Además, es crucial tener en cuenta el riesgo de sobreajuste. Un árbol de decisiones que es


demasiado detallado puede adaptarse demasiado a un conjunto de datos específico, lo que
significa que puede no funcionar bien con nuevos datos. Por lo tanto, al construir y utilizar
árboles de decisiones, es esencial equilibrar la precisión y la generalidad, asegurando que
el modelo sea tanto detallado como aplicable a diferentes situaciones.

INTERACCIÓN COMPLEMENTARIA:
DATO DE INTERÉS

Para visualizar mejor este concepto, se puede considerar el juego "Adivina Quién". En este
juego, dos jugadores intentan adivinar el personaje secreto del oponente haciendo
preguntas sobre sus características físicas. Con cada respuesta, los jugadores van
descartando opciones en su tablero, acercándose cada vez más al personaje secreto del
oponente.

Este proceso es análogo a cómo funciona un árbol de decisión: a medida que se avanza por
las ramas del árbol, se toman decisiones basadas en la información disponible, llevando
finalmente a una conclusión o decisión final.

En el mundo del análisis de datos, la visualización y comprensión de la información es


esencial. Al explorar el software RapidMiner, uno se encuentra con una herramienta
poderosa que permite construir árboles de decisiones de manera intuitiva. Al observar el
diagrama generado por este software, es evidente que se compone principalmente de
ramas y rectángulos. Estos rectángulos, que representan nodos, son cruciales para entender
el flujo de decisiones.
En las ramas del árbol de decisiones, es común observar números acompañados de signos
como "mayor que" (>), "menor que" (<), "mayor o igual que" (≥) o "menor o igual que" (≤).
Estos signos y números son criterios de decisión que determinan el camino a seguir en el
árbol. Por ejemplo, si una rama dice "Edad > 18", significa que esa rama corresponde a los
datos donde la edad es mayor que 18 años. Estos criterios son fundamentales para
segmentar y analizar los datos de manera efectiva.

Al final de cada nodo, se puede observar una indicación clara: "yes" o "no", que guía la toma
de decisiones basada en los criterios establecidos. Además, hay una barra que varía entre
rojo y azul, proporcionando una representación visual de la distribución de los datos en ese
nodo específico.

Es esencial mencionar que, al trabajar con herramientas como RapidMiner, la claridad y


precisión son fundamentales. La capacidad de interpretar y comunicar los resultados de
manera efectiva.

Visualización gráfica de un árbol de decisión


• Origen: este es el punto de partida del árbol de decisión, donde se plantea la situación
o problema inicial.
• Condición: basado en el origen, esta es la primera bifurcación que representa una
condición o criterio específico a considerar.
• Condición saliendo de condición: esta es una condición subsecuente que se deriva de
la primera, mostrando la profundidad y complejidad del proceso de toma de
decisiones.
• Acción: tras evaluar todas las condiciones, este nodo representa la acción final o
decisión a tomar.

MICROACTIVIDAD 1
A continuación, se te presenta una microactividad en la que deberás responder la pregunta
que se te presenta: ¿Cuál de las siguientes afirmaciones sobre los árboles de decisiones es
correcta?
Selecciona la respuesta correcta del siguiente listado:

a) Los árboles de decisiones no pueden manejar datos categóricos.


b) Los árboles de decisiones requieren supuestos complejos para su construcción.
c) Los árboles de decisiones son insensibles a pequeñas variaciones en los datos.
d) Los árboles de decisiones pueden ser sensibles a pequeñas variaciones en los datos
y pueden sufrir de sobreajuste.
e) Los árboles de decisiones no pueden visualizarse y son difíciles de interpretar.

RETROALIMENTACIÓN
La respuesta correcta es la d). Los árboles de decisiones pueden ser sensibles a pequeñas
variaciones en los datos y pueden sufrir de sobreajuste.

Los árboles de decisiones son herramientas poderosas para la toma de decisiones basadas
en datos, ya que transforman datos complejos en una representación visual fácil de
interpretar. Sin embargo, es importante tener en cuenta que pueden ser sensibles a
pequeñas variaciones en los datos, lo que puede llevar a interpretaciones erróneas o a
modelos que no se generalizan bien a nuevos conjuntos de datos. Además, un árbol de
decisiones que es demasiado detallado puede adaptarse demasiado a un conjunto de datos
específico, lo que significa que puede no funcionar bien con nuevos datos. Por lo tanto, al
construir y utilizar árboles de decisiones, es esencial equilibrar la precisión y la generalidad.

DEFINICIÓN DEL PROBLEMA


Presentación del problema y el proceso con un software de análisis de datos

La "analítica prescriptiva" representa una evolución en el mundo del análisis de datos,


ofreciendo no solo un diagnóstico o una predicción, sino también soluciones y
recomendaciones concretas para enfrentar desafíos empresariales. Esta técnica se
distingue por su capacidad para considerar la información actual del negocio y evaluar el
impacto potencial de diversas decisiones, proporcionando así un camino claro hacia las
acciones más beneficiosas.

Al adentrarse en la analítica prescriptiva, uno descubre que no se trata simplemente de


analizar datos. Va más allá, integrando la recopilación de información, la predicción basada
en esos datos y la determinación de la mejor decisión o política a seguir mediante un
proceso meticuloso de optimización. Esta metodología resulta ser un recurso invaluable en
escenarios donde las decisiones son recurrentes pero intrincadas.

Una característica distintiva de la analítica prescriptiva es su capacidad para automatizar la


toma de decisiones. Aquí, se destaca el uso de sistemas de gestión de reglas de negocio.
Estos sistemas, con su habilidad para implementar políticas de decisión en un lenguaje
comprensible, simplifican la toma de decisiones. No obstante, es crucial reconocer que,
aunque la implementación pueda parecer sencilla en la superficie, las reglas que rigen estas
decisiones pueden ser intrincadamente complejas.

INTERACCION COMPLEMENTARIA
LECTURA RECOMENDADA

Castillo, J. A. (2019). Big data. IFCT128PO. IC Editorial.


https://elibro.net/es/ereader/iacc/124254?page=216. Consultado en: 11 Aug 2023

La analítica avanzada, la analítica predictiva y la analítica prescriptiva son componentes


esenciales en el ámbito de la ciencia de datos y juegan un papel crucial en la toma de
decisiones empresariales, la avanzada se centra en extraer información y patrones de
grandes conjuntos de datos, la predictiva busca predecir eventos futuros basándose en
datos históricos y la prescriptiva va un paso más allá al recomendar acciones específicas
basadas en predicciones y análisis. Cada una de estas áreas presenta sus propios desafíos y
problemas, pero juntas ofrecen una poderosa herramienta para las empresas en la era de
la información. A continuación, se detalla el proceso y el problema asociado a cada una de
estas áreas:

1. ANALÍTICA AVANZADA:
Proceso:
• Recopilación de grandes volúmenes de datos de diversas fuentes.
• Limpieza y preprocesamiento de datos para eliminar inconsistencias y errores.
• Aplicación de técnicas matemáticas y estadísticas para analizar y extraer patrones
de los datos.
Problema:
• La principal preocupación en la analítica avanzada es cómo manejar y procesar
grandes cantidades de datos de manera eficiente.
• Determinar qué técnicas son las más adecuadas para analizar los datos y extraer
información valiosa.
• Garantizar la calidad y precisión de los datos para obtener resultados confiables.

2. ANALÍTICA PREDICTIVA:
Proceso:
• Utilización de datos históricos para construir modelos que puedan predecir eventos
o resultados futuros.
• Aplicación de algoritmos de aprendizaje automático y técnicas estadísticas para
entrenar estos modelos.
• Validación y ajuste de los modelos para garantizar su precisión.
Problema:
• La principal preocupación es cómo construir modelos que sean precisos y confiables.
• Determinar qué variables o características son las más relevantes para hacer
predicciones precisas.
• Evitar el sobreajuste, donde el modelo es demasiado complejo y se ajusta
demasiado a los datos de entrenamiento.

3. ANALÍTICA PRESCRIPTIVA:
Proceso:
• Utilización de modelos predictivos para determinar posibles resultados.
• Aplicación de técnicas de optimización y simulación para recomendar acciones
específicas que conduzcan al mejor resultado posible.
• Consideración de restricciones y escenarios alternativos para proporcionar
soluciones viables.
Problema:
• La principal preocupación es cómo tomar decisiones que no solo sean óptimas desde
una perspectiva matemática, sino también prácticas y viables en el mundo real.
• Garantizar que las recomendaciones sean realistas y aplicables en el contexto
empresarial.
• Considerar múltiples factores y restricciones al hacer recomendaciones.

En la analítica avanzada, las herramientas informáticas facilitan la recopilación y gestión de


datos, preparándolos para un análisis más profundo. Estas herramientas también son
esenciales para la limpieza y normalización de datos, garantizando que la información sea
precisa y relevante.

En el ámbito de la analítica predictiva, los softwares juegan un papel vital en la construcción


y validación de modelos predictivos. Estas herramientas permiten a los expertos aplicar
algoritmos avanzados, evaluar la precisión de los modelos y hacer ajustes según sea
necesario. Además, una vez que se ha desarrollado un modelo, los softwares facilitan su
implementación en sistemas en tiempo real, permitiendo predicciones basadas en datos
actuales.

La analítica prescriptiva, por otro lado, se centra en la optimización (“proceso que se utiliza
en la analítica prescriptiva para encontrar la mejor solución o decisión posible para un
problema”) y simulación (“herramienta que se utiliza en la analítica prescriptiva para
representar detalladamente las posibles consecuencias de cada decisión”). Con la ayuda de
softwares especializados, las organizaciones pueden determinar las mejores decisiones a
tomar, considerando múltiples escenarios y restricciones. Estas herramientas también
ofrecen capacidades de simulación, proporcionando una visión detallada de las posibles
consecuencias de cada decisión. Además, algunos softwares avanzados incluso ofrecen
recomendaciones automáticas (“sugerencias o consejos generados automáticamente por
sistemas de analítica prescriptiva basados en análisis y predicciones, que guían a las
empresas hacia decisiones óptimas”), guiando a las empresas hacia decisiones óptimas.

Comparación de procesos y problemas en analítica avanzada, predictiva y prescriptiva


TIPO DE ANALÍTICA PROCESO PROBLEMA
La principal preocupación es
• Recopilación de grandes
cómo manejar y procesar
volúmenes de datos de
grandes cantidades de datos
diversas fuentes.
de manera eficiente.
• Limpieza y preprocesamiento
Determinar qué técnicas son
de datos para eliminar
las más adecuadas para
Analítica avanzada inconsistencias y errores.
analizar los datos y extraer
• Aplicación de técnicas
información valiosa.
matemáticas y estadísticas
Garantizar la calidad y
para analizar y extraer
precisión de los datos para
patrones de los datos.
obtener resultados
confiables.
• Utilización de datos históricos La principal preocupación es
para construir modelos que cómo construir modelos que
puedan predecir eventos o sean precisos y confiables.
resultados futuros. Determinar qué variables o
• Aplicación de algoritmos de características son las más
aprendizaje automático y relevantes para hacer
Analítica predictiva
técnicas estadísticas para predicciones precisas.
entrenar estos modelos. Evitar el sobreajuste, donde
• Validación y ajuste de los el modelo es demasiado
modelos para garantizar su complejo y se ajusta
precisión. demasiado a los datos de
entrenamiento.
La principal preocupación es
• Utilización de modelos
cómo tomar decisiones que
predictivos para determinar
no solo sean óptimas desde
posibles resultados.
una perspectiva
• Aplicación de técnicas de matemática, sino también
optimización y simulación prácticas y viables en el
para recomendar acciones mundo real.
específicas que conduzcan al Garantizar que las
Analítica prescriptiva
mejor resultado posible. recomendaciones sean
• Consideración de realistas y aplicables en el
restricciones y escenarios contexto empresarial.
alternativos para Considerar múltiples
proporcionar soluciones factores y restricciones al
viables. hacer recomendaciones.

• La analítica avanzada se centra en la recopilación, limpieza y análisis de grandes


volúmenes de datos para extraer patrones e información valiosa. Los problemas
asociados incluyen la gestión eficiente de grandes cantidades de datos, la selección
de técnicas adecuadas para el análisis y la garantía de la calidad y precisión de los
datos.
• La analítica predictiva utiliza datos históricos para construir modelos que pueden
predecir eventos o resultados futuros. Los problemas asociados incluyen la
construcción de modelos precisos y confiables, la determinación de variables
relevantes para hacer predicciones precisas y la evitación del sobreajuste.
• La analítica predictiva utiliza datos históricos para construir modelos que pueden
predecir eventos o resultados futuros. Los problemas asociados incluyen la
construcción de modelos precisos y confiables, la determinación de variables
relevantes para hacer predicciones precisas y la evitación del sobreajuste.
• Cada tipo de analítica tiene su propio conjunto de procesos y problemas asociados.
La comprensión de estos aspectos es fundamental para aplicar eficazmente estas
técnicas en la toma de decisiones empresariales.

MICROACTIVIDAD 2
A continuación, se presenta una microactividad que tiene como objetivo identificar los
conceptos con sus respectivas definiciones. Para ello, lee los términos que se señalan en la
columna A y, luego, lee las descripciones de la columna B e identifica cuál corresponde a
cada uno:
Columna A Columna B
Recomendaciones automáticas Va más allá de la predicción y sugiere acciones
específicas basadas en análisis y predicciones.
Analítica avanzada Proceso que se utiliza en la analítica prescriptiva para
encontrar la mejor solución o decisión posible para un
problema.
Simulación Sugerencias o consejos generados automáticamente
por sistemas de analítica prescriptiva basados en
análisis y predicciones, que guían a las empresas hacia
decisiones óptimas.
Analítica prescriptiva Utiliza datos pasados para construir estructuras que
puedan anticipar eventos o resultados futuros.
Optimización Se centra en extraer información y patrones de
grandes conjuntos de datos.
Analítica predictiva Es una herramienta que se utiliza en la analítica
prescriptiva para representar detalladamente las
posibles consecuencias de cada decisión.

RETROALIMENTACIÓN
Los conceptos relacionados con presentación del problema y el proceso con un software de
análisis de datos son:

• Recomendaciones automáticas: sugerencias o consejos generados automáticamente


por sistemas de analítica prescriptiva basados en análisis y predicciones, que guían a
las empresas hacia decisiones óptimas.
• Analítica avanzada: se centra en extraer información y patrones de grandes conjuntos de
datos (es el primer paso en el proceso de análisis de datos, donde se recopilan y procesan
grandes volúmenes de datos para extraer información valiosa).
• Simulación: es una herramienta que se utiliza en la analítica prescriptiva para
representar detalladamente las posibles consecuencias de cada decisión, (ayuda a
visualizar los efectos de diferentes acciones y a elegir la más adecuada).
• Analítica prescriptiva: va más allá de la predicción y sugiere acciones específicas
basadas en análisis y predicciones (utiliza los modelos predictivos y aplica técnicas de
optimización y simulación para recomendar acciones específicas que conduzcan al
mejor resultado posible).
• Optimización: es un proceso que se utiliza en la analítica prescriptiva para encontrar
la mejor solución o decisión posible para un problema (se consideran múltiples
escenarios y restricciones para proporcionar soluciones viables).
• Analítica predictiva: utiliza datos históricos para construir modelos que puedan
predecir eventos o resultados futuros (se basa en la información extraída en la etapa
de analítica avanzada y aplica algoritmos y técnicas estadísticas para entrenar
modelos predictivos).

DISEÑO DEL DIAGRAMA


Construcción del histograma y el diagrama con un software de análisis de datos

En el mundo actual, el análisis de datos se ha convertido en una herramienta esencial para


tomar decisiones informadas en diversos campos, desde la industria hasta la medicina. Uno
de los métodos más efectivos para analizar datos es mediante la construcción de diagramas
de árbol de decisión utilizando software de análisis de datos. Estos diagramas permiten
visualizar y comprender patrones y relaciones en los datos de manera más clara y sencilla.

Selección de atributos: antes de construir un diagrama de árbol de decisión, es crucial


seleccionar los atributos adecuados para el análisis. Los atributos son las variables que se
consideran en el análisis y que pueden influir en el resultado que se está tratando de
predecir. La selección de atributos es un paso fundamental porque los atributos incorrectos
pueden llevar a conclusiones erróneas.

En el contexto de una fábrica de componentes industriales, por ejemplo, los atributos


relevantes podrían incluir el tipo de máquina utilizada para producir el componente, la
duración de la producción, el nivel de criticidad del componente para diferentes procesos,
el costo de producción, la zona de inicio de producción, entre otros. Estos atributos pueden
influir en la fiabilidad de un componente y, por lo tanto, son relevantes para el análisis.

Construcción del diagrama: una vez seleccionados los atributos, el siguiente paso es
construir el diagrama de árbol de decisión utilizando un software de análisis de datos. El
software dividirá los datos en función de los atributos seleccionados y creará un diagrama
que muestra las relaciones entre los atributos y el resultado que se está tratando de
predecir.

En el diagrama, cada nodo representa un atributo y cada rama representa una decisión
basada en ese atributo. El diagrama se construye de manera que los atributos que
proporcionan la mayor cantidad de información sobre el resultado se colocan en la parte
superior del árbol. A medida que se desciende por el árbol, los atributos se vuelven menos
informativos.

Interpretación de los resultados


Una vez construido el diagrama, el siguiente paso es interpretar los resultados. El diagrama
mostrará qué atributos son más determinantes para el resultado que se está tratando de
predecir. En el contexto de la fábrica de componentes industriales, por ejemplo, el diagrama
podría mostrar que la máquina utilizada para producir el componente es el atributo más
determinante para la fiabilidad del componente.

Al interpretar los resultados, es importante tener en cuenta que el diagrama de árbol de


decisión es solo una herramienta para analizar los datos y que los resultados deben ser
validados con datos adicionales y conocimientos del dominio.

Aplicación práctica
La construcción de diagramas de árbol de decisión es útil en diversos contextos, incluyendo
la industria de componentes industriales. En este ámbito, los árboles de decisión pueden
ayudar a identificar máquinas propensas a fallar y aquellas más fiables, facilitando
decisiones informadas sobre adquisiciones y mantenimientos preventivos.

Además, los árboles de decisión tienen otras aplicaciones industriales:

• Optimización de la producción: ayudan a identificar factores que afectan la


eficiencia de la producción, como disponibilidad de materias primas, capacidad de
máquinas y demanda del mercado, lo que permite una mejor planificación y
reducción de tiempos de inactividad.

• Mejora de la calidad del producto: permiten identificar factores que afectan la


calidad del producto, como calidad de materias primas, condiciones de
almacenamiento y procesos de fabricación. Esto facilita la implementación de
medidas para mejorar la calidad y reducir devoluciones y reclamaciones.

• Reducción de costos de producción: ayudan a identificar factores que afectan los


costos de producción, como consumo de energía, uso de materias primas y
eficiencia de máquinas, lo que permite implementar medidas para reducir costos y
aumentar la rentabilidad.
Ejercicio sobre la tragedia del Titanic

En este ejercicio, se utiliza un conjunto de datos del Titanic que incluye información sobre
los pasajeros, como género, edad, número de familiares a bordo, clase de pasajero y tarifa
pagada. El objetivo es construir un árbol de decisión para predecir la probabilidad de
supervivencia de los pasajeros.

Se seleccionan los atributos más relevantes para la predicción de la supervivencia: "Sex"


(género), "No of Siblings or Spouses on Board" (número de hermanos o cónyuges a bordo),
"No of Parents or Children on Board" (número de padres o hijos a bordo), "Passenger Class"
(clase de pasajero) y "Passenger Fare" (tarifa pagada).

Utilizando un software de análisis de datos, se construye el árbol de decisión dividiendo los


datos en función de los atributos seleccionados para maximizar la información sobre la
variable objetivo "Survived" (sobrevivió). El árbol resultante muestra las divisiones de los
datos y las probabilidades de supervivencia en cada grupo.

El análisis del árbol de decisión revela que el género es el atributo más determinante para
la supervivencia, seguido por el número de hermanos o cónyuges a bordo y el número de
padres o hijos a bordo. Las mujeres con menos familiares a bordo tenían una mayor
probabilidad de sobrevivir, mientras que los hombres tenían una menor probabilidad de
sobrevivir.

Este ejercicio demuestra cómo los árboles de decisión pueden ser utilizados para analizar
datos y hacer predicciones basadas en variables relevantes. Además, destaca la importancia
de seleccionar los atributos adecuados para construir un árbol de decisión informativo. En
este caso, el árbol proporciona una visión clara de los factores que influyeron en la
supervivencia de los pasajeros del Titanic.

Este enfoque de análisis de datos y construcción de árboles de decisión puede ser


extrapolado a contextos industriales para identificar factores que influyen en la eficiencia
de la producción, la calidad del producto y la reducción de costos, entre otros aspectos clave
en la gestión de procesos industriales.
INTERACCIÓN COMPLEMENTARIA:
CONCEPTOS IMPORTANTES

Analítica avanzada: en el ejercicio, se utiliza la analítica avanzada para analizar el conjunto


de datos del Titanic y extraer información valiosa sobre los factores que influyeron en la
supervivencia de los pasajeros. La analítica avanzada implica el uso de técnicas y
herramientas de análisis de datos para descubrir patrones, relaciones y tendencias en los
datos.
Analítica predictiva: el objetivo principal del ejercicio es construir un árbol de decisión que
permitiera predecir la probabilidad de supervivencia de los pasajeros en función de
variables como el género, el número de familiares a bordo, la clase de pasajero y la tarifa
pagada. La analítica predictiva se utilizó para hacer estas predicciones basadas en el análisis
de los datos históricos del Titanic.
Analítica prescriptiva: esta podría aplicarse en un contexto para recomendar acciones
específicas basadas en los resultados del análisis predictivo. Por ejemplo, en un contexto
industrial, la analítica prescriptiva podría utilizarse para recomendar medidas preventivas
para reducir la probabilidad de fallas en las máquinas, basadas en el análisis de datos
históricos y las predicciones de fallas futuras.

Cargar datos
• Recuerda:
Para cargar archivos externos, puedes agregar un operador:
− Read CSV
− Read Excel
− Read BibTeX
En reemplazo de Retrieve Titanic.

• Arrastra los datos del Titanic a tu proceso.

Set Role (establecer rol)


• Agrega Set Role, conéctalo y configúralo como lo hiciste en el tutorial anterior.

• El rol de un atributo describe cómo otros operadores manejan este atributo. El rol
predeterminado es "regular", mientras que otros roles se clasifican como "especiales".
Un conjunto de datos puede tener muchos atributos especiales y puedes asignar
atributos especiales múltiples veces. Sin embargo, algunos operadores esperan que los
roles especiales sean únicos.
Entrada: espera un conjunto de datos.
Salida: devuelve el conjunto de datos con roles modificados.
También pasa el conjunto de datos original sin cambios.

• Una vez agregado Set Role, conéctalo y configúralo haciendo clic sobre el operador.

• En “Attribute Name” selecciona “Survived”.

• En target role selecciona “label” (). Actúa como un atributo objetivo para operadores.
Una vez seleccionado, aplicar “Apply”.

• Hacer clic sobre “Edit List” para cconfigurar el parámetro del operador.

Seleccionar atributos (Select Attributes)


• Añade el operador "Select Attributes" a tu proceso y conéctalo.

• El operador ofrece diferentes tipos de filtros para facilitar la selección de atributos. Por
ejemplo: selección directa de atributos, selección mediante una expresión regular o
seleccionando solo atributos sin valores faltantes. Los diferentes tipos de filtros se
explican en la sección de parámetros.
Los atributos especiales (atributos con roles, como id, etiqueta, peso) generalmente se
ignoran en la selección. Sin embargo, con un parámetro específico, esto puede cambiar.
Entrada: espera un conjunto de datos del cual quieres seleccionar atributos.
Salida: devuelve el conjunto de datos con solo los atributos seleccionados. También
pasa el conjunto de datos original sin cambios.

• Una vez agregado el operador "Select Attributes" a tu proceso, conéctalo y configúralo


haciendo clic sobre el operador.

• Selecciona los atributos:


− No of Parents or Children on Board
− No of Siblings or Spouses on Board
− Passenger Class
− Passenger Fare
− Sex
− Survived
Y mueve a la derecha con la flecha.
Una vez seleccionado aplicar “Apply”.

• Establece el tipo de filtro de atributo en ”Subset”.

• Una vez agregado el filtro de atributo en ”Subset" y haz clic en "Select Attributes".

Construir el Árbol de Decisiones


• "Decision Tree" a tu proceso y conéctalo.

• Un árbol de decisión es una colección de nodos dispuestos en forma de árbol que tiene
como objetivo tomar una decisión sobre la pertenencia de valores a una clase o estimar
un valor numérico objetivo. Cada nodo representa una regla de división para un
atributo específico.
Entrada: conjunto de datos utilizado para generar el modelo de árbol de decisión.
Salida:
− Modelo de árbol de decisión.
− Conjunto de datos original sin cambios.
− Conjunto de datos con atributos y valores de peso, donde cada peso representa la
importancia del atributo.

Ejecuta el proceso y observa el modelo del árbol de decisión


• Ejecuta el proceso

• Conecta el puerto de salida "mod" del operador "Decision Tree" al puerto de


resultados.

Modelo del árbol de decisión


• El modelo del árbol de decisión se encuentra en la pestaña “Result”.

• Al utilizar la herramienta de Zoom y seguir las ramas y nodos de decisión, es posible


desglosar y visualizar con detalle los datos relacionados con la tragedia del Titanic. Se
evidencia que las mujeres que eran parte de familias grandes tenían una ventaja en
términos de supervivencia, superando incluso a las mujeres que viajaban solas y
pertenecían a una clase de pasajero más alta. Además, un dato crucial que se destaca
es la notable tasa de supervivencia de los niños, lo que refleja la práctica de priorizar a
"mujeres y niños primero" en situaciones de emergencia marítima. En contraposición,
los hombres, al margen de otros detalles, enfrentaban una probabilidad
significativamente reducida de sobrevivir a este desafortunado evento.

• La importancia de un análisis profundo de los datos es esencial, ya que nos permite


descubrir patrones y tendencias que pueden no ser inmediatamente evidentes. Estos
patrones, cuando se identifican, pueden ofrecer insights valiosos y ayudar en la toma
de decisiones informadas. Mientras que algunos de estos patrones pueden ser
fácilmente comprensibles y esperados, otros pueden revelar aspectos sorprendentes y
no anticipados de la información.

La ciencia de datos no solo se trata de recopilar y analizar datos, sino también de


interpretar y comunicar estos hallazgos de manera efectiva. Es un campo que combina
la técnica con la narrativa, asegurando que los datos cuenten una historia clara y
comprensible, permitiendo así una mejor comprensión y aplicación de los insights
derivados.

DESAFIO
• ¿Puedes descubrir cómo limitar la profundidad del árbol de decisión, es decir, reducir
su complejidad? ¿Por qué podría ser una buena idea hacerlo?
• Limita la profundidad del árbol de decisión a 4. Utiliza la configuración de parámetros
que encontraste anteriormente.
• En base al proceso de profundidad de 4, ¿puedes determinar cuál fue el grupo más
grande de sobrevivientes y, por lo tanto, quiénes tenían la mayor probabilidad de
sobrevivir?
• ¿Cuál dirías que fue la probabilidad aproximada de supervivencia para este grupo?
¿Cómo se compara esto con la probabilidad de supervivencia de los hombres?

¿Por qué podría ser una buena idea limitar la profundidad del árbol?
• Limitar la profundidad del árbol de decisión es una técnica que se utiliza para reducir
su complejidad. Al observar el árbol de decisión, se puede notar que, aunque no es
extremadamente complejo, tiene varios niveles. Analizar un árbol con muchos niveles
puede requerir una cantidad significativa de tiempo y esfuerzo. Si el árbol tuviera solo
tres niveles, por ejemplo, sería mucho más fácil de analizar, comprender y relacionar
con situaciones de la vida real.

• Para limitar la profundidad del árbol en “RapidMiner”, se debe acceder al panel de


diseño “Design”.
Limitar la profundidad del árbol a tres
• Acceder al panel de diseño y hacer clic en el árbol de decisión.

• Dentro de sus parámetros, hay una opción llamada “maximal depth” (profundidad
máxima). Al establecer un valor específico, como por ejemplo tres, y luego ejecutar el
algoritmo con “star play”.

• El árbol resultante reflejará esta restricción en su profundidad. Por ejemplo, al


establecer la profundidad máxima en tres, el árbol mostrará el patrón más evidente,
que en este caso es que, para las mujeres, el número de hermanos o cónyuges a bordo
es el atributo principal.

¿Puedes descubrir cómo limitar la profundidad del árbol de decisión, es decir, reducir su
complejidad?

• Cuando hablamos de "limitar la profundidad del árbol", nos referimos a cuántos


"niveles" o "capas" tendrá el árbol de decisión. Cada nivel representa una decisión
basada en un atributo de los datos.
Si limitas la profundidad del árbol a tres niveles, significa que el árbol solo tomará en
cuenta las tres decisiones o atributos más importantes para hacer una predicción. No
considerará otros atributos que podrían ser menos relevantes o que complicarían el
modelo.

En el contexto del Titanic y el ejemplo mencionado, al limitar la profundidad del árbol


a tres, el árbol identificó que el atributo más relevante para predecir la supervivencia
era si la persona era mujer y cuántos hermanos o cónyuges tenía a bordo. Es decir, este
atributo fue el que tuvo el mayor impacto en la predicción de supervivencia en el
modelo simplificado.

Espero que esta explicación aclare tus dudas. Si tienes más preguntas o algo sigue sin
estar claro, no dudes en decírmelo. Estoy aquí para ayudarte.

• El árbol de decisión comienza en el nivel 1 con la variable objetivo "Survived"


(sobrevivió). Luego, en el nivel 2, elige el atributo "Sex" (género) como el más
determinante para predecir la supervivencia, dividiendo los datos en "femenino" y
"masculino".
Posteriormente, para el grupo de mujeres, en el nivel 3, el árbol identifica que el
atributo "No of Siblings or Spouses on Board" (número de hermanos o cónyuges a
bordo) es el siguiente más relevante para determinar la supervivencia.

Este proceso de división se basa en la capacidad del atributo para proporcionar la


mayor cantidad de información sobre la variable objetivo, y se realiza de manera
jerárquica, comenzando con el atributo más informativo y continuando con los
siguientes en orden de importancia.

• Al posicionar el cursor del ratón sobre la barra azul roja (sin hacer clic), podrás visualizar
la distribución que muestra la cantidad exacta de resultados en los datos
correspondientes a este grupo en particular

DESAFÍO
• Limita la profundidad del árbol de decisión a 4. Utiliza la configuración de
parámetros que encontraste anteriormente.

Para limitar la profundidad del árbol de decisión a 4 en RapidMiner, sigue los pasos al igual
que el desafío anterior:
• Regresa al panel de “Design” (diseño) y haz clic en "Decision Tree" (árbol de
decisión).
• Observarás un parámetro llamado "Maximum Depth" (profundidad máxima).
• Establece este parámetro en "4".
• Ejecuta nuevamente el algoritmo “star play”.

Al hacerlo, el árbol de decisión resultante tendrá una profundidad máxima de 4 niveles. Esta
limitación puede ayudar a simplificar el árbol, facilitando su interpretación y evitando el
sobreajuste, que es cuando un modelo se ajusta demasiado a los datos de entrenamiento y
pierde capacidad para generalizar en datos nuevos.

Limita la profundidad del árbol de decisión a 4. Utiliza la configuración de parámetros que


encontraste anteriormente
• Nivel 1 - Variable objetivo: el punto de partida es "Survived" (sobrevivió). Aquí, el
árbol busca determinar qué factores influyeron más en la supervivencia de los
pasajeros.
Nivel 2 - Género: el árbol identifica que el "Sex" (género) es el atributo más crucial
para predecir la supervivencia. Por lo tanto, divide los datos en dos categorías
principales: "femenino" y "masculino".

Nivel 3 - Mujeres y familiares: para el grupo de mujeres, el árbol encuentra que el


atributo "No of Siblings or Spouses on Board" (número de hermanos o cónyuges a
bordo) es esencial. Esto sugiere que la presencia o ausencia de hermanos o cónyuges
tuvo un impacto en la supervivencia de las mujeres.

Nivel 4 - Mujeres y sus hijos/padres: dentro del grupo de mujeres que ya ha sido
filtrado por el número de hermanos o cónyuges, el árbol ahora considera el atributo
"No of Parents or Children on Board" (número de padres o hijos a bordo). Esto
indica que, después de considerar otros familiares, la presencia de hijos o padres
también jugó un papel en la supervivencia de las mujeres.

• Al mantener el puntero del mouse en la barra (sin hacer clic) podrás ver la
distribución muestra el número real de resultados en los datos para este grupo
específico de hombres.

"Yes" (sí) representa a los hombres que realmente sobrevivieron.

"No" (no) representa a los hombres que no sobrevivieron.


Así que, de este grupo de hombres:
161 hombres sobrevivieron.
682 hombres no sobrevivieron.

En base al proceso de profundidad de 4, ¿puedes determinar cuál fue el grupo más grande
de sobrevivientes y, por lo tanto, quiénes tenían la mayor probabilidad de sobrevivir?
• La elección de la rama "Menos o igual" en un árbol de decisión no es arbitraria, sino
que está basada en la teoría y metodología detrás de los árboles de decisión.
• En va a determinar cuál fue el grupo más grande de sobrevivientes y, por lo tanto,
quiénes tenían la mayor probabilidad de sobrevivir?
R: de las mujeres que tenían un número determinado de hermanos o cónyuges a
bordo y un cierto número de padres o hijos a bordo:
339 sobrevivieron.
119 no lo hicieron.
Esto da un total de 458 mujeres en este grupo específico. Si consideramos que este
grupo representa el 34,99% del total de pasajeros en el conjunto de datos, podemos
inferir que este es un grupo significativo (ratio of total 34,99%).
sé al proceso de profundidad de 4, ¿puedes El hecho de que aproximadamente el
75% de este grupo sobrevivió es una indicación clara de que estas mujeres tenían
una alta probabilidad de sobrevivir en el Titanic, en comparación con otros grupos.
Es probable que factores como el protocolo "mujeres y niños primero" y la presencia
de familiares cercanos hayan influido en sus posibilidades de supervivencia.

¿Cuál dirías que fue la probabilidad aproximada de supervivencia para este grupo? ¿Cómo
se compara esto con la probabilidad de supervivencia de los hombres?

• Probabilidad de supervivencia de las mujeres:


De las 458 mujeres en el Titanic, 339 sobrevivieron. Esto da una probabilidad de
supervivencia de aproximadamente el 74% (339/458)% para las mujeres.

• Probabilidad de supervivencia de los hombres:


De los 843 hombres en el Titanic, 161 sobrevivieron. Esto da una probabilidad de
supervivencia de aproximadamente el 19% (161/843) % para los hombres.

En la semana 7, se introdujo la predicción con la función AutoModel y la visualización del


histograma porcentualizado. A continuación, se recuerda el proceso para visualizar los
histogramas para nuestro caso:
• En la ventana de visualización "Views", en la pestaña "Design", se debe quitar el
modelo de árbol de decisiones para que se pueda generar automáticamente con
AutoModel, como se vio en la semana anterior.
• Ejecutar el proceso haciendo clic en el botón "Start", luego ir a "Views" y hacer clic
en "Results". A continuación, hacer clic en AutoModel (robot) o ir directamente a la
ventana AutoModel.
• Una vez en la ventana AutoModel, seleccionar "Predict" y la columna "Survived".
Hacer clic en "Next" y se mostrará el primer histograma con la cantidad de personas
que no sobrevivieron y las que sí sobrevivieron.
• Hacer clic en "Next" y se visualizan solo los atributos que se eligieron previamente:
"No of Parents or Children on Board", "No of Siblings or Spouses on Board",
"Passenger Class", "Passenger Fare", y "Sex". Excluida la variable "Survived", que es
la variable a analizar que elegimos en el paso "select task".
• Para limitar la profundidad del árbol a tres, seleccionar solo "Sex" (mujer u hombre)
y "No of Siblings or Spouses on Board" (Número de hermanos o cónyuges a bordo),
que eran las variables más relevantes para determinar la supervivencia. Hacer clic
en "Next".
• Se puede elegir un modelo en particular y ejecutar los procesos. Se observará que
el árbol de decisión no es el más eficiente, pero se aproxima al ideal.
• Finalmente, se puede ir al simulador donde se puede visualizar el histograma
porcentualizado, que se puede optimizar y especificar el número exacto de
hermanos o cónyuges a bordo.
Este proceso permite visualizar los histogramas porcentualizados y comprender cómo se
distribuyen los datos en función de los atributos seleccionados. Además, permite identificar
patrones y relaciones en los datos, este ejemplo se puede extrapolar a procesos industriales
que pueden ser útiles para tomar decisiones informadas y mejorar la eficiencia y la calidad.

Recordando la predicción con la función automodel y visualizar el histograma


porcentualizado.
• Ejecutar el proceso haciendo clic en el botón "Start”.
• Visualización "Views", en la pestaña "Design”.
• Quitar el modelo de árbol de decisiones para que se pueda generar miodelos
automáticamente con AutoModel hacer la conexión al resultado.

Inicio del proceso de análisis
• Hacer clic en AutoModel (robot).
• En "Views" y hacer clic en "Results.
• Ventana AutoModel.

Selección de la Variable Objetivo


• Seleccionar "Predict.
• Hacer clic en "Next”
• Seleccionar columna "Survived”

Visualización primer histograma

Hacer clic en "Next”.


Histograma apilado con la cantidad de personas que no sobrevivieron y las que sí
sobrevivieron.
Elección de Atributos Relevantes
• Seleccionar solo "Sex" (mujer u hombre) y "No of Siblings or Spouses on Board"
(número de hermanos o cónyuges a bordo), que eran las variables más relevantes
para determinar la supervivencia.
• Se visualizan solo los atributos que se eligieron previamente, excluida la variable
"Survived", que es la variable a analizar que elegimos en el paso "select task
• Hacer clic en "Next”.

Evaluación de Modelos
• Se observará que el árbol de decisión no es el más eficiente, pero se aproxima al
ideal. Hacer clic en "Decision Tree”.
• En la lista el mejor modelo se muestra con una medalla.
• Se puede elegir un modelo en particular y ejecutar los procesos.

Visualización del árbol de decisión


• Hacer clic en "Decision Tree“ “Model”.
• Se mostrará la distribución de los datos para los grupos específicos de hombres y
mujeres. Al mantener el puntero del mouse en la barra (sin hacer clic), se podrá ver
la distribución real de los resultados en los datos para este grupo específico de
hombres.

Visualización del histograma porcentualizado


• En el simulador es donde se puede visualizar el histograma porcentualizado.
• Puede optimizar
• Puede especificar el número exacto de hermanos o cónyuges a bordo.
• Histograma porcentualizado

INTERACCIÓN COMPLEMENTARIA:
REFLEXIONA
¿Qué es lo que realmente impulsa a una persona a aprender y comprender
profundamente?

La curiosidad es el motor que impulsa el deseo de aprender. Aunque la observación y la


escucha pueden proporcionar una base de conocimiento, es a través de la acción y la
experimentación donde realmente se alcanza la maestría. Sin curiosidad, el aprendizaje
puede sentirse como una carga, pero con ella se convierte en una aventura emocionante.
Esta pasión por descubrir y entender es lo que lleva a las personas a profundizar, cuestionar
y buscar respuestas. En el vasto mundo del conocimiento, hay muchas razones que pueden
llevar a alguien a aprender, pero la curiosidad se destaca como el maestro más genuino y
transformador. Es la chispa que enciende la llama del entendimiento y la comprensión.

Tomemos, por ejemplo, el mundo del análisis de datos utilizando software especializado.
Imagina que eres un analista que se enfrenta a un conjunto de datos masivo relacionado
con las ventas de una empresa. A simple vista, los datos pueden parecer abrumadores y sin
sentido. Pero con la herramienta adecuada, como un software que utiliza árboles de
decisión, puedes comenzar a desglosar estos datos y descubrir patrones.

Quizás descubras que las ventas aumentan en ciertas temporadas del año o que ciertos
productos son más populares en determinadas regiones. Estos hallazgos pueden no ser
evidentes al principio, pero al sumergirte en los datos con curiosidad y utilizando
herramientas de análisis, puedes descubrir insights valiosos que pueden guiar las
estrategias de negocio de la empresa.

También podría gustarte