s8 Interactivo Profundizacion Conbd1201 Des
s8 Interactivo Profundizacion Conbd1201 Des
s8 Interactivo Profundizacion Conbd1201 Des
INSTRUCCIONES:
TEMARIO:
Creación del árbol
Definición del problema
Diseño del diagrama
Sin embargo, como con todas las herramientas, es esencial comprender tanto sus fortalezas
como sus limitaciones. Los árboles de decisiones ofrecen claridad y simplifican situaciones
complejas, lo que es invaluable en la toma de decisiones. Su capacidad para manejar datos
tanto numéricos como categóricos sin requerir supuestos complejos es una ventaja
significativa. Pero es esencial ser cauteloso. Los árboles de decisiones, si no se construyen
con cuidado, pueden ser sensibles a pequeñas variaciones en los datos. Esta sensibilidad
puede llevar a interpretaciones erróneas o a modelos que no se generalizan bien a nuevos
conjuntos de datos.
INTERACCIÓN COMPLEMENTARIA:
DATO DE INTERÉS
Para visualizar mejor este concepto, se puede considerar el juego "Adivina Quién". En este
juego, dos jugadores intentan adivinar el personaje secreto del oponente haciendo
preguntas sobre sus características físicas. Con cada respuesta, los jugadores van
descartando opciones en su tablero, acercándose cada vez más al personaje secreto del
oponente.
Este proceso es análogo a cómo funciona un árbol de decisión: a medida que se avanza por
las ramas del árbol, se toman decisiones basadas en la información disponible, llevando
finalmente a una conclusión o decisión final.
Al final de cada nodo, se puede observar una indicación clara: "yes" o "no", que guía la toma
de decisiones basada en los criterios establecidos. Además, hay una barra que varía entre
rojo y azul, proporcionando una representación visual de la distribución de los datos en ese
nodo específico.
MICROACTIVIDAD 1
A continuación, se te presenta una microactividad en la que deberás responder la pregunta
que se te presenta: ¿Cuál de las siguientes afirmaciones sobre los árboles de decisiones es
correcta?
Selecciona la respuesta correcta del siguiente listado:
RETROALIMENTACIÓN
La respuesta correcta es la d). Los árboles de decisiones pueden ser sensibles a pequeñas
variaciones en los datos y pueden sufrir de sobreajuste.
Los árboles de decisiones son herramientas poderosas para la toma de decisiones basadas
en datos, ya que transforman datos complejos en una representación visual fácil de
interpretar. Sin embargo, es importante tener en cuenta que pueden ser sensibles a
pequeñas variaciones en los datos, lo que puede llevar a interpretaciones erróneas o a
modelos que no se generalizan bien a nuevos conjuntos de datos. Además, un árbol de
decisiones que es demasiado detallado puede adaptarse demasiado a un conjunto de datos
específico, lo que significa que puede no funcionar bien con nuevos datos. Por lo tanto, al
construir y utilizar árboles de decisiones, es esencial equilibrar la precisión y la generalidad.
INTERACCION COMPLEMENTARIA
LECTURA RECOMENDADA
1. ANALÍTICA AVANZADA:
Proceso:
• Recopilación de grandes volúmenes de datos de diversas fuentes.
• Limpieza y preprocesamiento de datos para eliminar inconsistencias y errores.
• Aplicación de técnicas matemáticas y estadísticas para analizar y extraer patrones
de los datos.
Problema:
• La principal preocupación en la analítica avanzada es cómo manejar y procesar
grandes cantidades de datos de manera eficiente.
• Determinar qué técnicas son las más adecuadas para analizar los datos y extraer
información valiosa.
• Garantizar la calidad y precisión de los datos para obtener resultados confiables.
2. ANALÍTICA PREDICTIVA:
Proceso:
• Utilización de datos históricos para construir modelos que puedan predecir eventos
o resultados futuros.
• Aplicación de algoritmos de aprendizaje automático y técnicas estadísticas para
entrenar estos modelos.
• Validación y ajuste de los modelos para garantizar su precisión.
Problema:
• La principal preocupación es cómo construir modelos que sean precisos y confiables.
• Determinar qué variables o características son las más relevantes para hacer
predicciones precisas.
• Evitar el sobreajuste, donde el modelo es demasiado complejo y se ajusta
demasiado a los datos de entrenamiento.
3. ANALÍTICA PRESCRIPTIVA:
Proceso:
• Utilización de modelos predictivos para determinar posibles resultados.
• Aplicación de técnicas de optimización y simulación para recomendar acciones
específicas que conduzcan al mejor resultado posible.
• Consideración de restricciones y escenarios alternativos para proporcionar
soluciones viables.
Problema:
• La principal preocupación es cómo tomar decisiones que no solo sean óptimas desde
una perspectiva matemática, sino también prácticas y viables en el mundo real.
• Garantizar que las recomendaciones sean realistas y aplicables en el contexto
empresarial.
• Considerar múltiples factores y restricciones al hacer recomendaciones.
La analítica prescriptiva, por otro lado, se centra en la optimización (“proceso que se utiliza
en la analítica prescriptiva para encontrar la mejor solución o decisión posible para un
problema”) y simulación (“herramienta que se utiliza en la analítica prescriptiva para
representar detalladamente las posibles consecuencias de cada decisión”). Con la ayuda de
softwares especializados, las organizaciones pueden determinar las mejores decisiones a
tomar, considerando múltiples escenarios y restricciones. Estas herramientas también
ofrecen capacidades de simulación, proporcionando una visión detallada de las posibles
consecuencias de cada decisión. Además, algunos softwares avanzados incluso ofrecen
recomendaciones automáticas (“sugerencias o consejos generados automáticamente por
sistemas de analítica prescriptiva basados en análisis y predicciones, que guían a las
empresas hacia decisiones óptimas”), guiando a las empresas hacia decisiones óptimas.
MICROACTIVIDAD 2
A continuación, se presenta una microactividad que tiene como objetivo identificar los
conceptos con sus respectivas definiciones. Para ello, lee los términos que se señalan en la
columna A y, luego, lee las descripciones de la columna B e identifica cuál corresponde a
cada uno:
Columna A Columna B
Recomendaciones automáticas Va más allá de la predicción y sugiere acciones
específicas basadas en análisis y predicciones.
Analítica avanzada Proceso que se utiliza en la analítica prescriptiva para
encontrar la mejor solución o decisión posible para un
problema.
Simulación Sugerencias o consejos generados automáticamente
por sistemas de analítica prescriptiva basados en
análisis y predicciones, que guían a las empresas hacia
decisiones óptimas.
Analítica prescriptiva Utiliza datos pasados para construir estructuras que
puedan anticipar eventos o resultados futuros.
Optimización Se centra en extraer información y patrones de
grandes conjuntos de datos.
Analítica predictiva Es una herramienta que se utiliza en la analítica
prescriptiva para representar detalladamente las
posibles consecuencias de cada decisión.
RETROALIMENTACIÓN
Los conceptos relacionados con presentación del problema y el proceso con un software de
análisis de datos son:
Construcción del diagrama: una vez seleccionados los atributos, el siguiente paso es
construir el diagrama de árbol de decisión utilizando un software de análisis de datos. El
software dividirá los datos en función de los atributos seleccionados y creará un diagrama
que muestra las relaciones entre los atributos y el resultado que se está tratando de
predecir.
En el diagrama, cada nodo representa un atributo y cada rama representa una decisión
basada en ese atributo. El diagrama se construye de manera que los atributos que
proporcionan la mayor cantidad de información sobre el resultado se colocan en la parte
superior del árbol. A medida que se desciende por el árbol, los atributos se vuelven menos
informativos.
Aplicación práctica
La construcción de diagramas de árbol de decisión es útil en diversos contextos, incluyendo
la industria de componentes industriales. En este ámbito, los árboles de decisión pueden
ayudar a identificar máquinas propensas a fallar y aquellas más fiables, facilitando
decisiones informadas sobre adquisiciones y mantenimientos preventivos.
En este ejercicio, se utiliza un conjunto de datos del Titanic que incluye información sobre
los pasajeros, como género, edad, número de familiares a bordo, clase de pasajero y tarifa
pagada. El objetivo es construir un árbol de decisión para predecir la probabilidad de
supervivencia de los pasajeros.
El análisis del árbol de decisión revela que el género es el atributo más determinante para
la supervivencia, seguido por el número de hermanos o cónyuges a bordo y el número de
padres o hijos a bordo. Las mujeres con menos familiares a bordo tenían una mayor
probabilidad de sobrevivir, mientras que los hombres tenían una menor probabilidad de
sobrevivir.
Este ejercicio demuestra cómo los árboles de decisión pueden ser utilizados para analizar
datos y hacer predicciones basadas en variables relevantes. Además, destaca la importancia
de seleccionar los atributos adecuados para construir un árbol de decisión informativo. En
este caso, el árbol proporciona una visión clara de los factores que influyeron en la
supervivencia de los pasajeros del Titanic.
Cargar datos
• Recuerda:
Para cargar archivos externos, puedes agregar un operador:
− Read CSV
− Read Excel
− Read BibTeX
En reemplazo de Retrieve Titanic.
• El rol de un atributo describe cómo otros operadores manejan este atributo. El rol
predeterminado es "regular", mientras que otros roles se clasifican como "especiales".
Un conjunto de datos puede tener muchos atributos especiales y puedes asignar
atributos especiales múltiples veces. Sin embargo, algunos operadores esperan que los
roles especiales sean únicos.
Entrada: espera un conjunto de datos.
Salida: devuelve el conjunto de datos con roles modificados.
También pasa el conjunto de datos original sin cambios.
• Una vez agregado Set Role, conéctalo y configúralo haciendo clic sobre el operador.
• En target role selecciona “label” (). Actúa como un atributo objetivo para operadores.
Una vez seleccionado, aplicar “Apply”.
• Hacer clic sobre “Edit List” para cconfigurar el parámetro del operador.
• El operador ofrece diferentes tipos de filtros para facilitar la selección de atributos. Por
ejemplo: selección directa de atributos, selección mediante una expresión regular o
seleccionando solo atributos sin valores faltantes. Los diferentes tipos de filtros se
explican en la sección de parámetros.
Los atributos especiales (atributos con roles, como id, etiqueta, peso) generalmente se
ignoran en la selección. Sin embargo, con un parámetro específico, esto puede cambiar.
Entrada: espera un conjunto de datos del cual quieres seleccionar atributos.
Salida: devuelve el conjunto de datos con solo los atributos seleccionados. También
pasa el conjunto de datos original sin cambios.
• Una vez agregado el filtro de atributo en ”Subset" y haz clic en "Select Attributes".
• Un árbol de decisión es una colección de nodos dispuestos en forma de árbol que tiene
como objetivo tomar una decisión sobre la pertenencia de valores a una clase o estimar
un valor numérico objetivo. Cada nodo representa una regla de división para un
atributo específico.
Entrada: conjunto de datos utilizado para generar el modelo de árbol de decisión.
Salida:
− Modelo de árbol de decisión.
− Conjunto de datos original sin cambios.
− Conjunto de datos con atributos y valores de peso, donde cada peso representa la
importancia del atributo.
DESAFIO
• ¿Puedes descubrir cómo limitar la profundidad del árbol de decisión, es decir, reducir
su complejidad? ¿Por qué podría ser una buena idea hacerlo?
• Limita la profundidad del árbol de decisión a 4. Utiliza la configuración de parámetros
que encontraste anteriormente.
• En base al proceso de profundidad de 4, ¿puedes determinar cuál fue el grupo más
grande de sobrevivientes y, por lo tanto, quiénes tenían la mayor probabilidad de
sobrevivir?
• ¿Cuál dirías que fue la probabilidad aproximada de supervivencia para este grupo?
¿Cómo se compara esto con la probabilidad de supervivencia de los hombres?
¿Por qué podría ser una buena idea limitar la profundidad del árbol?
• Limitar la profundidad del árbol de decisión es una técnica que se utiliza para reducir
su complejidad. Al observar el árbol de decisión, se puede notar que, aunque no es
extremadamente complejo, tiene varios niveles. Analizar un árbol con muchos niveles
puede requerir una cantidad significativa de tiempo y esfuerzo. Si el árbol tuviera solo
tres niveles, por ejemplo, sería mucho más fácil de analizar, comprender y relacionar
con situaciones de la vida real.
• Dentro de sus parámetros, hay una opción llamada “maximal depth” (profundidad
máxima). Al establecer un valor específico, como por ejemplo tres, y luego ejecutar el
algoritmo con “star play”.
¿Puedes descubrir cómo limitar la profundidad del árbol de decisión, es decir, reducir su
complejidad?
Espero que esta explicación aclare tus dudas. Si tienes más preguntas o algo sigue sin
estar claro, no dudes en decírmelo. Estoy aquí para ayudarte.
• Al posicionar el cursor del ratón sobre la barra azul roja (sin hacer clic), podrás visualizar
la distribución que muestra la cantidad exacta de resultados en los datos
correspondientes a este grupo en particular
DESAFÍO
• Limita la profundidad del árbol de decisión a 4. Utiliza la configuración de
parámetros que encontraste anteriormente.
Para limitar la profundidad del árbol de decisión a 4 en RapidMiner, sigue los pasos al igual
que el desafío anterior:
• Regresa al panel de “Design” (diseño) y haz clic en "Decision Tree" (árbol de
decisión).
• Observarás un parámetro llamado "Maximum Depth" (profundidad máxima).
• Establece este parámetro en "4".
• Ejecuta nuevamente el algoritmo “star play”.
Al hacerlo, el árbol de decisión resultante tendrá una profundidad máxima de 4 niveles. Esta
limitación puede ayudar a simplificar el árbol, facilitando su interpretación y evitando el
sobreajuste, que es cuando un modelo se ajusta demasiado a los datos de entrenamiento y
pierde capacidad para generalizar en datos nuevos.
Nivel 4 - Mujeres y sus hijos/padres: dentro del grupo de mujeres que ya ha sido
filtrado por el número de hermanos o cónyuges, el árbol ahora considera el atributo
"No of Parents or Children on Board" (número de padres o hijos a bordo). Esto
indica que, después de considerar otros familiares, la presencia de hijos o padres
también jugó un papel en la supervivencia de las mujeres.
• Al mantener el puntero del mouse en la barra (sin hacer clic) podrás ver la
distribución muestra el número real de resultados en los datos para este grupo
específico de hombres.
En base al proceso de profundidad de 4, ¿puedes determinar cuál fue el grupo más grande
de sobrevivientes y, por lo tanto, quiénes tenían la mayor probabilidad de sobrevivir?
• La elección de la rama "Menos o igual" en un árbol de decisión no es arbitraria, sino
que está basada en la teoría y metodología detrás de los árboles de decisión.
• En va a determinar cuál fue el grupo más grande de sobrevivientes y, por lo tanto,
quiénes tenían la mayor probabilidad de sobrevivir?
R: de las mujeres que tenían un número determinado de hermanos o cónyuges a
bordo y un cierto número de padres o hijos a bordo:
339 sobrevivieron.
119 no lo hicieron.
Esto da un total de 458 mujeres en este grupo específico. Si consideramos que este
grupo representa el 34,99% del total de pasajeros en el conjunto de datos, podemos
inferir que este es un grupo significativo (ratio of total 34,99%).
sé al proceso de profundidad de 4, ¿puedes El hecho de que aproximadamente el
75% de este grupo sobrevivió es una indicación clara de que estas mujeres tenían
una alta probabilidad de sobrevivir en el Titanic, en comparación con otros grupos.
Es probable que factores como el protocolo "mujeres y niños primero" y la presencia
de familiares cercanos hayan influido en sus posibilidades de supervivencia.
¿Cuál dirías que fue la probabilidad aproximada de supervivencia para este grupo? ¿Cómo
se compara esto con la probabilidad de supervivencia de los hombres?
Evaluación de Modelos
• Se observará que el árbol de decisión no es el más eficiente, pero se aproxima al
ideal. Hacer clic en "Decision Tree”.
• En la lista el mejor modelo se muestra con una medalla.
• Se puede elegir un modelo en particular y ejecutar los procesos.
INTERACCIÓN COMPLEMENTARIA:
REFLEXIONA
¿Qué es lo que realmente impulsa a una persona a aprender y comprender
profundamente?
Tomemos, por ejemplo, el mundo del análisis de datos utilizando software especializado.
Imagina que eres un analista que se enfrenta a un conjunto de datos masivo relacionado
con las ventas de una empresa. A simple vista, los datos pueden parecer abrumadores y sin
sentido. Pero con la herramienta adecuada, como un software que utiliza árboles de
decisión, puedes comenzar a desglosar estos datos y descubrir patrones.
Quizás descubras que las ventas aumentan en ciertas temporadas del año o que ciertos
productos son más populares en determinadas regiones. Estos hallazgos pueden no ser
evidentes al principio, pero al sumergirte en los datos con curiosidad y utilizando
herramientas de análisis, puedes descubrir insights valiosos que pueden guiar las
estrategias de negocio de la empresa.