Arboles de Decision

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 22

ÁRBOLES DE

DECISIÓN
PRESENTAN:
CHAVEZ CASTAÑEDA PABLO
GARCES CHIMALPOPOCA MARIJOSE
SANDOVAL CALDERÓN GERARDO
SANCHEZ CORNEJO GAEL
5BM1
CONTEXTUALIZACIÓN
¿QUÉ SON?
Algoritmo de aprendizaje supervisado no paramétrico,
que se utiliza tanto para tareas de clasificación como de
regresión. Tiene una estructura jerárquica de árbol, que
consta de un nodo raíz, ramas, nodos internos y nodos
hoja.

Comienza con un nodo raíz, las ramas salientes del nodo


raíz luego alimentan los nodos internos, también
conocidos como nodos de decisión.
APRENDIZAJE
Emplea una estrategia de divide y vencerás realizando una búsqueda codiciosa
para identificar los puntos de división óptimos dentro de un árbol. Este proceso
de división se repite de forma descendente y recursiva hasta que todos o la
mayoría de los registros se hayan clasificado con etiquetas de clase específicas.

Los árboles más pequeños tienen más facilidad para


alcanzar nodos de hojas puras, es decir. puntos de datos
en una sola clase. En árboles más grandes se vuelve cada
vez más difícil mantener esta pureza y se provoca una
fragmentación de datos y, a menudo, puede conducir a
un sobreajuste.
PODA DE LOS ÁRBOLES
Los árboles de decisión deben agregar complejidad solo si es necesario

La poda es una técnica que se utiliza para reducir el


sobreajuste. La poda también simplifica un árbol de
decisiones al eliminar las reglas más débiles. La poda a
menudo se distingue en:

La poda previa (parada temprana) detiene el árbol


antes de que haya terminado de clasificar el conjunto
de entrenamiento,
La poda posterior permite al árbol clasificar
perfectamente el conjunto de entrenamiento y luego
podar el árbol.
TIPOS DE ÁRBOLES
¡¡¡¡Dato curioso!!!!

El algoritmo de Hunt, que se


desarrolló en la década de 1960 para
modelar el aprendizaje humano en
psicología, forma la base de muchos
algoritmos populares de árbol de
decisión
ID3 -> "ITERATIVE
DICHOTOMISER 3"
A Ross Quinlan se le atribuye el
desarrollo de ID3.
Este algoritmo aprovecha la
entropía y la ganancia de
información como métricas para
evaluar las divisiones de los
candidatos.
C 4.5
Se considera una iteración
posterior del ID3, que también
fue desarrollado por Quinlan.
Puede utilizar la ganancia de
información o la proporción de
ganancia para evaluar puntos
divididos dentro de los árboles
de decisión.
CART-> “CLASSIFICATION AND
REGRESSION TREES”
Lo introdujo Leo Breiman.
Utiliza la impureza de Gini para
identificar el atributo ideal por el
que dividirse.
La impureza de Gini mide la
frecuencia con la que un atributo
elegido al azar se clasifica
erróneamente.
COMO ELEGIR EL MEJOR NODO
La entropía es un concepto que procede de la teoría de la información y que
mide la impureza de los valores de la muestra.

S representa el conjunto de datos en el que se


calcula la entropía
c representa las clases en conjunto, S
p(c) representa la proporción de puntos de
datos que pertenecen a la clase c respecto del
número total de puntos de datos del conjunto,
S
Si todas las muestras del conjunto de datos, S, pertenecen a una clase, entonces
la entropía será igual a cero. Si la mitad de las muestras se clasifican en una clase
y la otra mitad en otra, la entropía alcanzará su máximo en 1.
VENTAJAS
01 02 03
Requiere poca o
Fácil de Más flexibles
ninguna preparación
interpretar: de datos

DESVENTAJAS
01 02 03
Propenso al Estimadores de
Más caro:
sobreajuste alta varianza:
ID3 -> "ITERATIVE
DICHOTOMISER 3"
DESCRIPCIÓN
Inventado por Ross Quinlan, ID3 utiliza un enfoque codicioso de arriba hacia abajo
para construir un árbol de decisión. En palabras simples, el enfoque de arriba
hacia abajo significa que comenzamos a construir el árbol desde la parte superior
y el enfoque codicioso significa que en cada iteración seleccionamos la mejor
característica en el momento presente para crear un nodo.
MÉTRICAS EN ID3
Information Gain calcula la reducción de la entropía y mide lo bien que una
característica determinada separa o clasifica las clases objetivo. La función con la
mayor ganancia de información se selecciona como la mejor.

RECORDEMOS...
la entropía es 0 si todos los valores de la columna de destino son homogéneos
(similares) y será 1 si la columna de destino tiene valores numéricos iguales para
ambas clases.
PASOS
1. Calcule la ganancia de información de cada característica.
2. Teniendo en cuenta que no todas las filas pertenecen a la misma
clase, divida el conjunto de datos S en subconjuntos utilizando la
característica para la que la ganancia de información es máxima.
3. Cree un nodo de árbol de decisión utilizando la función con la
máxima ganancia de información.
4. Si todas las filas pertenecen a la misma clase, convierta el nodo
actual en un nodo hoja con la clase como etiqueta.
5. Repita para las características restantes hasta que nos quedemos
sin todas las características, o el árbol de decisión tenga todos
los nodos hoja.
C 4.5
DESCRIPCIÓN
El algoritmo C4.5 es un método de aprendizaje automático utilizado para
generar árboles de decisión, los cuales son herramientas útiles para la
clasificación y predicción. Fue desarrollado por Ross Quinlan como una
mejora del algoritmo ID3.
FUNCIONAMIENTO
Utiliza la ganancia de información al igual que ID3, con la diferencia de que
introduce la ganancia de información normalizada (ratio de ganancia) para
evitar el sesgo hacia atributos con muchos valores distintos.

Maneja atributos continuos y discretos, en donde determina un umbral


óptimo para dividir los datos en el caso de los continuos.

Maneja valores faltantes asignando probabilidades a las posibles ramas


basadas en la distribución de los datos
PODA Y
GENERACIÓN
Realiza una poda posterior a la construcción del árbol para eliminar ramas
que no aportan significativamente a la precisión del modelo.

Al igual que ID3, va construyendo el árbol de decisión de manera recursiva,


pero con mejoras en la selección de atributos, manejo de datos continuos y
faltantes.
PASOS
1. Comprobar casos base.
2. Calcular ganancia de información para cada atributo.
3. Seleccionar el mejor atributo.
4. Dividir el conjunto de datos según el mejor atributo.
5. Crear nodos de decisión y aplicar recursivamente.
6. Manejar valores faltantes.
7. Poda del árbol para mejorar la generalización.
VENTAJAS
01 02 03
Elimina ramas que no
Fácil de aportan Manejo de
interpretar. significativamente a la atributos.
precisión del modelo.

DESVENTAJAS
01 02 03
Complejidad Limitaciones en Depende de la
computacional escalabilidad. calidad de los
costosa. datos.
THANK
YOU VERY
MUCH!

También podría gustarte