Arboles de Decision
Arboles de Decision
Arboles de Decision
DECISIÓN
PRESENTAN:
CHAVEZ CASTAÑEDA PABLO
GARCES CHIMALPOPOCA MARIJOSE
SANDOVAL CALDERÓN GERARDO
SANCHEZ CORNEJO GAEL
5BM1
CONTEXTUALIZACIÓN
¿QUÉ SON?
Algoritmo de aprendizaje supervisado no paramétrico,
que se utiliza tanto para tareas de clasificación como de
regresión. Tiene una estructura jerárquica de árbol, que
consta de un nodo raíz, ramas, nodos internos y nodos
hoja.
DESVENTAJAS
01 02 03
Propenso al Estimadores de
Más caro:
sobreajuste alta varianza:
ID3 -> "ITERATIVE
DICHOTOMISER 3"
DESCRIPCIÓN
Inventado por Ross Quinlan, ID3 utiliza un enfoque codicioso de arriba hacia abajo
para construir un árbol de decisión. En palabras simples, el enfoque de arriba
hacia abajo significa que comenzamos a construir el árbol desde la parte superior
y el enfoque codicioso significa que en cada iteración seleccionamos la mejor
característica en el momento presente para crear un nodo.
MÉTRICAS EN ID3
Information Gain calcula la reducción de la entropía y mide lo bien que una
característica determinada separa o clasifica las clases objetivo. La función con la
mayor ganancia de información se selecciona como la mejor.
RECORDEMOS...
la entropía es 0 si todos los valores de la columna de destino son homogéneos
(similares) y será 1 si la columna de destino tiene valores numéricos iguales para
ambas clases.
PASOS
1. Calcule la ganancia de información de cada característica.
2. Teniendo en cuenta que no todas las filas pertenecen a la misma
clase, divida el conjunto de datos S en subconjuntos utilizando la
característica para la que la ganancia de información es máxima.
3. Cree un nodo de árbol de decisión utilizando la función con la
máxima ganancia de información.
4. Si todas las filas pertenecen a la misma clase, convierta el nodo
actual en un nodo hoja con la clase como etiqueta.
5. Repita para las características restantes hasta que nos quedemos
sin todas las características, o el árbol de decisión tenga todos
los nodos hoja.
C 4.5
DESCRIPCIÓN
El algoritmo C4.5 es un método de aprendizaje automático utilizado para
generar árboles de decisión, los cuales son herramientas útiles para la
clasificación y predicción. Fue desarrollado por Ross Quinlan como una
mejora del algoritmo ID3.
FUNCIONAMIENTO
Utiliza la ganancia de información al igual que ID3, con la diferencia de que
introduce la ganancia de información normalizada (ratio de ganancia) para
evitar el sesgo hacia atributos con muchos valores distintos.
DESVENTAJAS
01 02 03
Complejidad Limitaciones en Depende de la
computacional escalabilidad. calidad de los
costosa. datos.
THANK
YOU VERY
MUCH!