Arboles de Decision
Arboles de Decision
Arboles de Decision
Los arboles de decisión son representaciones gráficas de posibles soluciones a una decisión basadas en ciertas condiciones, es uno de los algoritmos de aprendizaje supervisado más
utilizados en machine learning y pueden realizar tareas de clasificación o regresión (acrónimo del inglés CART).
Tienen un primer nodo llamado raíz (root) y luego se descomponen el resto de atributos de entrada en dos ramas (podrían ser más) planteando una condición que puede ser cierta o
falsa. Se bifurca cada nodo en 2 y vuelven a subdividirse hasta llegar a las hojas que son los nodos finales y que equivalen a respuestas a la solución: Si/No, Comprar/Vender, o lo que sea
que estemos clasificando.
El algoritmo es quien analizando los datos y las salidas (por eso es supervisado) decidirá la mejor forma de hacer las divisiones (split) entre nodos.
Tendrá en cuenta de qué manera lograr una predicción (clasificación ó regresión) con mayor probabilidad de acierto.
A los árboles de decisiones se los llama modelos de “caja blanca” por su fácil interpretabilidad. En contraste, en los modelos “caja negra”, es más difícil explicar el por qué de las predicciones
que hacen.
Algoritmo CART
Es un método popular para construir árboles de decisión tanto para problemas de clasificación como de regresión.
Se elige el par (K, tk), donde K es la característica y tk es el corte sobre la misma. Se los elige minimizando la función de costo.
Una vez elegido el corte óptimo, se repite el proceso hasta alcanzar la máxima profundidad deseada del algoritmo.
Complejidad Computacional
• Encontrar la mejor estructura de árbol de decisión de manera óptima es un problema extremadamente complejo → O(exp(m))
Inestabilidad
Los árboles de decisión, incluyendo los árboles de decisión para regresión, tienen ciertas desventajas
• Las divisiones son perpendiculares a los ejes de las características. Si se rotan los datos, estas divisiones ya no alinearán de manera óptima con la estructura de los datos, lo que puede
llevar a una pérdida de rendimiento (sensibles a rotaciones)
• Son muy sensibles a pequeñas variaciones en los datos de entrenamiento. Un pequeño cambio en los datos, como la adición o eliminación de una sola instancia, puede cambiar
drásticamente la estructura del árbol.