Universidad Tecnológica de Nezahualcóyotl: Extracción de Conocimientos de Base de Datos
Universidad Tecnológica de Nezahualcóyotl: Extracción de Conocimientos de Base de Datos
Universidad Tecnológica de Nezahualcóyotl: Extracción de Conocimientos de Base de Datos
Nezahualcóyotl
Alumno:
Agaton Barrera Edher Donnovan
Minero Ramirez Andres Minero
Grupo: ITIC-901M
ML
El Machine Learning o aprendizaje automático es un campo científico y, más
particularmente, una subcategoría de inteligencia artificial.
Todo lo que se pueda almacenar digitalmente puede servir como dato para el
Machine Learning. Al detectar patrones en esos datos, los algoritmos aprenden y
mejoran su rendimiento en la ejecución de una tarea específica.
ML supervisado
En el caso del aprendizaje supervisado, el más común, los datos se etiquetan para
indicar a la máquina qué patrones tiene que buscar.
El sistema se entrena sobre un conjunto de datos etiquetados, con la información
que se supone que tiene que determinar. Es posible que los datos ya estén
clasificados de la forma en que se supone que debe hacerlo el sistema.
Este método requiere menos datos de entrenamiento que los demás y facilita el
proceso de entrenamiento, ya que los resultados del modelo se pueden comparar
con los datos ya etiquetados. Sin embargo, etiquetar los datos puede resultar caro.
Un modelo también puede estar sesgado debido a los datos de entrenamiento, lo
que afectará a su rendimiento más adelante cuando procese nuevos datos.
ML no supervisado
En el caso del aprendizaje no supervisado, los datos no tienen etiquetas. La
máquina se contenta con explorar los datos en busca de posibles patrones. Ingiere
grandes cantidades de datos y utiliza algoritmos para extraer las características
relevantes necesarias para etiquetar, ordenar y clasificar datos en tiempo real sin
intervención humana.
En lugar de automatizar decisiones y predicciones, este enfoque ayuda a identificar
patrones y relaciones que los humanos pueden pasar por alto en los datos. Esta
técnica no es muy popular porque es menos fácil de aplicar. Sin embargo, es cada
vez más popular en el campo de la ciberseguridad.
ML semisupervisado
El aprendizaje «semisupervisado» se encuentra entre los dos y ofrece un punto
medio entre aprendizaje supervisado y no supervisado. Durante el entrenamiento,
se utiliza un conjunto de datos etiquetado más pequeño para guiar la clasificación y
la extracción de características de un conjunto de datos no etiquetado más grande.
Este enfoque es útil en situaciones en las que no hay datos etiquetados
suficientes para entrenar un algoritmo supervisado. Permite solventar el problema.
Finalmente, el aprendizaje por refuerzo consiste en dejar que un algoritmo aprenda
de sus errores para lograr un objetivo. El algoritmo probará muchos enfoques
diferentes para intentar lograr su objetivo.
Dependiendo de su rendimiento, será recompensado o penalizado para animarlo a
continuar por un camino o cambiar su enfoque. Esta técnica se utiliza en particular
para permitir que una IA supere a los humanos en los juegos.
Algoritmos para ML
Existe una amplia variedad de algoritmos de Machine Learning.
En primer lugar, se utilizan diferentes algoritmos para los datos etiquetados.
• Regresión lineal
• Regresión logística
La regresión logística (logistic regression), o “regresión logit”, es un algoritmo de
aprendizaje supervisado utilizado para la clasificación binaria, como decidir si una
imagen encaja en una clase u otra.
Originaria de la estadística, la regresión logística predice técnicamente la
probabilidad de que una entrada pueda clasificarse en una única clase primaria. En
la práctica, sin embargo, puede emplearse para agrupar las salidas en una de dos
categorías: “clase primaria” (“the primary class”) o “clase secundaria” (“not the
primary class”). Esto se consigue creando un rango para la clasificación binaria, de
forma que cualquier salida entre 0 y 0,49 se incluya en un grupo y cualquier salida
entre 0,50 y 1,00 se incluya en otro.
Como resultado, la regresión logística en el aprendizaje automático se utiliza
normalmente para la categorización binaria en lugar de para el modelado predictivo.
• Árbol de decisión
Un árbol de decisión (decision tree) es un algoritmo de aprendizaje supervisado
utilizado para la clasificación y el modelado predictivo.
Semejante a un diagrama de flujo gráfico, un árbol de decisión comienza con
un nodo raíz, que formula una pregunta concreta a los datos y luego los envía por
una rama en función de la respuesta. Cada una de estas ramas conduce a un nodo
interno, que a su vez formula otra pregunta a los datos antes de dirigirlos hacia otra
rama en función de la respuesta. Esto continúa hasta que los datos llegan a un nodo
final, también llamado nodo hoja, que no se ramifica más.
Los árboles de decisión son habituales en el aprendizaje automático porque pueden
manejar conjuntos de datos complejos con relativa sencillez.
• Algoritmo K means
1. Fortune Business Insights. “The global machine learning (ML) market is expected to
grow from $21.17 billion in 2022 to $209.91 billion by 2029,
https://www.fortunebusinessinsights.com/machine-learning-market-102226”.
Consultado el 2 de diciembre de 2022.