0% encontró este documento útil (0 votos)

218 vistas1 página

Guía de Referencia de Scikit-Learn

Este documento proporciona una guía de referencia sobre el uso de Scikit-learn, una librería de Python para machine learning. Explica cómo implementar varios algoritmos de aprendizaje supervisado y no supervisado como Naive Bayes, KNN, árboles de decisión, bosques aleatorios y SVM. También cubre técnicas de preprocesamiento de datos, partición de datos de entrenamiento y prueba, métricas de evaluación de modelos y validación cruzada. El objetivo es proporcionar una introducción básica a los conceptos y

Cargado por

Anthony Guzman Lopez

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

0% encontró este documento útil (0 votos)

218 vistas1 página

Guía de Referencia de Scikit-Learn

Cargado por

Anthony Guzman Lopez

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

Está en la página 1/ 1

Facultad de

Programa de formación Machine Learning and Data Science MLDS

Naïve bayes Evaluación del desempeño

Guía de referencia Scikit-learn from sklearn.naive_bayes import GaussianNB Métricas para clasificación
gnb = GaussianNB()
Scikit-learn es una librería de código abierto de Python con una Exactitud
licencia comercialmente usable que implementa una serie de algoritmos KNN
de aprendizaje computacional, preprocesamiento, validación cruzada y print(knn.score(X_test, y_test)) score de modelos
visualización en una única interfaz construida con Numpy, Scipy y from sklearn import neighbors from sklearn.metrics import accuracy_score accurancy_score de
Matplotlib. print(accuracy_score(y_test, y_pred)) metrics
knn = neighbors.KNeighborsClassifier(n_neighbors=14)
Ejemplo básico Árboles de decisión Reporte de Clasificación
from sklearn import tree, datasets, preprocessing from sklearn.metrics import classification_report precision, recall,
from sklearn.model_selection import train_test_split from sklearn import tree
clf = tree.DecisionTreeClassifier(criterion='gini') classification_report(y_test, y_pred) F-1
from sklearn.metrics import accuracy_score
iris = datasets.load_iris()
X, y = iris.data[:, :2], iris.target Bosques aleatorios Matriz de Confusión
X_train, X_test, y_train, y_test = train_test_split(X, y, from sklearn.metrics import confusion_matrix
random_state=33) from sklearn.ensemble import RandomForestClassifier
clf = RandomForestClassifier(max_depth=2, print(confusion_matrix(y_test, y_pred))
scaler = preprocessing.StandardScaler().fit(X_train)
X_train = scaler.transform(X_train) random_state=32) Métricas para regresión
X_test = scaler.transform(X_test)
clf = tree.DecisionTreeClassifier(max_depth=3) Máquinas de Vectores de Soporte (SVM)
clf.fit(X_train, y_train) Error Absoluto Medio
y_pred = clf.predict(X_test) from sklearn.svm import SVC from sklearn.metrics import mean_absolute_error
print(accuracy_score(y_test, y_pred)) svc = SVC(kernel='linear') print(mean_absolute_error(y_true, y_pred))
Cargar datos Aprendizaje no supervisado Error Cuadrático Medio
Los modelos de scikit-learn aceptan datos numéricos almacenados en from sklearn.metrics import mean_squared_error
arreglos de Numpy o en matrices dispersas de Scipy. Otros tipos de datos Análisis de Componentes Principales (PCA)
print(mean_squared_error(y_test, y_pred))
convertibles a arreglos de Numpy también son aceptables, como listas y
DataFrames de Pandas. from sklearn.decomposition import PCA
pca = PCA(n_components=0.95) Métricas para agrupamientos
Partición Entrenamiento - Prueba K-Means Inercia
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42) from sklearn.cluster import KMeans print(k_means_model.inertia_)
k_means = KMeans(n_clusters=5, random_state=2)
Preprocesamiento Coeficiente de Silueta
Predicción
Estandarización - media cero y varianza uno labels = k_means_model.labels_
Modelos supervisados
print(metrics.silhouette_score(X, labels, metric='euclidean'))
scaler = preprocessing.StandardScaler()
X_train_standarized = scaler.fit_transform(X_train) y_pred = svc.predict(X_test) Predecir etiquetas
y_pred = knn.predict_proba(X_test) Probabilidad de etiquetas Homogeneidad
# NO se hace fit con los datos de prueba
X_test_standarized = scaler.transform(X_test) from sklearn.metrics import homogeneity_score
Modelos no supervisados print(homogeneity_score(y_true, y_pred))
Normalización - vectores con norma 1
y_pred = k_means.predict(X_test) Etiqueta en agrupamiento Validación cruzada
# fit no hace nada
scaler = preprocessing.Normalizer()
X_train_normalized = scaler.transform(X_train) Pipelines from sklearn.cross_validation import cross_val_score
X_test_normalized = scaler.transform(X_test) print(cross_val_score(knn, X_train, y_train, cv=5))
Ejemplo básico print(cross_val_score(lr, X, y, cv=4))
Binarización
from sklearn.pipeline import Pipeline Afinar modelos
binarizer = preprocessing.Binarizer(threshold=0.0) pipe = Pipeline([('scaler', StandardScaler()),
X_binary = binarizer.fit_transform(X) ('svc', SVC())]) Búsqueda de hiperparámetros - GridSearch
Codificación de variables categóricas # Un pipeline puede ser usado como cualquier modelo
from sklearn.grid_search import GridSearchCV
pipe.fit(X_train, y_train) params = {"n_neighbors": np.arange(1,9),
enc = preprocessing.OneHotEncoder() pipe.score(X_test, y_test)
X_train_encoded = enc.fit_transform(X_train) "metric": ["euclidean", "cityblock"]}
grid = GridSearchCV(estimator=knn, param_grid=params)
Ejemplo avanzado grid.fit(X_train, y_train)
Codificación de etiquetas
from sklearn.pipeline import make_pipeline print(grid.best_score_)
enc = preprocessing.LabelEncoder() from sklearn.compose import make_column_transformer print(grid.best_estimator_.n_neighbors)
y = enc.fit_transform(y)
Búsqueda de Hiperparámetros aleatorizada
num_proc = make_pipeline(
Imputación de variables faltantes SimpleImputer(strategy='median'), StandardScaler()) from sklearn.grid_search import RandomizedSearchCV
imp = preprocessing.Imputer(missing_values=0, strategy='mean', cat_proc = make_pipeline( params = {"n_neighbors": range(1,10),
axis=0) SimpleImputer(strategy='constant', "weights": ["uniform", "distance"]}
fill_value='missing' rsearch = RandomizedSearchCV(estimator=knn, param_distributions=params,
Discretización ), cv=4, n_iter=8, random_state=47)
OneHotEncoder(handle_unknown='ignore')) rsearch.fit(X_train, y_train)
from preprocessing import KBinsDiscretizer print(rsearch.best_score_)
# Se aplican transformaciones a cada columna
discretizer = KBinsDiscretizer(n_bins=[3, 2, 2], encode='ordinal') preprocessor = make_column_transformer(
(num_proc, ('feat1', 'feat3')),
Generación de características polinomiales (cat_proc, ('feat0', 'feat2')))

from sklearn.preprocessing import PolynomialFeatures clf = make_pipeline(preprocessor, LogisticRegression())

poly = PolynomialFeatures(2)
Evaluación del desempeño
Modelos
Métricas para clasificación
Aprendizaje supervisado
Exactitud
Regresión lineal
print(knn.score(X_test, y_test)) score de modelos
from sklearn.linear_model import LinearRegression from sklearn.metrics import accuracy_score accurancy_score de
print(accuracy_score(y_test, y_pred)) metrics
lr = LinearRegression(normalize=True)

También podría gustarte

03 Spark The Definitive Guide ESP
Aún no hay calificaciones
03 Spark The Definitive Guide ESP
601 páginas
Exploratory Data Analysis en Python
Aún no hay calificaciones
Exploratory Data Analysis en Python
21 páginas
Curso Profesional de Scikit Learn - 43223611 0b12 43ec b05b 1e95c5
Aún no hay calificaciones
Curso Profesional de Scikit Learn - 43223611 0b12 43ec b05b 1e95c5
115 páginas
1.2. Introducción A La Programación - R y Phyton Reducido
100% (2)
1.2. Introducción A La Programación - R y Phyton Reducido
33 páginas
Inteligencia Artificial - Segundo Parcial
Aún no hay calificaciones
Inteligencia Artificial - Segundo Parcial
250 páginas
Machine Learning
Aún no hay calificaciones
Machine Learning
1116 páginas
Guia Basica Numpy
Aún no hay calificaciones
Guia Basica Numpy
29 páginas
Curso Estadistica Inferencial Udemy
100% (1)
Curso Estadistica Inferencial Udemy
311 páginas
Python Básico - Hoja de Referencia
Aún no hay calificaciones
Python Básico - Hoja de Referencia
1 página
4.1 Python PDF
Aún no hay calificaciones
4.1 Python PDF
129 páginas
M03 Ud01 Ifct107
100% (1)
M03 Ud01 Ifct107
61 páginas
Introducción A Pandas para Análisis de Series Temporales
Aún no hay calificaciones
Introducción A Pandas para Análisis de Series Temporales
46 páginas
Resumen Numpy y Pandas
Aún no hay calificaciones
Resumen Numpy y Pandas
41 páginas
Python Excelente de La Web Aprende Con Alf Python
Aún no hay calificaciones
Python Excelente de La Web Aprende Con Alf Python
112 páginas
Esto No Es Python Ni Tampoco Te Sirve
Aún no hay calificaciones
Esto No Es Python Ni Tampoco Te Sirve
114 páginas
Qué Es La Ciencia de Datos
100% (2)
Qué Es La Ciencia de Datos
31 páginas
Num Py
Aún no hay calificaciones
Num Py
122 páginas
Primeros Pasos en La Programacion Con Python
Aún no hay calificaciones
Primeros Pasos en La Programacion Con Python
1 página
Brochure - Ciencia de Datos
Aún no hay calificaciones
Brochure - Ciencia de Datos
13 páginas
Keras Es PDF
Aún no hay calificaciones
Keras Es PDF
19 páginas
MODELOS PREDICTIVOS
Aún no hay calificaciones
MODELOS PREDICTIVOS
25 páginas
Clase 9
Aún no hay calificaciones
Clase 9
26 páginas
Gslib PDF
Aún no hay calificaciones
Gslib PDF
35 páginas
Introducciขn Python
Aún no hay calificaciones
Introducciขn Python
39 páginas
Guia Tkinter
100% (1)
Guia Tkinter
87 páginas
Aprendizaje Estadistico
Aún no hay calificaciones
Aprendizaje Estadistico
226 páginas
Curso de Redes Neuronales 1
Aún no hay calificaciones
Curso de Redes Neuronales 1
45 páginas
PCAP - Programming Essentials in Python 2 - Modulo 06
Aún no hay calificaciones
PCAP - Programming Essentials in Python 2 - Modulo 06
96 páginas
Simulacioìn de Procesos 2018
Aún no hay calificaciones
Simulacioìn de Procesos 2018
54 páginas
Introducción A Pyomo
Aún no hay calificaciones
Introducción A Pyomo
100 páginas
Redes Neuronales - 2
Aún no hay calificaciones
Redes Neuronales - 2
44 páginas
Sklearn Guion
Aún no hay calificaciones
Sklearn Guion
9 páginas
Aprendizaje Supervisado
Aún no hay calificaciones
Aprendizaje Supervisado
9 páginas
Informe Final Trabajo de Grado - Seminario
Aún no hay calificaciones
Informe Final Trabajo de Grado - Seminario
20 páginas
Plantilla de Un Proyecto Machine Learning en R y Python
Aún no hay calificaciones
Plantilla de Un Proyecto Machine Learning en R y Python
10 páginas
Coursera 2
100% (1)
Coursera 2
81 páginas
Intro Machine Learning
Aún no hay calificaciones
Intro Machine Learning
14 páginas
Guía Instrucciones NumPy Básico - AprendeIA
Aún no hay calificaciones
Guía Instrucciones NumPy Básico - AprendeIA
1 página
Openpyxl
Aún no hay calificaciones
Openpyxl
4 páginas
05 Analisis de Datos Con Pandas
Aún no hay calificaciones
05 Analisis de Datos Con Pandas
32 páginas
4 Optimizacion Con Restricciones
Aún no hay calificaciones
4 Optimizacion Con Restricciones
48 páginas
Programacion Entera Mixta
Aún no hay calificaciones
Programacion Entera Mixta
64 páginas
Seaborn
Aún no hay calificaciones
Seaborn
46 páginas
Trabajo Final Marketing - ENEB
67% (3)
Trabajo Final Marketing - ENEB
21 páginas
KERAS
Aún no hay calificaciones
KERAS
60 páginas
Preguntas Power Bi
Aún no hay calificaciones
Preguntas Power Bi
7 páginas
Ejercicios de Redes Neuronales
Aún no hay calificaciones
Ejercicios de Redes Neuronales
10 páginas
Modelos No Supervisados - ML
Aún no hay calificaciones
Modelos No Supervisados - ML
46 páginas
Estadistica Con Python I PDF
100% (1)
Estadistica Con Python I PDF
30 páginas
Algoritmos para Python en Español
Aún no hay calificaciones
Algoritmos para Python en Español
114 páginas
VLKQ
Aún no hay calificaciones
VLKQ
11 páginas
Python For Machine Learning 6-10
Aún no hay calificaciones
Python For Machine Learning 6-10
3 páginas
Programación Lineal - Parte I PDF
Aún no hay calificaciones
Programación Lineal - Parte I PDF
32 páginas
Scikit Learn Es
Aún no hay calificaciones
Scikit Learn Es
27 páginas
Curso Maestro de Python 3 Aprende Desde Cero Udemy
Aún no hay calificaciones
Curso Maestro de Python 3 Aprende Desde Cero Udemy
16 páginas
Analisis de Curvas Roc
Aún no hay calificaciones
Analisis de Curvas Roc
61 páginas
Especializaciขn Python for Analytics
Aún no hay calificaciones
Especializaciขn Python for Analytics
10 páginas
El Ateismo La Aventura de Pensar Libremente en Espana - Andreu Navarra Ordono
100% (1)
El Ateismo La Aventura de Pensar Libremente en Espana - Andreu Navarra Ordono
230 páginas
Deep Learning
100% (1)
Deep Learning
2 páginas
Clase 3 Numpy Pandas
Aún no hay calificaciones
Clase 3 Numpy Pandas
16 páginas
El Futuro Chatarra
100% (2)
El Futuro Chatarra
170 páginas
Guía de Referencia de Pandas
Aún no hay calificaciones
Guía de Referencia de Pandas
2 páginas
Api 20
Aún no hay calificaciones
Api 20
6 páginas
Bases Biomecánicas Del Cierre de Espacios de Exodoncias
Aún no hay calificaciones
Bases Biomecánicas Del Cierre de Espacios de Exodoncias
38 páginas
Redacción de Textos Publicitarios
100% (1)
Redacción de Textos Publicitarios
23 páginas
Carta Descriptiva Sistema Nervioso y Endocrino 19-1
Aún no hay calificaciones
Carta Descriptiva Sistema Nervioso y Endocrino 19-1
23 páginas
Ejemplo Plan - de - Emergencia
Aún no hay calificaciones
Ejemplo Plan - de - Emergencia
71 páginas
Fecha: La Letra P
Aún no hay calificaciones
Fecha: La Letra P
15 páginas
Módulo 4 - Otorgamiento de Titulos Habilitantes
Aún no hay calificaciones
Módulo 4 - Otorgamiento de Titulos Habilitantes
38 páginas
de Las Sucesiones
Aún no hay calificaciones
de Las Sucesiones
20 páginas
Manual Cafetera
Aún no hay calificaciones
Manual Cafetera
16 páginas
Proyectos-Escolares 2018-2019
Aún no hay calificaciones
Proyectos-Escolares 2018-2019
19 páginas
AA4 Teoría de Grafos
Aún no hay calificaciones
AA4 Teoría de Grafos
13 páginas
Tales Aristoteles
Aún no hay calificaciones
Tales Aristoteles
5 páginas
97 Informe
Aún no hay calificaciones
97 Informe
8 páginas
Diapositiva Conociendo INFOTEP
Aún no hay calificaciones
Diapositiva Conociendo INFOTEP
21 páginas
Catalago de Cuentas Modulo 1.1
Aún no hay calificaciones
Catalago de Cuentas Modulo 1.1
10 páginas
Bajo La Linea de Fuego 2024
Aún no hay calificaciones
Bajo La Linea de Fuego 2024
4 páginas
Portafolio PCR
Aún no hay calificaciones
Portafolio PCR
6 páginas
Primer Año Cinematica
Aún no hay calificaciones
Primer Año Cinematica
7 páginas
Solución Ova S 8
Aún no hay calificaciones
Solución Ova S 8
4 páginas
Factores Que Afectan, Semana 9
Aún no hay calificaciones
Factores Que Afectan, Semana 9
3 páginas
Entrenamiento Semanal Insanity Mind - Semana n.3
Aún no hay calificaciones
Entrenamiento Semanal Insanity Mind - Semana n.3
2 páginas
Taller Kateryn Rivera
Aún no hay calificaciones
Taller Kateryn Rivera
3 páginas
Procesos Del Teñido en Fibras Vegetal y Animal
Aún no hay calificaciones
Procesos Del Teñido en Fibras Vegetal y Animal
7 páginas
Formato Solicitud Examen Ocupacional
Aún no hay calificaciones
Formato Solicitud Examen Ocupacional
1 página
Piña en Almibar
Aún no hay calificaciones
Piña en Almibar
2 páginas
FLO-C-IE-01b ALUMBRADO-90 X 60.DWG PDF
Aún no hay calificaciones
FLO-C-IE-01b ALUMBRADO-90 X 60.DWG PDF
1 página
Encuentra Las Características Cerveza Águila Light - Bavaria
Aún no hay calificaciones
Encuentra Las Características Cerveza Águila Light - Bavaria
1 página
Electrónica con MicroPython
De Everand
Electrónica con MicroPython
Daniel Schmidt
Aún no hay calificaciones