0% found this document useful (0 votes)

65 views

ML Lab Codes

The document discusses various machine learning techniques applied to a diabetes dataset. It performs data preprocessing like rescaling, standardization, normalization and binarization. It analyzes the data using univariate histograms, density and box plots as well as correlation and scatter matrix plots. It implements logistic regression, k-nearest neighbors and linear discriminant analysis models for classification. Feature selection techniques like univariate selection, recursive feature elimination and principal component analysis are also applied. Model performance is evaluated using cross-validation scores for metrics like mean absolute error, mean squared error and R-squared.

Uploaded by

Thor

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as TXT, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

65 views

ML Lab Codes

Uploaded by

Thor

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as TXT, PDF, TXT or read online on Scribd

You are on page 1/ 14

#SET-1

#A.To display all arithmetic operations using NumPy arrays.

import numpy as np
z1=np.array([[1,2,3],[4,5,6]])
z2=np.array([[7,8,9],[10,11,12]])
zadd=np.add(z1,z2)
print(zadd)
zsub=np.subtract(z1,z2)
print(zsub)
zmul=np.multiply(z1,z2)
print(zmul)
zdiv=np.divide(z1,z2)
print(zdiv)
zfdiv=np.floor_divide(z1,z2)
print(zfdiv)
zmod=np.mod(z1,z2)
print(zmod)
zpow=np.power(z1,z2)
print(zpow)
z1neg=np.negative(z1)
print(z1neg)
print("--------------------------------------------------------")
#B.To Perform the data preprocessing techniques on the dataset (Rescale,
standardize,normalize, binarize )
import pandas as pd
from numpy import set_printoptions
from sklearn.preprocessing import MinMaxScaler
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import Normalizer
from sklearn.preprocessing import Binarizer
from sklearn import preprocessing
df = pd.read_csv('/content/diabetes.csv')
array = df.values
# separate array into input and output components
X = array[:,0:8]
Y = array[:,8]
set_printoptions(precision=3)
# Rescale data (between 0 and 1)
scaler = MinMaxScaler(feature_range=(0, 1))
rescaledX = scaler.fit_transform(X)
print(rescaledX[0:5,:])
# Standardize data (0 mean, 1 stdev)
scaler = StandardScaler().fit(X)
rescaledX = scaler.transform(X)
print(rescaledX[0:5,:])
# Normalize data (length of 1)
scaler = Normalizer().fit(X)
normalizedX = scaler.transform(X)
print(normalizedX[0:5,:])
# binarization
binarizer = Binarizer(threshold=0.0).fit(X)
binaryX = binarizer.transform(X)
print(binaryX[0:5,:])
print("--------------------------------------------------------")
#c.Analyze the sample data by plotting a uni-variate histogram plot, and a
correlation matrix plot.
#Histogram plot
import matplotlib.pyplot as plt
df.hist()
plt.rcParams['figure.figsize']=[40,30]
plt.show()
#correlation matrix plot
import seaborn as sns
correlations = df.corr()
sns.heatmap(correlations, annot=True, cmap='coolwarm', vmin=-1, vmax=1,
xticklabels=list(df.columns), yticklabels=list(df.columns))
plt.show()
print("--------------------------------------------------------")
#D.Split the data into Train and Test Sets of Pima Indians dataset into 67%,33%
respectively and implement Logistic Regression model.
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
X_train, X_test, Y_train, Y_test = train_test_split(X, Y,
test_size=0.33,random_state=12)
model = LogisticRegression(max_iter=500)
model.fit(X_train, Y_train)
#E.Evaluate the performance of the algorithm by calculating Regression Metrics(Mean
Absolute Error, Mean Squared Error and RSquared)
#Cross Validation Regression MAE
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
kfold = KFold(n_splits=10, random_state=12,shuffle=True)
results = cross_val_score(model, X, Y, cv=kfold, scoring='neg_mean_absolute_error')
print("MAE:",results.mean(), results.std())
#Cross Validation Regression MSE
results = cross_val_score(model, X, Y, cv=kfold, scoring='neg_mean_squared_error')
print("MSE:",-1*results.mean(), results.std())
#Cross Validation Regression R^2
results = cross_val_score(model, X, Y, cv=kfold, scoring='r2')
print("R^2:",results.mean(), results.std())

===================================================================================
===============
#SET-2
#A.Create data frame and access the data in a Pandas data frame.
import pandas as pd
df=pd.read_csv('/content/diabetes.csv')
print(df.head())
print(df.tail())
print(df.sample(10))
print(df.columns)
print(df.shape)
print(df[10:21])
specific_data=[df["Glucose"]]
print(specific_data)
print(df.iloc[5])
print(df["Insulin"].value_counts())
print(df["Insulin"].sum())
print(df["Insulin"].mean())
print(df["Insulin"].median())
print(df["Insulin"].min())
print(df["Insulin"].max())
newcols={"BloodPressure":"BP"}
df.rename(columns=newcols,inplace=True)
print(df)
print(df.isnull())
print("--------------------------------------------------------")
#B.To Perform the data preprocessing techniques on the dataset (Rescale,
standardize,normalize, binarize )
from numpy import set_printoptions
from sklearn.preprocessing import MinMaxScaler
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import Normalizer
from sklearn.preprocessing import Binarizer
from sklearn import preprocessing
df = pd.read_csv('/content/diabetes.csv')
array = df.values
# separate array into input and output components
X = array[:,0:8]
Y = array[:,8]
set_printoptions(precision=3)
# Rescale data (between 0 and 1)
scaler = MinMaxScaler(feature_range=(0, 1))
rescaledX = scaler.fit_transform(X)
print(rescaledX[0:5,:])
# Standardize data (0 mean, 1 stdev)
scaler = StandardScaler().fit(X)
rescaledX = scaler.transform(X)
print(rescaledX[0:5,:])
# Normalize data (length of 1)
scaler = Normalizer().fit(X)
normalizedX = scaler.transform(X)
print(normalizedX[0:5,:])
# binarization
binarizer = Binarizer(threshold=0.0).fit(X)
binaryX = binarizer.transform(X)
print(binaryX[0:5,:])
print("--------------------------------------------------------")
#c.Analyze the sample data by plotting a uni-variate density plot and multivariate
scatter plot.
#Density plot
import matplotlib.pyplot as plt
df.plot(kind='density', subplots=True, layout=(3,3))
plt.show()
#Scatter plot
from pandas.plotting import scatter_matrix
scatter_matrix(df)
plt.show()
print("--------------------------------------------------------")
#D.To implement Linear Discriminant Analysis (LDA) on the dataset
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
model = LinearDiscriminantAnalysis()
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
kfold = KFold(n_splits=10, random_state=12,shuffle=True)
results = cross_val_score(model, X, Y, cv=kfold)
print(results.mean())
print("--------------------------------------------------------")
#E.Evaluate the performance of the algorithm by calculating Regression Metrics(Mean
Absolute Error, Mean Squared Error and RSquared)
#Cross Validation Regression MAE
results = cross_val_score(model, X, Y, cv=kfold, scoring='neg_mean_absolute_error')
print("MAE:",results.mean(), results.std())
#Cross Validation Regression MSE
results = cross_val_score(model, X, Y, cv=kfold, scoring='neg_mean_squared_error')
print("MSE:",-1*results.mean(), results.std())
#Cross Validation Regression R^2
results = cross_val_score(model, X, Y, cv=kfold, scoring='r2')
print("R^2:",results.mean(), results.std())

===================================================================================
=======

#SET-3
#A.To implement Feature Selection Techniques on a sample data set.
#B.Program to implement Univariate Selection using chi-squared (chi2) statistical
test for non-negative features to select 4 of the best features.
import pandas as pd
import numpy as np
from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import chi2
df=pd.read_csv('/content/diabetes.csv')
array=df.values
X=array[:,0:8]
Y=array[:,8]
test = SelectKBest(score_func=chi2, k=4)
fit = test.fit(X, Y)
np.set_printoptions(precision=3)
print(fit.scores_)
features = fit.transform(X)
print(features[0:5,:])
print("--------------------------------------------------------")
#C. Recursive Feature Elimination RFE with the logistic regression Algorithm to
select the top 3 features.
from sklearn.linear_model import LogisticRegression
from sklearn.feature_selection import RFE
model = LogisticRegression(max_iter=256)
rfe = RFE(model, n_features_to_select=3)
fit = rfe.fit(X, Y)
print("Num Features:",fit.n_features_)
print("Selected Features:",fit.support_)
print("Feature Ranking:", fit.ranking_)
print("--------------------------------------------------------")
#D.Principle Component Analysis PCA and select 3 principal components.
from sklearn.decomposition import PCA
pca = PCA(n_components=3)
fit = pca.fit(X)
print("Explained Variance:",fit.explained_variance_ratio_)
print(fit.components_)
============================================================================

#SET-4
#A.To Perform the data preprocessing techniques on the dataset (Rescale,
standardize,normalize, binarize )
import pandas as pd
import numpy as np
from numpy import set_printoptions
from sklearn.preprocessing import MinMaxScaler
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import Normalizer
from sklearn.preprocessing import Binarizer
from sklearn import preprocessing
df = pd.read_csv('/content/diabetes.csv')
array = df.values
# separate array into input and output components
X = array[:,0:8]
Y = array[:,8]
set_printoptions(precision=3)
# Rescale data (between 0 and 1)
scaler = MinMaxScaler(feature_range=(0, 1))
rescaledX = scaler.fit_transform(X)
print(rescaledX[0:5,:])
# Standardize data (0 mean, 1 stdev)
scaler = StandardScaler().fit(X)
rescaledX = scaler.transform(X)
print(rescaledX[0:5,:])
# Normalize data (length of 1)
scaler = Normalizer().fit(X)
normalizedX = scaler.transform(X)
print(normalizedX[0:5,:])
# binarization
binarizer = Binarizer(threshold=0.0).fit(X)
binaryX = binarizer.transform(X)
print(binaryX[0:5,:])
print("--------------------------------------------------------")
#B.To implement k-Nearest Neighbors.
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
kfold = KFold(n_splits=10, random_state=12,shuffle=True)
model = KNeighborsClassifier()
results_knn = cross_val_score(model, X, Y, cv=kfold)
print(results_knn.mean())
print("--------------------------------------------------------")
#C. Analyze the sample data by plotting a uni-variate box plots and a multi-variate
correlation matrix plot
#Box plot
import matplotlib.pyplot as plt
df.plot(kind='box', subplots=True, layout=(3,3))
plt.show()
#correlation matrix plot
import seaborn as sns
correlations = df.corr()
sns.heatmap(correlations, annot=True, cmap='coolwarm', vmin=-1, vmax=1,
xticklabels=list(df.columns), yticklabels=list(df.columns))
plt.show()
print("--------------------------------------------------------")
#D.Evaluate the performance of the algorithm by Accuracy,
ConfusionMatrix ,Precision ,Recall, F-Score, AUC(Area Under the Curve)-ROC
#Accuracy
results = cross_val_score(model, X, Y, cv=kfold, scoring='accuracy')
print("Accuracy:",results.mean(), results.std())
#Confusion Matrix
from sklearn.metrics import confusion_matrix
from sklearn.model_selection import train_test_split
X_train, X_test, Y_train, Y_test = train_test_split(X, Y,
test_size=0.33,random_state=12)
model.fit(X_train, Y_train)
predicted = model.predict(X_test)
matrix = confusion_matrix(Y_test, predicted)
print(matrix)
#Precision
from sklearn.metrics import precision_score
precision = precision_score(Y_test, predicted)
print("Precision:", precision)
#Recall
from sklearn.metrics import recall_score
recall = recall_score(Y_test, predicted)
print("Recall:", recall)
#F-score
from sklearn.metrics import f1_score
f1=f1_score(Y_test,predicted)
print("F1 score:", f1)
#AUC-ROC
results = cross_val_score(model, X, Y, cv=kfold, scoring='roc_auc')
print("AUC:",results.mean(), results.std())

===================================================================================
========

#SET-5
#A.To Perform the data preprocessing techniques on the dataset (Rescale,
standardize,normalize, binarize )
import pandas as pd
from numpy import set_printoptions
from sklearn.preprocessing import MinMaxScaler
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import Normalizer
from sklearn.preprocessing import Binarizer
from sklearn import preprocessing
df = pd.read_csv('/content/diabetes.csv')
array = df.values
# separate array into input and output components
X = array[:,0:8]
Y = array[:,8]
set_printoptions(precision=3)
# Rescale data (between 0 and 1)
scaler = MinMaxScaler(feature_range=(0, 1))
rescaledX = scaler.fit_transform(X)
print(rescaledX[0:5,:])
# Standardize data (0 mean, 1 stdev)
scaler = StandardScaler().fit(X)
rescaledX = scaler.transform(X)
print(rescaledX[0:5,:])
# Normalize data (length of 1)
scaler = Normalizer().fit(X)
normalizedX = scaler.transform(X)
print(normalizedX[0:5,:])
# binarization
binarizer = Binarizer(threshold=0.0).fit(X)
binaryX = binarizer.transform(X)
print(binaryX[0:5,:])
print("--------------------------------------------------------")
#B.To implement Naive Bayes.
from sklearn.naive_bayes import GaussianNB
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import KFold
model = GaussianNB()
kfold = KFold(n_splits=10, random_state=12,shuffle=True)
results_nb = cross_val_score(model, X, Y, cv=kfold)
print(results_nb.mean())
print("--------------------------------------------------------")
#C.Analyze the sample data by plotting a uni-variate Whisker plots and a multi-
variate Scatter plot
#Whisker/box plot
import matplotlib.pyplot as plt
df.plot(kind='box', subplots=True, layout=(3,3))
plt.show()
#Scatter plot
from pandas.plotting import scatter_matrix
scatter_matrix(df)
plt.show()
print("--------------------------------------------------------")
#D.Evaluate the performance of the algorithm by Accuracy,
ConfusionMatrix ,Precision ,Recall, F-Score, AUC(Area Under the Curve)-ROC
#Accuracy
results = cross_val_score(model, X, Y, cv=kfold, scoring='accuracy')
print("Accuracy:",results.mean(), results.std())
#Confusion Matrix
from sklearn.metrics import confusion_matrix
from sklearn.model_selection import train_test_split
X_train, X_test, Y_train, Y_test = train_test_split(X, Y,
test_size=0.33,random_state=12)
model.fit(X_train, Y_train)
predicted = model.predict(X_test)
matrix = confusion_matrix(Y_test, predicted)
print(matrix)
#Precision
from sklearn.metrics import precision_score
precision = precision_score(Y_test, predicted)
print("Precision:", precision)
#Recall
from sklearn.metrics import recall_score
recall = recall_score(Y_test, predicted)
print("Recall:", recall)
#F-score
from sklearn.metrics import f1_score
f1=f1_score(Y_test,predicted)
print("F1 score:", f1)
#AUC-ROC
results = cross_val_score(model, X, Y, cv=kfold, scoring='roc_auc')
print("AUC:",results.mean(), results.std())
=============================================================
#SET-6
#A.To display all arithmetic operations using NumPy arrays.
import numpy as np
z1=np.array([[1,2,3],[4,5,6]])
z2=np.array([[7,8,9],[10,11,12]])
zadd=np.add(z1,z2)
print(zadd)
zsub=np.subtract(z1,z2)
print(zsub)
zmul=np.multiply(z1,z2)
print(zmul)
zdiv=np.divide(z1,z2)
print(zdiv)
zfdiv=np.floor_divide(z1,z2)
print(zfdiv)
zmod=np.mod(z1,z2)
print(zmod)
zpow=np.power(z1,z2)
print(zpow)
z1neg=np.negative(z1)
print(z1neg)
print("--------------------------------------------------------")
#B.To implement Classification id3 Decision tree
import pandas as pd
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
df = pd.read_csv('/content/diabetes.csv')
array = df.values
X = array[:,0:8]
Y = array[:,8]
model = DecisionTreeClassifier(criterion="entropy")
X_train, X_test, Y_train, Y_test = train_test_split(X, Y,
test_size=0.33,random_state=12)
model.fit(X_train, Y_train)
prediction=model.predict(X_test)
print("Predicted Class Index:",np.argmax(prediction))
#C.Evaluate the performance of the algorithm by Accuracy,
ConfusionMatrix ,Precision ,Recall, F-Score, AUC(Area Under the Curve)-ROC
#Accuracy
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
kfold = KFold(n_splits=10, random_state=12,shuffle=True)
results = cross_val_score(model, X, Y, cv=kfold, scoring='accuracy')
print("Accuracy:",results.mean(), results.std())
#Confusion Matrix
from sklearn.metrics import confusion_matrix
from sklearn.model_selection import train_test_split
X_train, X_test, Y_train, Y_test = train_test_split(X, Y,
test_size=0.33,random_state=12)
model.fit(X_train, Y_train)
predicted = model.predict(X_test)
matrix = confusion_matrix(Y_test, predicted)
print(matrix)
#Precision
from sklearn.metrics import precision_score
precision = precision_score(Y_test, predicted)
print("Precision:", precision)
#Recall
from sklearn.metrics import recall_score
recall = recall_score(Y_test, predicted)
print("Recall:", recall)
#F-score
from sklearn.metrics import f1_score
f1=f1_score(Y_test,predicted)
print("F1 score:", f1)
#AUC-ROC
results = cross_val_score(model, X, Y, cv=kfold, scoring='roc_auc')
print("AUC:",results.mean(), results.std())

===================================================================================
======
#SET-7
#A.To Perform the data preprocessing techniques on the dataset (Rescale,
standardize,normalize, binarize )
import pandas as pd
from numpy import set_printoptions
from sklearn.preprocessing import MinMaxScaler
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import Normalizer
from sklearn.preprocessing import Binarizer
from sklearn import preprocessing
df = pd.read_csv('/content/diabetes.csv')
array = df.values
# separate array into input and output components
X = array[:,0:8]
Y = array[:,8]
set_printoptions(precision=3)
# Rescale data (between 0 and 1)
scaler = MinMaxScaler(feature_range=(0, 1))
rescaledX = scaler.fit_transform(X)
print(rescaledX[0:5,:])
# Standardize data (0 mean, 1 stdev)
scaler = StandardScaler().fit(X)
rescaledX = scaler.transform(X)
print(rescaledX[0:5,:])
# Normalize data (length of 1)
scaler = Normalizer().fit(X)
normalizedX = scaler.transform(X)
print(normalizedX[0:5,:])
# binarization
binarizer = Binarizer(threshold=0.0).fit(X)
binaryX = binarizer.transform(X)
print(binaryX[0:5,:])
print("--------------------------------------------------------")
#B.To implement Support Vector Machines
from sklearn.svm import SVC
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import KFold
model = SVC()
kfold = KFold(n_splits=10, random_state=12,shuffle=True)
results_svm = cross_val_score(model, X, Y, cv=kfold)
print(results_svm.mean())
print("--------------------------------------------------------")
#C.Analyze the sample data by plotting a uni-variate Whisker plot and a multi-
variate Scatter plot
#Whisker plot
import matplotlib.pyplot as plt
df.plot(kind='box', subplots=True, layout=(3,3))
plt.show()
#Scatter plot
from pandas.plotting import scatter_matrix
scatter_matrix(df)
plt.show()
print("--------------------------------------------------------")
#D.Evaluate the performance of the algorithm by Accuracy,
ConfusionMatrix ,Precision ,Recall, F-Score, AUC(Area Under the Curve)-ROC
#Accuracy
results = cross_val_score(model, X, Y, cv=kfold, scoring='accuracy')
print("Accuracy:",results.mean(), results.std())
#Confusion Matrix
from sklearn.metrics import confusion_matrix
from sklearn.model_selection import train_test_split
X_train, X_test, Y_train, Y_test = train_test_split(X, Y,
test_size=0.33,random_state=12)
model.fit(X_train, Y_train)
predicted = model.predict(X_test)
matrix = confusion_matrix(Y_test, predicted)
print(matrix)
#Precision
from sklearn.metrics import precision_score
precision = precision_score(Y_test, predicted)
print("Precision:", precision)
#Recall
from sklearn.metrics import recall_score
recall = recall_score(Y_test, predicted)
print("Recall:", recall)
#F-score
from sklearn.metrics import f1_score
f1=f1_score(Y_test,predicted)
print("F1 score:", f1)
#AUC-ROC
results = cross_val_score(model, X, Y, cv=kfold, scoring='roc_auc')
print("AUC:",results.mean(), results.std())

===================================================================================
======

#SET-8
#A.To display all arithmetic operations using NumPy arrays.
import numpy as np
z1=np.array([[1,2,3],[4,5,6]])
z2=np.array([[7,8,9],[10,11,12]])
zadd=np.add(z1,z2)
print(zadd)
zsub=np.subtract(z1,z2)
print(zsub)
zmul=np.multiply(z1,z2)
print(zmul)
zdiv=np.divide(z1,z2)
print(zdiv)
zfdiv=np.floor_divide(z1,z2)
print(zfdiv)
zmod=np.mod(z1,z2)
print(zmod)
zpow=np.power(z1,z2)
print(zpow)
z1neg=np.negative(z1)
print(z1neg)
print("--------------------------------------------------------")
#B.To implement Random Forest algorithm
import pandas as pd
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.ensemble import RandomForestClassifier
df=pd.read_csv('/content/diabetes.csv')
array = df.values
X = array[:,0:8]
Y = array[:,8]
kfold = KFold(n_splits=10, random_state=12,shuffle=True)
model = RandomForestClassifier(n_estimators=100, max_features=3)
results = cross_val_score(model, X, Y, cv=kfold)
print(results.mean())
print("--------------------------------------------------------")
#C.Evaluate the performance of the algorithm by Accuracy,
ConfusionMatrix ,Precision ,Recall, F-Score, AUC(Area Under the Curve)-ROC
#Accuracy
results = cross_val_score(model, X, Y, cv=kfold, scoring='accuracy')
print("Accuracy:",results.mean(), results.std())
#Confusion Matrix
from sklearn.metrics import confusion_matrix
from sklearn.model_selection import train_test_split
X_train, X_test, Y_train, Y_test = train_test_split(X, Y,
test_size=0.33,random_state=12)
model.fit(X_train, Y_train)
predicted = model.predict(X_test)
matrix = confusion_matrix(Y_test, predicted)
print(matrix)
#Precision
from sklearn.metrics import precision_score
precision = precision_score(Y_test, predicted)
print("Precision:", precision)
#Recall
from sklearn.metrics import recall_score
recall = recall_score(Y_test, predicted)
print("Recall:", recall)
#F-score
from sklearn.metrics import f1_score
f1=f1_score(Y_test,predicted)
print("F1 score:", f1)
#AUC-ROC
results = cross_val_score(model, X, Y, cv=kfold, scoring='roc_auc')
print("AUC:",results.mean(), results.std())

============================================================================
#SET-9
#A.Create data frame and access the data in a Pandas data frame.
import pandas as pd
df=pd.read_csv('/content/diabetes.csv')
print(df.head())
print(df.tail())
print(df.sample(10))
print(df.columns)
print(df.shape)
print(df[10:21])
specific_data=[df["Glucose"]]
print(specific_data)
print(df.iloc[5])
print(df["Insulin"].value_counts())
print(df["Insulin"].sum())
print(df["Insulin"].mean())
print(df["Insulin"].median())
print(df["Insulin"].min())
print(df["Insulin"].max())
newcols={"BloodPressure":"BP"}
df.rename(columns=newcols,inplace=True)
print(df)
print(df.isnull())
print("--------------------------------------------------------")
#B.Principle Component Analysis PCA and select 3 principal components.
from sklearn.decomposition import PCA
array=df.values
X = array[:,0:8]
Y = array[:,8]
pca = PCA(n_components=3)
fit = pca.fit(X)
print("Explained Variance:",fit.explained_variance_ratio_)
print(fit.components_)
print("--------------------------------------------------------")
#C.Combine Models into Ensemble Predictions on the data set using AdaBoost
algorithm
from sklearn.ensemble import AdaBoostClassifier
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import KFold
model = AdaBoostClassifier(n_estimators=100, random_state=12)
kfold = KFold(n_splits=10, random_state=12,shuffle=True)
results = cross_val_score(model, X, Y, cv=kfold)
print(results.mean())

==================================================================================

#SET-10
#A.To Perform the data preprocessing techniques on the dataset (Rescale,
standardize,normalize, binarize )
import pandas as pd
from numpy import set_printoptions
from sklearn.preprocessing import MinMaxScaler
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import Normalizer
from sklearn.preprocessing import Binarizer
from sklearn import preprocessing
df = pd.read_csv('/content/diabetes.csv')
array = df.values
# separate array into input and output components
X = array[:,0:8]
Y = array[:,8]
set_printoptions(precision=3)
# Rescale data (between 0 and 1)
scaler = MinMaxScaler(feature_range=(0, 1))
rescaledX = scaler.fit_transform(X)
print(rescaledX[0:5,:])
# Standardize data (0 mean, 1 stdev)
scaler = StandardScaler().fit(X)
rescaledX = scaler.transform(X)
print(rescaledX[0:5,:])
# Normalize data (length of 1)
scaler = Normalizer().fit(X)
normalizedX = scaler.transform(X)
print(normalizedX[0:5,:])
# binarization
binarizer = Binarizer(threshold=0.0).fit(X)
binaryX = binarizer.transform(X)
print(binaryX[0:5,:])
print("--------------------------------------------------------")
#B.To implement non-linear machine learning algorithms k-Nearest Neighbors and
Naive Bayes.
#KNN
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import KFold
model = KNeighborsClassifier()
kfold = KFold(n_splits=10, random_state=12,shuffle=True)
results_knn = cross_val_score(model, X, Y, cv=kfold)
print(results_knn.mean())
#Naive Bayes
from sklearn.naive_bayes import GaussianNB
model = GaussianNB()
results_nb = cross_val_score(model, X, Y, cv=kfold)
print(results_nb.mean())
print("--------------------------------------------------------")
#C.Evaluate the performance of the algorithm by Accuracy,
ConfusionMatrix ,Precision ,Recall, F-Score, AUC(Area Under the Curve)-ROC
#Accuracy
results = cross_val_score(model, X, Y, cv=kfold, scoring='accuracy')
print("Accuracy:",results.mean(), results.std())
#Confusion Matrix
from sklearn.metrics import confusion_matrix
from sklearn.model_selection import train_test_split
X_train, X_test, Y_train, Y_test = train_test_split(X, Y,
test_size=0.33,random_state=12)
model.fit(X_train, Y_train)
predicted = model.predict(X_test)
matrix = confusion_matrix(Y_test, predicted)
print(matrix)
#Precision
from sklearn.metrics import precision_score
precision = precision_score(Y_test, predicted)
print("Precision:", precision)
#Recall
from sklearn.metrics import recall_score
recall = recall_score(Y_test, predicted)
print("Recall:", recall)
#F-score
from sklearn.metrics import f1_score
f1=f1_score(Y_test,predicted)
print("F1 score:", f1)
#AUC-ROC
aucresults = cross_val_score(model, X, Y, cv=kfold, scoring='roc_auc')
print("AUC:",aucresults.mean(), aucresults.std())
print("--------------------------------------------------------")
#D.Analyze the performance metrics by plotting a graph
import matplotlib.pyplot as plt
import numpy as np
metrics = ['Accuracy', 'Precision', 'Recall', 'F-score', 'AUC-ROC']
scores = [results.mean(), precision, recall, f1, aucresults.mean()]
plt.bar(np.arange(len(metrics)), scores)
plt.xticks(np.arange(len(metrics)), metrics)
plt.ylabel('Score')
plt.show()

Regression Analysis - Cheatsheet
No ratings yet
Regression Analysis - Cheatsheet
9 pages
2023 Oct CSC510 Test 1 Answer Scheme
No ratings yet
2023 Oct CSC510 Test 1 Answer Scheme
5 pages
(Feature Engineering) (Extended-Cheatsheet)
No ratings yet
(Feature Engineering) (Extended-Cheatsheet)
9 pages
Pre-Calculus 11 Workbook
No ratings yet
Pre-Calculus 11 Workbook
44 pages
BorgWarner Turboalimentadores
100% (2)
BorgWarner Turboalimentadores
108 pages
Final ML File
No ratings yet
Final ML File
34 pages
ML Manual Final
No ratings yet
ML Manual Final
35 pages
DWDM Lab Report
No ratings yet
DWDM Lab Report
26 pages
16BCB0126 VL2018195002535 Pe003
No ratings yet
16BCB0126 VL2018195002535 Pe003
40 pages
Gaurav - Data Mining Lab Assignment
No ratings yet
Gaurav - Data Mining Lab Assignment
36 pages
Data Science Manual
No ratings yet
Data Science Manual
16 pages
DA_Programs
No ratings yet
DA_Programs
44 pages
Batch-2 Ieee DMT
No ratings yet
Batch-2 Ieee DMT
4 pages
ml
No ratings yet
ml
17 pages
Group Work Assignment Supervised and Unsupervised Learning
No ratings yet
Group Work Assignment Supervised and Unsupervised Learning
10 pages
FYMCA IDSLab A6 Submission
No ratings yet
FYMCA IDSLab A6 Submission
9 pages
DA_012307
No ratings yet
DA_012307
8 pages
Machine File
No ratings yet
Machine File
27 pages
ML 7
No ratings yet
ML 7
6 pages
Chandigarh Group of Colleges College of Engineering Landran, Mohali
No ratings yet
Chandigarh Group of Colleges College of Engineering Landran, Mohali
47 pages
utf-8''C2M1 Assignment
No ratings yet
utf-8''C2M1 Assignment
24 pages
DOC-20241108-WA0003
No ratings yet
DOC-20241108-WA0003
16 pages
Mlda - Lab
No ratings yet
Mlda - Lab
35 pages
ML Shristi File
No ratings yet
ML Shristi File
49 pages
Practical file _ aiml
No ratings yet
Practical file _ aiml
8 pages
ML Codes
No ratings yet
ML Codes
9 pages
External
No ratings yet
External
11 pages
ml_all_projectpdf_removed
No ratings yet
ml_all_projectpdf_removed
41 pages
ML(sudhanshu)
No ratings yet
ML(sudhanshu)
24 pages
HIV Regression Source Code
No ratings yet
HIV Regression Source Code
26 pages
DA Assignment
No ratings yet
DA Assignment
18 pages
Vertopal.com Experiment01 Baseline Models Accuracy
No ratings yet
Vertopal.com Experiment01 Baseline Models Accuracy
35 pages
Zerox Ready
No ratings yet
Zerox Ready
21 pages
Cheat Sheet Modeldeploy
No ratings yet
Cheat Sheet Modeldeploy
2 pages
Python Cheat Sheet For Data Analysis
No ratings yet
Python Cheat Sheet For Data Analysis
2 pages
Data Mining Practicals
No ratings yet
Data Mining Practicals
22 pages
Lab Manual - MachineLearningLaboratory-DR.vaishnavi (1)
No ratings yet
Lab Manual - MachineLearningLaboratory-DR.vaishnavi (1)
71 pages
Stat Lab
No ratings yet
Stat Lab
24 pages
Aiml Ex 4-7
No ratings yet
Aiml Ex 4-7
8 pages
ML Final Prac
No ratings yet
ML Final Prac
47 pages
New Text Document
No ratings yet
New Text Document
7 pages
Data analytics
No ratings yet
Data analytics
10 pages
1 - Standard Linear Regression: Numpy NP Pandas
No ratings yet
1 - Standard Linear Regression: Numpy NP Pandas
4 pages
ML in Python Part-2
No ratings yet
ML in Python Part-2
21 pages
ModuleAr Merged
No ratings yet
ModuleAr Merged
42 pages
23UCC554
No ratings yet
23UCC554
9 pages
# Linear Regression
No ratings yet
# Linear Regression
3 pages
ML_recordjp
No ratings yet
ML_recordjp
35 pages
MLLabManual
No ratings yet
MLLabManual
24 pages
MACHINE LEARNING manual
No ratings yet
MACHINE LEARNING manual
36 pages
som
No ratings yet
som
19 pages
05 E RandomForest LoanData
No ratings yet
05 E RandomForest LoanData
8 pages
MlLabManualdocx 2024 09 04 22 02 58
No ratings yet
MlLabManualdocx 2024 09 04 22 02 58
19 pages
Slip
No ratings yet
Slip
5 pages
Assignment 5 - SourceCode - Ipynb - Colab
No ratings yet
Assignment 5 - SourceCode - Ipynb - Colab
4 pages
Time Series Analysis Group 9
No ratings yet
Time Series Analysis Group 9
16 pages
Data Analysis
No ratings yet
Data Analysis
8 pages
ML Activity Kalyan
No ratings yet
ML Activity Kalyan
21 pages
1st PGM
No ratings yet
1st PGM
10 pages
DWM Exp 8
No ratings yet
DWM Exp 8
4 pages
AIML PRACTICALS
No ratings yet
AIML PRACTICALS
22 pages
Profound Python Data Science
From Everand
Profound Python Data Science
Onder Teker
No ratings yet
The Essential R Reference
From Everand
The Essential R Reference
Mark Gardener
No ratings yet
Performance Testing
No ratings yet
Performance Testing
20 pages
Astronomy Glossary
No ratings yet
Astronomy Glossary
11 pages
TTL 1 Course Outline
No ratings yet
TTL 1 Course Outline
4 pages
Infosheet Chip45boot2
No ratings yet
Infosheet Chip45boot2
6 pages
Veloza-Fajardo Et Al., 2007
No ratings yet
Veloza-Fajardo Et Al., 2007
10 pages
C250D5P
No ratings yet
C250D5P
4 pages
802.11 Wireless Network Site Surveying and Installation
No ratings yet
802.11 Wireless Network Site Surveying and Installation
10 pages
Dipole Moments
No ratings yet
Dipole Moments
12 pages
Opgw - 24g652-Ast-177 (69.8 - 256.7)
No ratings yet
Opgw - 24g652-Ast-177 (69.8 - 256.7)
9 pages
Protec Optimax Film Processor - User Manual
No ratings yet
Protec Optimax Film Processor - User Manual
40 pages
EE 310 Lab3 Report
100% (1)
EE 310 Lab3 Report
10 pages
Event Management System Mini Project
No ratings yet
Event Management System Mini Project
17 pages
V R Max I: Directfet Power Mosfet
No ratings yet
V R Max I: Directfet Power Mosfet
9 pages
CCNA Security Lab 17 - Cisco SDM One-Step Lockdown - SDM
No ratings yet
CCNA Security Lab 17 - Cisco SDM One-Step Lockdown - SDM
13 pages
ASTM A 350 - A 350M - 04 LowCarbon Forgings
No ratings yet
ASTM A 350 - A 350M - 04 LowCarbon Forgings
8 pages
P-Board Block Diagram: Cold HOT P Power Supply
No ratings yet
P-Board Block Diagram: Cold HOT P Power Supply
7 pages
Lift PDF
100% (1)
Lift PDF
12 pages
17eel37 Eml Lab Manual
No ratings yet
17eel37 Eml Lab Manual
64 pages
FINAL - Legrand SJ Brochure
No ratings yet
FINAL - Legrand SJ Brochure
28 pages
Binary
No ratings yet
Binary
10 pages
Web Development Roadmap (Frontend) For Beginners
No ratings yet
Web Development Roadmap (Frontend) For Beginners
8 pages
Saic M 2021
100% (1)
Saic M 2021
6 pages
Year 3 Reasoning Test Set 2 Paper A
No ratings yet
Year 3 Reasoning Test Set 2 Paper A
8 pages
Astm A226 PDF
No ratings yet
Astm A226 PDF
2 pages
Soal UAS Bahasa Inggris Matematika - Ganjil21 - 22
No ratings yet
Soal UAS Bahasa Inggris Matematika - Ganjil21 - 22
1 page
XX X X: 2.21 Ionic Bonding
No ratings yet
XX X X: 2.21 Ionic Bonding
6 pages
Test Management
No ratings yet
Test Management
57 pages

ML Lab Codes

Uploaded by

ML Lab Codes

Uploaded by

#SET-1

#A.To display all arithmetic operations using NumPy arrays.

You might also like