0% found this document useful (0 votes)

6 views7 pages

Overfitting and Underfitting in Python

The document discusses overfitting and underfitting in Python, detailing methods such as comparing training vs validation performance, learning curves, cross-validation, and bias-variance indicators. It includes code examples using libraries like sklearn to demonstrate model training, evaluation, and regularization checks. Key insights include identifying overfitting through accuracy discrepancies and using regularization to improve model performance.

Uploaded by

surendranfer

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

6 views7 pages

Overfitting and Underfitting in Python

Uploaded by

surendranfer

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 7

Overfitting and Underfitting in Python

August 25, 2025

1 Overfiiting and Underfitting using Python

1. Compare Training vs Validation/Testing Performance
2. Learning Curves (Training vs Validation Error)
3. Cross Validation
4. Bias - Variance Indicators
5. Residual Analysis
6. Regularization Check

1.1 1. Compare Training vs Validation / Testing Performance

[6]: from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import load_digits

[8]: #Load Dataset

X, y = load_digits(return_X_y=True)

[10]: # Split Train / Val / Test

X_train, X_temp, y_train, y_temp = train_test_split(X, y, test_size=0.3,␣
↪random_state=42)

X_val, X_test, y_val, y_test = train_test_split(X_temp, y_temp, test_size=0.3,␣

↪random_state=42)

[12]: X.shape

[12]: (1797, 64)

[14]: y.shape

[14]: (1797,)

[16]: X_train.shape

[16]: (1257, 64)

[18]: X_temp.shape

1
[18]: (540, 64)

[20]: X_val.shape

[20]: (378, 64)

[22]: X_test.shape

[22]: (162, 64)

[24]: X

[24]: array([[ 0., 0., 5., …, 0., 0., 0.],

[ 0., 0., 0., …, 10., 0., 0.],
[ 0., 0., 0., …, 16., 9., 0.],
…,
[ 0., 0., 1., …, 6., 0., 0.],
[ 0., 0., 2., …, 12., 0., 0.],
[ 0., 0., 10., …, 12., 1., 0.]])

[26]: y

[26]: array([0, 1, 2, …, 8, 9, 8])

[28]: #Train Model

model = RandomForestClassifier()

[30]: model.fit(X_train, y_train)

[30]: RandomForestClassifier()

[32]: y_pred_train = model.predict(X_train)

[34]: y_pred_test = model.predict(X_test)

[36]: y_pred_val = model.predict(X_val)

[38]: train_accuracy = accuracy_score(y_train, y_pred_train)

val_accuracy = accuracy_score(y_val, y_pred_val)
test_accuracy = accuracy_score(y_test, y_pred_test)

[40]: print("Training Accuracy:", train_accuracy)

Training Accuracy: 1.0

[42]: print("Validation Accuracy:", val_accuracy)

Validation Accuracy: 0.9735449735449735

2
[46]: print("Test Accuracy:", test_accuracy)

Test Accuracy: 0.9691358024691358

[48]: # Compare
print("Training Accuracy:", train_accuracy)
print("Validation Accuracy:", val_accuracy)
print("Test Accuracy:", test_accuracy)

Training Accuracy: 1.0

Validation Accuracy: 0.9735449735449735
Test Accuracy: 0.9691358024691358

1.2 2. Learning Curves (Training vs Validation Error)

[52]: import numpy as np
import matplotlib.pyplot as plt
from sklearn.model_selection import learning_curve
from sklearn.linear_model import LogisticRegression

[54]: #Learning Curves

train_sizes, train_scores, val_scores = learning_curve(
LogisticRegression(max_iter=2000), X, y, cv=5, scoring = "accuracy",
train_sizes=np.linspace(0.1, 1.0, 10), n_jobs=-1
)

[56]: #Mean Errors

train_error = 1 - np.mean(train_scores, axis=1)
val_error = 1 - np.mean(val_scores, axis=1)

[58]: #Plot
plt.plot(train_sizes, train_error, 'o-', label="Training Error")
plt.plot(train_sizes, val_error, 'o-', label="Validation Error")
plt.xlabel("Training Size")
plt.ylabel("Error(1-Accuracy)")
plt.title("Learning Curves")
plt.legend()
plt.grid(True)
plt.show()

3
1.3 3. Cross Validation
[61]: from sklearn.model_selection import cross_validate
cv_results = cross_validate(
LogisticRegression(max_iter=2000), X, y, cv=5,
return_train_score=True, scoring="accuracy"
)

[63]: print("Train Scores:", cv_results["train_score"])

print("Test Scores:", cv_results["test_score"])
print("Mean Train Accuracy:", cv_results["train_score"].mean())
print("Mean Val Accuracy:", cv_results["test_score"].mean())

Train Scores: [1. 1. 1. 1. 1.]

Test Scores: [0.92222222 0.87222222 0.94150418 0.94150418 0.89693593]
Mean Train Accuracy: 1.0
Mean Val Accuracy: 0.9148777468276075

4
1.4 4. Bias Variance Indicators
[66]: mean_train = cv_results['train_score'].mean()
mean_val = cv_results['test_score'].mean()

[68]: if mean_train < 0.7 and mean_val < 0.7:

print("High Bias - Underfitting")
elif mean_train > 0.9 and (mean_train - mean_val) > 0.1:
print("High Variance - Overfitting")
else:
print("Balanced - Good Fit")

Balanced - Good Fit

1.5 5. Residual Analysis (Regression Example)

[71]: import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

[73]: #Train Test Split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3,␣
↪random_state=42)

[75]: #Fit Regression Model

reg = LinearRegression()

[77]: reg.fit(X_train, y_train)

[77]: LinearRegression()

[79]: #Predictions
y_pred_train = reg.predict(X_train)
y_pred_test = reg.predict(X_test)

[81]: #Residuals
residuals_train = y_train - y_pred_train
residuals_test = y_test - y_pred_test

[85]: # Plot Residuals

plt.scatter(y_pred_train, residuals_train, label="Train", alpha=0.6)
plt.scatter(y_pred_test, residuals_test, label="Test", alpha=0.6, color="red")
plt.axhline(0, color="black", linestyle="--")
plt.xlabel("Predicted Values")
plt.ylabel("Residuals")
plt.title("Residual Analysis")
plt.legend()
plt.grid(True)

5
plt.show()

Interpretation 1. Random Scattered Around 0 - Good Fit 2. Large Residuals in Test but Small in
Train - Overfitting 3. Systematic Pattern - Underfitting

1.6 6. Regularization Check

[89]: from sklearn.linear_model import LogisticRegression

[91]: # Without Regularization (C very large)

model_no_reg = LogisticRegression(C=1e6, max_iter=2000)
model_no_reg.fit(X_train, y_train)

[91]: LogisticRegression(C=1000000.0, max_iter=2000)

[93]: # With Stronger Regularization (C Small)

model_reg = LogisticRegression(C=0.01, max_iter=2000)
model_reg.fit(X_train, y_train)

[93]: LogisticRegression(C=0.01, max_iter=2000)

6
[97]: # Compare
print("No Reg - Train Acc:", accuracy_score(y_train, model_no_reg.
↪predict(X_train)))

print("No Reg - Val Acc:", accuracy_score(y_val, model_no_reg.predict(X_val)))

No Reg - Train Acc: 1.0

No Reg - Val Acc: 0.9682539682539683

[99]: print("With Reg - Train Acc:", accuracy_score(y_train, model_reg.

↪predict(X_train)))

print("No Reg - Val Acc:", accuracy_score(y_val, model_reg.predict(X_val)))

With Reg - Train Acc: 0.9920445505171042

No Reg - Val Acc: 0.9682539682539683
Interpretation: 1. If Validation Accuracy Improves when Adding Regularization - Model was
Overfitting 2. If Both Train and Val Accuracy Drops - Model May Be Underfitting Already

[ ]:

Data Mining Practicals
No ratings yet
Data Mining Practicals
22 pages
Estimating Reservoir Properties by Using Rock Physics Driven Machine Learning
100% (2)
Estimating Reservoir Properties by Using Rock Physics Driven Machine Learning
42 pages
04 The Problem of Over Fitting Model Assessment
No ratings yet
04 The Problem of Over Fitting Model Assessment
3 pages
Practicalpgm ML
No ratings yet
Practicalpgm ML
33 pages
AIML Project
No ratings yet
AIML Project
4 pages
Unit 04 EDA 02
No ratings yet
Unit 04 EDA 02
7 pages
Train Test Split in Python
No ratings yet
Train Test Split in Python
11 pages
Cross Validation
No ratings yet
Cross Validation
22 pages
Choosing Model and Tuning
No ratings yet
Choosing Model and Tuning
20 pages
AI 28-01-25
No ratings yet
AI 28-01-25
18 pages
Linearregression SVM
No ratings yet
Linearregression SVM
3 pages
Regression Analysis - Cheatsheet
No ratings yet
Regression Analysis - Cheatsheet
9 pages
21BEI052 2EI503 ML SpecialAssignmentReport
No ratings yet
21BEI052 2EI503 ML SpecialAssignmentReport
12 pages
Unit3 - Debugging Algorithms
100% (1)
Unit3 - Debugging Algorithms
11 pages
Model Evaluation and Selection Cheatsheet 1708023215
No ratings yet
Model Evaluation and Selection Cheatsheet 1708023215
7 pages
KNN-SVM Assignment
No ratings yet
KNN-SVM Assignment
4 pages
Xiiaiuniticapstone Projectpartii
No ratings yet
Xiiaiuniticapstone Projectpartii
11 pages
C2W3 Lab 01 Model Evaluation and Selection
No ratings yet
C2W3 Lab 01 Model Evaluation and Selection
21 pages
Detect Fake Profiles in Online Social Networks Using Support Vector Machine
No ratings yet
Detect Fake Profiles in Online Social Networks Using Support Vector Machine
8 pages
Reference Guide - Validation & Cross-Validation
No ratings yet
Reference Guide - Validation & Cross-Validation
7 pages
Supple Maximizing Performance in Cs CuBiCl
No ratings yet
Supple Maximizing Performance in Cs CuBiCl
5 pages
Lecture 7.2 - DTC Algorithm Implementation
No ratings yet
Lecture 7.2 - DTC Algorithm Implementation
7 pages
Code Structure
No ratings yet
Code Structure
6 pages
L03 Generalization, Train Test Splits and Validation
No ratings yet
L03 Generalization, Train Test Splits and Validation
49 pages
C2 W3 Assignment
No ratings yet
C2 W3 Assignment
437 pages
Machine Learning: Lecture 13: Model Validation Techniques, Overfitting, Underfitting
100% (2)
Machine Learning: Lecture 13: Model Validation Techniques, Overfitting, Underfitting
26 pages
Simple Linear Regression
No ratings yet
Simple Linear Regression
30 pages
ML Fat
No ratings yet
ML Fat
9 pages
Cross Validation - Notes
No ratings yet
Cross Validation - Notes
10 pages
ADS - Phase 3
No ratings yet
ADS - Phase 3
34 pages
Model Generalization
No ratings yet
Model Generalization
117 pages
Unit 4
No ratings yet
Unit 4
34 pages
To Improve The Performance of Models Predicting Ba
No ratings yet
To Improve The Performance of Models Predicting Ba
6 pages
C2W3 Lab 01 Model Evaluation and Selection
No ratings yet
C2W3 Lab 01 Model Evaluation and Selection
21 pages
Midterm Report
No ratings yet
Midterm Report
4 pages
Unit 3 ML
No ratings yet
Unit 3 ML
40 pages
cp4252 Machine Learning Lab Manual
No ratings yet
cp4252 Machine Learning Lab Manual
21 pages
ML Internal Questions
No ratings yet
ML Internal Questions
15 pages
Code ExerciseModelSelection
100% (1)
Code ExerciseModelSelection
19 pages
Lesson 3
No ratings yet
Lesson 3
5 pages
Machine Learning - SEAIML-242 (PR) b2
No ratings yet
Machine Learning - SEAIML-242 (PR) b2
39 pages
Supervised Learning For Data Science...
No ratings yet
Supervised Learning For Data Science...
14 pages
Deep Learning Unit 3
No ratings yet
Deep Learning Unit 3
19 pages
PPT6-Buss Intel Analytics
No ratings yet
PPT6-Buss Intel Analytics
41 pages
Tutorial 7.ipynb - Colab
No ratings yet
Tutorial 7.ipynb - Colab
7 pages
Ann Experiential Learning
No ratings yet
Ann Experiential Learning
43 pages
INSY446 - 02 - Linear Model Part 1
No ratings yet
INSY446 - 02 - Linear Model Part 1
27 pages
Lecture 7
No ratings yet
Lecture 7
29 pages
Project 03: Data Fitting Applied Mathematics and Statistics For Information Technology
No ratings yet
Project 03: Data Fitting Applied Mathematics and Statistics For Information Technology
17 pages
Python Learning
No ratings yet
Python Learning
21 pages
ML Interview Questions
No ratings yet
ML Interview Questions
10 pages
Ai Practicle
No ratings yet
Ai Practicle
8 pages
Detection of Diseases On Bananas (Musa SP.) Using Image Processing and Machine Learning Techniques
No ratings yet
Detection of Diseases On Bananas (Musa SP.) Using Image Processing and Machine Learning Techniques
15 pages
CPE531 S18 MT Sol PDF
No ratings yet
CPE531 S18 MT Sol PDF
3 pages
ML W8 Merged
No ratings yet
ML W8 Merged
27 pages
Cours Certif Huawei
No ratings yet
Cours Certif Huawei
441 pages
Jupyter Lab
No ratings yet
Jupyter Lab
42 pages
14 Model Selection and Boosting
No ratings yet
14 Model Selection and Boosting
51 pages
Classification Is For Predicting Type and Regression Is For Predicting Value
No ratings yet
Classification Is For Predicting Type and Regression Is For Predicting Value
4 pages
Adas
No ratings yet
Adas
22 pages
Ai Foundation Syllabus
No ratings yet
Ai Foundation Syllabus
22 pages
Alzheimer 4
No ratings yet
Alzheimer 4
5 pages
Assessment 2 UEL CN 7000
No ratings yet
Assessment 2 UEL CN 7000
10 pages
Supervised Learning in Machine Learning
No ratings yet
Supervised Learning in Machine Learning
6 pages
Midterm Paper - MSIT RSH1
No ratings yet
Midterm Paper - MSIT RSH1
4 pages
MLA Unit 3 (Word)
No ratings yet
MLA Unit 3 (Word)
5 pages
IandF CS2 Paper A 202204 Examiner Report
No ratings yet
IandF CS2 Paper A 202204 Examiner Report
13 pages
Salary Prediction Document
No ratings yet
Salary Prediction Document
30 pages
Hate Speech Recognition Final 1
No ratings yet
Hate Speech Recognition Final 1
34 pages
Train and Test Datasets in Machine Learning
No ratings yet
Train and Test Datasets in Machine Learning
6 pages
Fmede 02 1369265
No ratings yet
Fmede 02 1369265
23 pages
Comparing Xgboost With Logistic Regression and K-Nearest Neighbours in Music Genre Classification
No ratings yet
Comparing Xgboost With Logistic Regression and K-Nearest Neighbours in Music Genre Classification
11 pages
Module 4 Quiz
No ratings yet
Module 4 Quiz
7 pages
Thesis
No ratings yet
Thesis
56 pages
EXP5 Alexnet
No ratings yet
EXP5 Alexnet
3 pages
3 Pattern Recognition 1
No ratings yet
3 Pattern Recognition 1
25 pages
Module B Handbook
No ratings yet
Module B Handbook
11 pages
Demand Estimation and Forecasting
No ratings yet
Demand Estimation and Forecasting
14 pages
Clone Detection in 5G-Enabled Social Iot System Using Graph Semantics and Deep Learning Model
No ratings yet
Clone Detection in 5G-Enabled Social Iot System Using Graph Semantics and Deep Learning Model
14 pages
A Bootstrapping Soft Shrinkage Approach and
No ratings yet
A Bootstrapping Soft Shrinkage Approach and
17 pages
Temperature Sensor Drift
No ratings yet
Temperature Sensor Drift
17 pages
Adhikari Et Al - 2024 - Heavy Metals Soils USA
No ratings yet
Adhikari Et Al - 2024 - Heavy Metals Soils USA
15 pages
DPO Vs PPO Comparative Analysis
No ratings yet
DPO Vs PPO Comparative Analysis
15 pages
SSRN 3808539
No ratings yet
SSRN 3808539
14 pages
Aml CS 9 PRV
No ratings yet
Aml CS 9 PRV
47 pages
Maximizing Drilling Process With ROP - Geothermal - Dang Ton 2021
No ratings yet
Maximizing Drilling Process With ROP - Geothermal - Dang Ton 2021
77 pages

Overfitting and Underfitting in Python

Uploaded by

Overfitting and Underfitting in Python

Uploaded by

Overfitting and Underfitting in Python

August 25, 2025

1 Overfiiting and Underfitting using Python

1.1 1. Compare Training vs Validation / Testing Performance

[8]: #Load Dataset

[10]: # Split Train / Val / Test

X_val, X_test, y_val, y_test = train_test_split(X_temp, y_temp, test_size=0.3,␣

[12]: (1797, 64)

[16]: (1257, 64)

[20]: (378, 64)

[22]: (162, 64)

[24]: array([[ 0., 0., 5., …, 0., 0., 0.],

[26]: array([0, 1, 2, …, 8, 9, 8])

[28]: #Train Model

[30]: model.fit(X_train, y_train)

[32]: y_pred_train = model.predict(X_train)

[34]: y_pred_test = model.predict(X_test)

[36]: y_pred_val = model.predict(X_val)

[38]: train_accuracy = accuracy_score(y_train, y_pred_train)

[40]: print("Training Accuracy:", train_accuracy)

Training Accuracy: 1.0

[42]: print("Validation Accuracy:", val_accuracy)

Validation Accuracy: 0.9735449735449735

Test Accuracy: 0.9691358024691358

Training Accuracy: 1.0

1.2 2. Learning Curves (Training vs Validation Error)

[54]: #Learning Curves

[56]: #Mean Errors

[63]: print("Train Scores:", cv_results["train_score"])

Train Scores: [1. 1. 1. 1. 1.]

[68]: if mean_train < 0.7 and mean_val < 0.7:

Balanced - Good Fit

1.5 5. Residual Analysis (Regression Example)

[73]: #Train Test Split

[75]: #Fit Regression Model

[77]: reg.fit(X_train, y_train)

[85]: # Plot Residuals

1.6 6. Regularization Check

[91]: # Without Regularization (C very large)

[91]: LogisticRegression(C=1000000.0, max_iter=2000)

[93]: # With Stronger Regularization (C Small)

[93]: LogisticRegression(C=0.01, max_iter=2000)

print("No Reg - Val Acc:", accuracy_score(y_val, model_no_reg.predict(X_val)))

No Reg - Train Acc: 1.0

[99]: print("With Reg - Train Acc:", accuracy_score(y_train, model_reg.

print("No Reg - Val Acc:", accuracy_score(y_val, model_reg.predict(X_val)))

With Reg - Train Acc: 0.9920445505171042

You might also like