0% found this document useful (0 votes)

6 views7 pages

Overfitting and Underfitting in Python

The document discusses overfitting and underfitting in Python, detailing methods such as comparing training vs validation performance, learning curves, cross-validation, and bias-variance indicators. It includes code examples using libraries like sklearn to demonstrate model training, evaluation, and regularization checks. Key insights include identifying overfitting through accuracy discrepancies and using regularization to improve model performance.

Uploaded by

surendranfer

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

6 views7 pages

Overfitting and Underfitting in Python

Uploaded by

surendranfer

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 7

Overfitting and Underfitting in Python

August 25, 2025

1 Overfiiting and Underfitting using Python

1. Compare Training vs Validation/Testing Performance
2. Learning Curves (Training vs Validation Error)
3. Cross Validation
4. Bias - Variance Indicators
5. Residual Analysis
6. Regularization Check

1.1 1. Compare Training vs Validation / Testing Performance

[6]: from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import load_digits

[8]: #Load Dataset

X, y = load_digits(return_X_y=True)

[10]: # Split Train / Val / Test

X_train, X_temp, y_train, y_temp = train_test_split(X, y, test_size=0.3,␣
↪random_state=42)

X_val, X_test, y_val, y_test = train_test_split(X_temp, y_temp, test_size=0.3,␣

↪random_state=42)

[12]: X.shape

[12]: (1797, 64)

[14]: y.shape

[14]: (1797,)

[16]: X_train.shape

[16]: (1257, 64)

[18]: X_temp.shape

1
[18]: (540, 64)

[20]: X_val.shape

[20]: (378, 64)

[22]: X_test.shape

[22]: (162, 64)

[24]: X

[24]: array([[ 0., 0., 5., …, 0., 0., 0.],

[ 0., 0., 0., …, 10., 0., 0.],
[ 0., 0., 0., …, 16., 9., 0.],
…,
[ 0., 0., 1., …, 6., 0., 0.],
[ 0., 0., 2., …, 12., 0., 0.],
[ 0., 0., 10., …, 12., 1., 0.]])

[26]: y

[26]: array([0, 1, 2, …, 8, 9, 8])

[28]: #Train Model

model = RandomForestClassifier()

[30]: model.fit(X_train, y_train)

[30]: RandomForestClassifier()

[32]: y_pred_train = model.predict(X_train)

[34]: y_pred_test = model.predict(X_test)

[36]: y_pred_val = model.predict(X_val)

[38]: train_accuracy = accuracy_score(y_train, y_pred_train)

val_accuracy = accuracy_score(y_val, y_pred_val)
test_accuracy = accuracy_score(y_test, y_pred_test)

[40]: print("Training Accuracy:", train_accuracy)

Training Accuracy: 1.0

[42]: print("Validation Accuracy:", val_accuracy)

Validation Accuracy: 0.9735449735449735

2
[46]: print("Test Accuracy:", test_accuracy)

Test Accuracy: 0.9691358024691358

[48]: # Compare
print("Training Accuracy:", train_accuracy)
print("Validation Accuracy:", val_accuracy)
print("Test Accuracy:", test_accuracy)

Training Accuracy: 1.0

Validation Accuracy: 0.9735449735449735
Test Accuracy: 0.9691358024691358

1.2 2. Learning Curves (Training vs Validation Error)

[52]: import numpy as np
import matplotlib.pyplot as plt
from sklearn.model_selection import learning_curve
from sklearn.linear_model import LogisticRegression

[54]: #Learning Curves

train_sizes, train_scores, val_scores = learning_curve(
LogisticRegression(max_iter=2000), X, y, cv=5, scoring = "accuracy",
train_sizes=np.linspace(0.1, 1.0, 10), n_jobs=-1
)

[56]: #Mean Errors

train_error = 1 - np.mean(train_scores, axis=1)
val_error = 1 - np.mean(val_scores, axis=1)

[58]: #Plot
plt.plot(train_sizes, train_error, 'o-', label="Training Error")
plt.plot(train_sizes, val_error, 'o-', label="Validation Error")
plt.xlabel("Training Size")
plt.ylabel("Error(1-Accuracy)")
plt.title("Learning Curves")
plt.legend()
plt.grid(True)
plt.show()

3
1.3 3. Cross Validation
[61]: from sklearn.model_selection import cross_validate
cv_results = cross_validate(
LogisticRegression(max_iter=2000), X, y, cv=5,
return_train_score=True, scoring="accuracy"
)

[63]: print("Train Scores:", cv_results["train_score"])

print("Test Scores:", cv_results["test_score"])
print("Mean Train Accuracy:", cv_results["train_score"].mean())
print("Mean Val Accuracy:", cv_results["test_score"].mean())

Train Scores: [1. 1. 1. 1. 1.]

Test Scores: [0.92222222 0.87222222 0.94150418 0.94150418 0.89693593]
Mean Train Accuracy: 1.0
Mean Val Accuracy: 0.9148777468276075

4
1.4 4. Bias Variance Indicators
[66]: mean_train = cv_results['train_score'].mean()
mean_val = cv_results['test_score'].mean()

[68]: if mean_train < 0.7 and mean_val < 0.7:

print("High Bias - Underfitting")
elif mean_train > 0.9 and (mean_train - mean_val) > 0.1:
print("High Variance - Overfitting")
else:
print("Balanced - Good Fit")

Balanced - Good Fit

1.5 5. Residual Analysis (Regression Example)

[71]: import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

[73]: #Train Test Split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3,␣
↪random_state=42)

[75]: #Fit Regression Model

reg = LinearRegression()

[77]: reg.fit(X_train, y_train)

[77]: LinearRegression()

[79]: #Predictions
y_pred_train = reg.predict(X_train)
y_pred_test = reg.predict(X_test)

[81]: #Residuals
residuals_train = y_train - y_pred_train
residuals_test = y_test - y_pred_test

[85]: # Plot Residuals

plt.scatter(y_pred_train, residuals_train, label="Train", alpha=0.6)
plt.scatter(y_pred_test, residuals_test, label="Test", alpha=0.6, color="red")
plt.axhline(0, color="black", linestyle="--")
plt.xlabel("Predicted Values")
plt.ylabel("Residuals")
plt.title("Residual Analysis")
plt.legend()
plt.grid(True)

5
plt.show()

Interpretation 1. Random Scattered Around 0 - Good Fit 2. Large Residuals in Test but Small in
Train - Overfitting 3. Systematic Pattern - Underfitting

1.6 6. Regularization Check

[89]: from sklearn.linear_model import LogisticRegression

[91]: # Without Regularization (C very large)

model_no_reg = LogisticRegression(C=1e6, max_iter=2000)
model_no_reg.fit(X_train, y_train)

[91]: LogisticRegression(C=1000000.0, max_iter=2000)

[93]: # With Stronger Regularization (C Small)

model_reg = LogisticRegression(C=0.01, max_iter=2000)
model_reg.fit(X_train, y_train)

[93]: LogisticRegression(C=0.01, max_iter=2000)

6
[97]: # Compare
print("No Reg - Train Acc:", accuracy_score(y_train, model_no_reg.
↪predict(X_train)))

print("No Reg - Val Acc:", accuracy_score(y_val, model_no_reg.predict(X_val)))

No Reg - Train Acc: 1.0

No Reg - Val Acc: 0.9682539682539683

[99]: print("With Reg - Train Acc:", accuracy_score(y_train, model_reg.

↪predict(X_train)))

print("No Reg - Val Acc:", accuracy_score(y_val, model_reg.predict(X_val)))

With Reg - Train Acc: 0.9920445505171042

No Reg - Val Acc: 0.9682539682539683
Interpretation: 1. If Validation Accuracy Improves when Adding Regularization - Model was
Overfitting 2. If Both Train and Val Accuracy Drops - Model May Be Underfitting Already

[ ]:

C2W3 Lab 01 Model Evaluation and Selection
No ratings yet
C2W3 Lab 01 Model Evaluation and Selection
21 pages
Data Mining Practicals
No ratings yet
Data Mining Practicals
22 pages
Reference Guide - Validation & Cross-Validation
No ratings yet
Reference Guide - Validation & Cross-Validation
7 pages
Fundamentals of Academic Writing Level 1 PDF
83% (24)
Fundamentals of Academic Writing Level 1 PDF
236 pages
PPT
No ratings yet
PPT
14 pages
ML Interview Questions
No ratings yet
ML Interview Questions
10 pages
Train Test Split in Python
No ratings yet
Train Test Split in Python
11 pages
Tutorial 7.ipynb - Colab
No ratings yet
Tutorial 7.ipynb - Colab
7 pages
Practicalpgm ML
No ratings yet
Practicalpgm ML
33 pages
Practicing Our Faith A Way of Life for a Searching People Second Edition Dorothy C. Bass download
No ratings yet
Practicing Our Faith A Way of Life for a Searching People Second Edition Dorothy C. Bass download
140 pages
ML Internal Questions
No ratings yet
ML Internal Questions
15 pages
Model Evaluation and Selection Cheatsheet 1708023215
No ratings yet
Model Evaluation and Selection Cheatsheet 1708023215
7 pages
Lesson 3
No ratings yet
Lesson 3
5 pages
Code Structure
No ratings yet
Code Structure
6 pages
Ai Practicle
No ratings yet
Ai Practicle
8 pages
ML W8 Merged
No ratings yet
ML W8 Merged
27 pages
21BEI052 2EI503 ML SpecialAssignmentReport
No ratings yet
21BEI052 2EI503 ML SpecialAssignmentReport
12 pages
Xiiaiuniticapstone Projectpartii
No ratings yet
Xiiaiuniticapstone Projectpartii
11 pages
Model Generalization
No ratings yet
Model Generalization
117 pages
Regression Analysis - Cheatsheet
No ratings yet
Regression Analysis - Cheatsheet
9 pages
C2W3 Lab 01 Model Evaluation and Selection
No ratings yet
C2W3 Lab 01 Model Evaluation and Selection
21 pages
Unit3 - Debugging Algorithms
100% (1)
Unit3 - Debugging Algorithms
11 pages
To Improve The Performance of Models Predicting Ba
No ratings yet
To Improve The Performance of Models Predicting Ba
6 pages
Machine Learning: Lecture 13: Model Validation Techniques, Overfitting, Underfitting
100% (2)
Machine Learning: Lecture 13: Model Validation Techniques, Overfitting, Underfitting
26 pages
## Paragraph Writing Explanation, Format, and MCQs
No ratings yet
## Paragraph Writing Explanation, Format, and MCQs
78 pages
Midterm Report
No ratings yet
Midterm Report
4 pages
INSY446 - 02 - Linear Model Part 1
No ratings yet
INSY446 - 02 - Linear Model Part 1
27 pages
Supervised Learning For Data Science...
No ratings yet
Supervised Learning For Data Science...
14 pages
Machine Learning - SEAIML-242 (PR) b2
No ratings yet
Machine Learning - SEAIML-242 (PR) b2
39 pages
Supple Maximizing Performance in Cs CuBiCl
No ratings yet
Supple Maximizing Performance in Cs CuBiCl
5 pages
Python Learning
No ratings yet
Python Learning
21 pages
Code ExerciseModelSelection
100% (1)
Code ExerciseModelSelection
19 pages
14 Model Selection and Boosting
No ratings yet
14 Model Selection and Boosting
51 pages
Lecture 7
No ratings yet
Lecture 7
29 pages
ML Fat
No ratings yet
ML Fat
9 pages
Deep Learning Unit 3
No ratings yet
Deep Learning Unit 3
19 pages
Ann Experiential Learning
No ratings yet
Ann Experiential Learning
43 pages
Lecture 7.2 - DTC Algorithm Implementation
No ratings yet
Lecture 7.2 - DTC Algorithm Implementation
7 pages
Classification Is For Predicting Type and Regression Is For Predicting Value
No ratings yet
Classification Is For Predicting Type and Regression Is For Predicting Value
4 pages
Detect Fake Profiles in Online Social Networks Using Support Vector Machine
No ratings yet
Detect Fake Profiles in Online Social Networks Using Support Vector Machine
8 pages
Cross Validation
No ratings yet
Cross Validation
22 pages
AI 28-01-25
No ratings yet
AI 28-01-25
18 pages
Ultima Forte Required Data Inputs For Ericsson Infrastructure
100% (1)
Ultima Forte Required Data Inputs For Ericsson Infrastructure
55 pages
Project 03: Data Fitting Applied Mathematics and Statistics For Information Technology
No ratings yet
Project 03: Data Fitting Applied Mathematics and Statistics For Information Technology
17 pages
CPE531 S18 MT Sol PDF
No ratings yet
CPE531 S18 MT Sol PDF
3 pages
Linearregression SVM
No ratings yet
Linearregression SVM
3 pages
04 The Problem of Over Fitting Model Assessment
No ratings yet
04 The Problem of Over Fitting Model Assessment
3 pages
ADS - Phase 3
No ratings yet
ADS - Phase 3
34 pages
Cross Validation - Notes
No ratings yet
Cross Validation - Notes
10 pages
Simple Linear Regression
No ratings yet
Simple Linear Regression
30 pages
Unit 4
No ratings yet
Unit 4
34 pages
PPT6-Buss Intel Analytics
No ratings yet
PPT6-Buss Intel Analytics
41 pages
Oreilly Using - Samba
No ratings yet
Oreilly Using - Samba
798 pages
C2 W3 Assignment
No ratings yet
C2 W3 Assignment
437 pages
STS-30 Press Kit
No ratings yet
STS-30 Press Kit
41 pages
Jupyter Lab
No ratings yet
Jupyter Lab
42 pages
Curriculum Map: SY 2019-2020 Yr Level: Grade 8 Subject: Mathematics 8 (Second Quarter)
No ratings yet
Curriculum Map: SY 2019-2020 Yr Level: Grade 8 Subject: Mathematics 8 (Second Quarter)
3 pages
L03 Generalization, Train Test Splits and Validation
No ratings yet
L03 Generalization, Train Test Splits and Validation
49 pages
AIML Project
No ratings yet
AIML Project
4 pages
Choosing Model and Tuning
No ratings yet
Choosing Model and Tuning
20 pages
KNN-SVM Assignment
No ratings yet
KNN-SVM Assignment
4 pages
12 Must-Watch Mograph Videos: Grab Some Popcorn. It'S Binge Watching Time!
No ratings yet
12 Must-Watch Mograph Videos: Grab Some Popcorn. It'S Binge Watching Time!
6 pages
Unit 3 ML
No ratings yet
Unit 3 ML
40 pages
Unit 04 EDA 02
No ratings yet
Unit 04 EDA 02
7 pages
cp4252 Machine Learning Lab Manual
No ratings yet
cp4252 Machine Learning Lab Manual
21 pages
Construction Contract - The Cost of Mistrust
No ratings yet
Construction Contract - The Cost of Mistrust
6 pages
Unit 456
No ratings yet
Unit 456
6 pages
Tutorial 26 Sarma Non-Vertical Slices
No ratings yet
Tutorial 26 Sarma Non-Vertical Slices
6 pages
Adaptable PID Controller For Industrial Hot and Cold Chamber
No ratings yet
Adaptable PID Controller For Industrial Hot and Cold Chamber
46 pages
Digital Signatures: CCA Controller of Certifying Authorities
No ratings yet
Digital Signatures: CCA Controller of Certifying Authorities
18 pages
Original Operating Manual HT-S Sintering Furnace HT-S Speed Sintering Furnace
No ratings yet
Original Operating Manual HT-S Sintering Furnace HT-S Speed Sintering Furnace
39 pages
Allocate Move Order Script
100% (1)
Allocate Move Order Script
3 pages
MTU Thesis Format
100% (2)
MTU Thesis Format
23 pages
Book Tactile
No ratings yet
Book Tactile
46 pages
Psychology: Undergraduate Programs
No ratings yet
Psychology: Undergraduate Programs
10 pages
STR Profiles: Multiplex PCR, Tri-Alleles, Amelogenin, and Partial Profiles
No ratings yet
STR Profiles: Multiplex PCR, Tri-Alleles, Amelogenin, and Partial Profiles
20 pages
Why Do You Glamorize Serial Killers in The Media
No ratings yet
Why Do You Glamorize Serial Killers in The Media
7 pages
Modulation
No ratings yet
Modulation
9 pages
Belief, Attitude, Intention, and Behavior An Introduction To Theory and Research
No ratings yet
Belief, Attitude, Intention, and Behavior An Introduction To Theory and Research
22 pages
離散數學第一次作業1 1～1 4
No ratings yet
離散數學第一次作業1 1～1 4
5 pages
Statistics Assignment 1
No ratings yet
Statistics Assignment 1
4 pages
Sneha Garde: Career Objective
No ratings yet
Sneha Garde: Career Objective
2 pages
Resume Abhijit Khairnar (Opex)
No ratings yet
Resume Abhijit Khairnar (Opex)
2 pages
Lecture 1389
No ratings yet
Lecture 1389
6 pages
Money: Are You An Spender or A Keeper?
No ratings yet
Money: Are You An Spender or A Keeper?
2 pages
Class 9 PT-2
No ratings yet
Class 9 PT-2
3 pages

Overfitting and Underfitting in Python

Uploaded by

Overfitting and Underfitting in Python

Uploaded by

Overfitting and Underfitting in Python

August 25, 2025

1 Overfiiting and Underfitting using Python

1.1 1. Compare Training vs Validation / Testing Performance

[8]: #Load Dataset

[10]: # Split Train / Val / Test

X_val, X_test, y_val, y_test = train_test_split(X_temp, y_temp, test_size=0.3,␣

[12]: (1797, 64)

[16]: (1257, 64)

[20]: (378, 64)

[22]: (162, 64)

[24]: array([[ 0., 0., 5., …, 0., 0., 0.],

[26]: array([0, 1, 2, …, 8, 9, 8])

[28]: #Train Model

[30]: model.fit(X_train, y_train)

[32]: y_pred_train = model.predict(X_train)

[34]: y_pred_test = model.predict(X_test)

[36]: y_pred_val = model.predict(X_val)

[38]: train_accuracy = accuracy_score(y_train, y_pred_train)

[40]: print("Training Accuracy:", train_accuracy)

Training Accuracy: 1.0

[42]: print("Validation Accuracy:", val_accuracy)

Validation Accuracy: 0.9735449735449735

Test Accuracy: 0.9691358024691358

Training Accuracy: 1.0

1.2 2. Learning Curves (Training vs Validation Error)

[54]: #Learning Curves

[56]: #Mean Errors

[63]: print("Train Scores:", cv_results["train_score"])

Train Scores: [1. 1. 1. 1. 1.]

[68]: if mean_train < 0.7 and mean_val < 0.7:

Balanced - Good Fit

1.5 5. Residual Analysis (Regression Example)

[73]: #Train Test Split

[75]: #Fit Regression Model

[77]: reg.fit(X_train, y_train)

[85]: # Plot Residuals

1.6 6. Regularization Check

[91]: # Without Regularization (C very large)

[91]: LogisticRegression(C=1000000.0, max_iter=2000)

[93]: # With Stronger Regularization (C Small)

[93]: LogisticRegression(C=0.01, max_iter=2000)

print("No Reg - Val Acc:", accuracy_score(y_val, model_no_reg.predict(X_val)))

No Reg - Train Acc: 1.0

[99]: print("With Reg - Train Acc:", accuracy_score(y_train, model_reg.

print("No Reg - Val Acc:", accuracy_score(y_val, model_reg.predict(X_val)))

With Reg - Train Acc: 0.9920445505171042

You might also like