Example Data Mining

The document outlines a dataset with two features, Age and Income, and demonstrates the process of normalizing the data using Min-Max and Z-Score methods. It explains the importance of scaling in distance-based algorithms like KNN and clustering, ensuring that both features contribute equally to distance calculations. The final section provides examples of how scaling affects classification and clustering outcomes.

Uploaded by

Muhammad Waleed

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

11 views4 pages

Example Data Mining

Uploaded by

Muhammad Waleed

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

You are on page 1/ 4

Example Dataset

Let’s say we have a small dataset with two features: Age and Income.

Perso Ag Income (in

n e thousands)
A 25 50
B 30 60
C 35 80
D 40 100

Step 1: Min-Max Normalization

Goal: Scale the data to a range of [0, 1].

Formula:

Xnormalized=X−XminXmax−XminXnormalized=Xmax−XminX−Xmin
Step-by-Step Calculation:

1. Find Min and Max for Each Feature:

oAge: Xmin=25Xmin=25, Xmax=40Xmax=40
o Income: Xmin=50Xmin=50, Xmax=100Xmax=100
2. Normalize Age:
oFor Person A: 25−2540−25=040−2525−25=0
o For Person B: 30−2540−25=0.3340−2530−25=0.33
o For Person C: 35−2540−25=0.6740−2535−25=0.67
o For Person D: 40−2540−25=140−2540−25=1
3. Normalize Income:
o For Person A: 50−50100−50=0100−5050−50=0
o For Person B: 60−50100−50=0.2100−5060−50=0.2
o For Person C: 80−50100−50=0.6100−5080−50=0.6
o For Person D: 100−50100−50=1100−50100−50=1
4. Normalized Dataset:
Person Age (Normalized) Income (Normalized)
A 0 0
B 0.33 0.2
C 0.67 0.6
D 1 1

Step 2: Z-Score Normalization (Standardization)

Goal: Center the data around 0 with a standard deviation of 1.

Formula:

Xstandardized=X−μσXstandardized=σX−μ
 μμ = mean, σσ = standard deviation.

Step-by-Step Calculation:

1. Calculate Mean (μμ) and Standard Deviation (σσ) for Each

Feature:
o Age:
 Mean: μ=25+30+35+404=32.5μ=425+30+35+40=32.5
 Standard Deviation: σ=6.45σ=6.45
o Income:
 Mean: μ=50+60+80+1004=72.5μ=450+60+80+100=72.5
Standard Deviation: σ=21.02σ=21.02
2. Standardize Age:
o For Person A: 25−32.56.45=−1.166.4525−32.5=−1.16
o For Person B: 30−32.56.45=−0.396.4530−32.5=−0.39
o For Person C: 35−32.56.45=0.396.4535−32.5=0.39
o For Person D: 40−32.56.45=1.166.4540−32.5=1.16
3. Standardize Income:
o For Person A: 50−72.521.02=−1.0721.0250−72.5=−1.07
o For Person B: 60−72.521.02=−0.5921.0260−72.5=−0.59
o For Person C: 80−72.521.02=0.3621.0280−72.5=0.36
o For Person D: 100−72.521.02=1.3121.02100−72.5=1.31
4. Standardized Dataset:
Perso
Age (Standardized) Income (Standardized)
n
A -1.16 -1.07
B -0.39 -0.59
C 0.39 0.36
D 1.16 1.31

Step 3: Impact on Distance-Based Algorithms

Why Scaling Matters:

 Without Scaling:
o Income (range: 50-100) dominates Age (range: 25-40) in
distance calculations.
o Algorithms like KNN and clustering will be biased toward
Income.
 With Scaling:
o Both features contribute equally to distance calculations.
o Improves accuracy and fairness in predictions.

Example: KNN

 Suppose we want to classify a new person with Age = 28 and

Income = 55.
 Using the normalized data, distances will be calculated fairly
between Age and Income.

Example: Clustering

 Clusters will group people based on patterns, not just Income.

 For example, younger people with lower incomes will form a
distinct cluster

This Study Resource Was: Page 1 of 7
No ratings yet
This Study Resource Was: Page 1 of 7
7 pages
Data Mining
No ratings yet
Data Mining
11 pages
04 - Data Normalization in Python - en
No ratings yet
04 - Data Normalization in Python - en
1 page
8 Normalization Methods
No ratings yet
8 Normalization Methods
10 pages
Standardization Campusx
No ratings yet
Standardization Campusx
4 pages
Normalization: Normalization Techniques at A Glance
No ratings yet
Normalization: Normalization Techniques at A Glance
5 pages
Data Normalization
No ratings yet
Data Normalization
7 pages
3 1 Chapter 3 Normalization
No ratings yet
3 1 Chapter 3 Normalization
22 pages
5 Data Preprocessing III Editted Notes
No ratings yet
5 Data Preprocessing III Editted Notes
17 pages
WINSEM2024-25 MCSE615L TH VL2024250502897 2025-01-11 Reference-Material-I
No ratings yet
WINSEM2024-25 MCSE615L TH VL2024250502897 2025-01-11 Reference-Material-I
11 pages
Mine 5
No ratings yet
Mine 5
8 pages
Data Normalization in Data Mining
No ratings yet
Data Normalization in Data Mining
8 pages
Data Preprocessing: Essential Steps For Preparing Data Before Modeling
No ratings yet
Data Preprocessing: Essential Steps For Preparing Data Before Modeling
111 pages
Lab 3 - Normalization of Dataset
No ratings yet
Lab 3 - Normalization of Dataset
2 pages
Normalization Vs Standardization
No ratings yet
Normalization Vs Standardization
2 pages
21BDS0357 VL2024250504577 Ast02
No ratings yet
21BDS0357 VL2024250504577 Ast02
5 pages
Seven Lab Instruction
No ratings yet
Seven Lab Instruction
38 pages
Scaling Techniques
No ratings yet
Scaling Techniques
30 pages
Prac 4 b Z-score Students DMDW Lab Manual
No ratings yet
Prac 4 b Z-score Students DMDW Lab Manual
6 pages
Standardisation Vs Normalisation
No ratings yet
Standardisation Vs Normalisation
6 pages
dmdw2 2
No ratings yet
dmdw2 2
24 pages
ML - Week 04
No ratings yet
ML - Week 04
33 pages
Feature Engineering
No ratings yet
Feature Engineering
18 pages
ML - Assessment 2
No ratings yet
ML - Assessment 2
2 pages
5Preprocessing
No ratings yet
5Preprocessing
44 pages
3point5point2 Normalization
No ratings yet
3point5point2 Normalization
3 pages
Feature Scaling (Standardization & Normalization)
No ratings yet
Feature Scaling (Standardization & Normalization)
35 pages
Lab Sheet 02
No ratings yet
Lab Sheet 02
8 pages
Model Selection and Feature Engineering
No ratings yet
Model Selection and Feature Engineering
64 pages
Presentation #1 Data Mining Minahel Khan BSIT (E) 22!11!1
No ratings yet
Presentation #1 Data Mining Minahel Khan BSIT (E) 22!11!1
7 pages
ML Unit 2
No ratings yet
ML Unit 2
90 pages
Feature Scaling in Machine Learning
No ratings yet
Feature Scaling in Machine Learning
4 pages
Data Cleaning Techniques
No ratings yet
Data Cleaning Techniques
11 pages
ML Distance
No ratings yet
ML Distance
18 pages
Data Preprocessing
No ratings yet
Data Preprocessing
49 pages
Week 10
No ratings yet
Week 10
50 pages
Normalization and Standardization: Methods To Preprocess Data To Have Consistent Scales and Distributions
No ratings yet
Normalization and Standardization: Methods To Preprocess Data To Have Consistent Scales and Distributions
10 pages
Conversation Normalization
No ratings yet
Conversation Normalization
2 pages
Practical 6
No ratings yet
Practical 6
6 pages
TOPIC 3 Pima Indian
No ratings yet
TOPIC 3 Pima Indian
16 pages
Normal LectureNote
No ratings yet
Normal LectureNote
48 pages
Feature Scaling in Machine Learning
No ratings yet
Feature Scaling in Machine Learning
14 pages
Normalization A Preprocessing Stage
No ratings yet
Normalization A Preprocessing Stage
5 pages
3.4.standard Normal Distribution Exercise
No ratings yet
3.4.standard Normal Distribution Exercise
8 pages
Lecture 2.3 Data Normalization
No ratings yet
Lecture 2.3 Data Normalization
7 pages
5.feauture Engineering
No ratings yet
5.feauture Engineering
34 pages
Ex No3
No ratings yet
Ex No3
17 pages
Normalization and Calibration
No ratings yet
Normalization and Calibration
3 pages
Data Preparation.
No ratings yet
Data Preparation.
36 pages
Rapid Miner - Data Preparation
100% (1)
Rapid Miner - Data Preparation
17 pages
ML Normalization Techniques - Overview & Practical Guide
No ratings yet
ML Normalization Techniques - Overview & Practical Guide
5 pages
Lecture 10 - Data Transformation-M
No ratings yet
Lecture 10 - Data Transformation-M
8 pages
Preprocessing Stage
No ratings yet
Preprocessing Stage
4 pages
Inferential Statistical Analysis Using Python
No ratings yet
Inferential Statistical Analysis Using Python
22 pages
Data Minig Lab Manual
No ratings yet
Data Minig Lab Manual
58 pages
Introduction To MinMax Normalization
No ratings yet
Introduction To MinMax Normalization
1 page
Lecture 7 Data Transformation and Dimensionality Reduction
No ratings yet
Lecture 7 Data Transformation and Dimensionality Reduction
22 pages
Standardization & Normalization In: ML With Python Example
No ratings yet
Standardization & Normalization In: ML With Python Example
8 pages
The Smart Math Tricks Secrets to Solving Math Fast and Easy
From Everand
The Smart Math Tricks Secrets to Solving Math Fast and Easy
Leonardo Cruz
No ratings yet
Student Solutions Manual to Accompany Loss Models: From Data to Decisions, Fourth Edition
From Everand
Student Solutions Manual to Accompany Loss Models: From Data to Decisions, Fourth Edition
Stuart A. Klugman
4/5 (1)
03 Generative Tavenard
No ratings yet
03 Generative Tavenard
7 pages
MobileNetV2 Code
No ratings yet
MobileNetV2 Code
3 pages
Case Study
No ratings yet
Case Study
22 pages
How To Become A Product Manager For AI - ML Products
No ratings yet
How To Become A Product Manager For AI - ML Products
17 pages
AsiaPac&AdTechinno Company Profile 2025
No ratings yet
AsiaPac&AdTechinno Company Profile 2025
35 pages
Borneo Mobile App
No ratings yet
Borneo Mobile App
17 pages
1 - Perceptron in Machine Learning
No ratings yet
1 - Perceptron in Machine Learning
6 pages
XenonStack PVT LTD
No ratings yet
XenonStack PVT LTD
24 pages
Inbound 2794278826819479127
No ratings yet
Inbound 2794278826819479127
1 page
Chuyên đề sắp sep (câu 15-40)
No ratings yet
Chuyên đề sắp sep (câu 15-40)
11 pages
Module Outline 2023
No ratings yet
Module Outline 2023
5 pages
Analysis and Design Accounting Information System PDF
No ratings yet
Analysis and Design Accounting Information System PDF
5 pages
ANN Syllabus
No ratings yet
ANN Syllabus
2 pages
AI Guidelines Whitepaper
No ratings yet
AI Guidelines Whitepaper
17 pages
Deloitte Internship Report Final
No ratings yet
Deloitte Internship Report Final
60 pages
AI Careers Ebook AI Scale Up
No ratings yet
AI Careers Ebook AI Scale Up
21 pages
Artificial Consciousness: Consciousness: An Introduction by Susan Blackmore
No ratings yet
Artificial Consciousness: Consciousness: An Introduction by Susan Blackmore
39 pages
Vanshita Kedia Megvii Research Report Removed
No ratings yet
Vanshita Kedia Megvii Research Report Removed
21 pages
And The Bit Goes Down
No ratings yet
And The Bit Goes Down
11 pages
ES Imp Questions
No ratings yet
ES Imp Questions
9 pages
Enhancing MIS With Data Analytics
No ratings yet
Enhancing MIS With Data Analytics
11 pages
Foundations of AI
No ratings yet
Foundations of AI
9 pages
Generative AI Exists Because of The Transformer
No ratings yet
Generative AI Exists Because of The Transformer
52 pages
Applied Artificial Intelligence: How Machine Learning Transforms How We Live and Work
100% (1)
Applied Artificial Intelligence: How Machine Learning Transforms How We Live and Work
73 pages
Labor Market Insights June
No ratings yet
Labor Market Insights June
45 pages
Karunya - Robotics-2019
No ratings yet
Karunya - Robotics-2019
31 pages
Real Time Hand Gesture Recognition Research
No ratings yet
Real Time Hand Gesture Recognition Research
11 pages
Theoretical Background
No ratings yet
Theoretical Background
3 pages
Software Performance Engineering For Foundation Model-Powered Software (Fmware)
No ratings yet
Software Performance Engineering For Foundation Model-Powered Software (Fmware)
13 pages
Lex Eloquentia - 2
No ratings yet
Lex Eloquentia - 2
24 pages