0% found this document useful (0 votes)

10 views

Data Reduction Using Pythonh

Uploaded by

hothyfa

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

10 views

Data Reduction Using Pythonh

Uploaded by

hothyfa

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 5

25/10/2021, 20:02 Data Reduction Using Python - Jupyter Notebook

Import Dependencies
In [0]:

import pandas as pd
import matplotlib.pyplot as plt
from sklearn.preprocessing import StandardScaler
Dataset
In [0]:

url = "https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data"
# load dataset into Pandas DataFrame
df = pd.read_csv(url, names=['sepal length','sepal width','petal length','petal width','target
In [4]:

df.head()
Out[4]:

sepal length sepal width petal length petal width target

0 5.1 3.5 1.4 0.2 Iris-setosa

1 4.9 3.0 1.4 0.2 Iris-setosa

2 4.7 3.2 1.3 0.2 Iris-setosa

3 4.6 3.1 1.5 0.2 Iris-setosa

4 5.0 3.6 1.4 0.2 Iris-setosa

Standardize The Data

In [0]:

feature = ['sepal length', 'sepal width', 'petal length', 'petal width']

# separating features
x = df.loc[:,feature]
# separating target
y = df.loc[:,'target']
#Standardising features
x = StandardScaler().fit_transform(x)
localhost:8888/notebooks/Data-Science/Practical 3 Data Reduction/Data Reduction Using Python.ipynb 1/5
25/10/2021, 20:02 Data Reduction Using Python - Jupyter Notebook

PCA ( Principal Component Analysis )

In [0]:

from sklearn.decomposition import PCA

pca = PCA(n_components=2)
pct = pca.fit_transform(x)
principal_df = pd.DataFrame(pct,columns=['pc1','pc2'])
finaldf= pd.concat([principal_df,df[['target']]],axis=1)
In [16]:

finaldf.head()
Out[16]:

pc1 pc2 target

0 -2.264542 0.505704 Iris-setosa

1 -2.086426 -0.655405 Iris-setosa

2 -2.367950 -0.318477 Iris-setosa

3 -2.304197 -0.575368 Iris-setosa

4 -2.388777 0.674767 Iris-setosa

Component Projection (2D)

localhost:8888/notebooks/Data-Science/Practical 3 Data Reduction/Data Reduction Using Python.ipynb 2/5

25/10/2021, 20:02 Data Reduction Using Python - Jupyter Notebook

In [20]:

fig = plt.figure(figsize = (8,8))

ax = fig.add_subplot(1,1,1)
ax.set_xlabel('Principal Component 1', fontsize = 15)
ax.set_ylabel('Principal Component 2', fontsize = 15)
ax.set_title('2 component PCA', fontsize = 20)
targets = ['Iris-setosa', 'Iris-versicolor', 'Iris-virginica']
colors = ['r', 'g', 'b']
for target, color in zip(targets,colors):
indicesToKeep = finaldf['target'] == target
ax.scatter(finaldf.loc[indicesToKeep, 'pc1']
, finaldf.loc[indicesToKeep, 'pc2']
, c = color
, s = 50)
ax.legend(targets)
ax.grid()

localhost:8888/notebooks/Data-Science/Practical 3 Data Reduction/Data Reduction Using Python.ipynb 3/5

25/10/2021, 20:02 Data Reduction Using Python - Jupyter Notebook

In [21]:

pca.explained_variance_ratio_
Out[21]:

array([0.72770452, 0.23030523])

Conclusion:
The explained variance tells you how much information (variance) can be attributed to each of the principal
components.
This is important as while you can convert 4 dimensional space to 2 dimensional space, you lose some of
the variance (information) when you do this.
By using the attribute explained_variance_ratio_, you can see that the first principal component contains
72.77% of the variance and the second principal component contains 23.03% of the variance.
Together, the two components contain 95.80% of the information.

Variance Threshold
In [1]:

from sklearn.feature_selection import VarianceThreshold

from sklearn import datasets
Load Data
In [2]:

# Load iris data

iris = datasets.load_iris()
# Create features and target
X = iris.data
y = iris.target
localhost:8888/notebooks/Data-Science/Practical 3 Data Reduction/Data Reduction Using Python.ipynb 4/5
25/10/2021, 20:02 Data Reduction Using Python - Jupyter Notebook

Conduct Variance Thresholding

In [3]:

# Create VarianceThreshold object with a variance with a threshold of 0.5

thresholder = VarianceThreshold(threshold=.5)
# Conduct variance thresholding
X_high_variance = thresholder.fit_transform(X)
View high variance features
In [4]:

# View first five rows with features with variances above threshold
X_high_variance[0:5]
Out[4]:

array([[5.1, 1.4, 0.2],

[4.9, 1.4, 0.2],
[4.7, 1.3, 0.2],
[4.6, 1.5, 0.2],
[5. , 1.4, 0.2]])

localhost:8888/notebooks/Data-Science/Practical 3 Data Reduction/Data Reduction Using Python.ipynb 5/5

Dimensionality - Reduction - Principal - Component - Analysis - Ipynb at Master Llsourcell - Dimensionality - Reduction GitHub
No ratings yet
Dimensionality - Reduction - Principal - Component - Analysis - Ipynb at Master Llsourcell - Dimensionality - Reduction GitHub
14 pages
Reduce Data Dimensionality Using PCA
No ratings yet
Reduce Data Dimensionality Using PCA
6 pages
Exp3a
No ratings yet
Exp3a
2 pages
Dimensionality Reduction: Motivation I: Data Compression
No ratings yet
Dimensionality Reduction: Motivation I: Data Compression
35 pages
PCA_Explained -
No ratings yet
PCA_Explained -
9 pages
Principal Component Analysis Notes : Info
No ratings yet
Principal Component Analysis Notes : Info
22 pages
Chapter 4
No ratings yet
Chapter 4
57 pages
ML Assignment 01 Code
No ratings yet
ML Assignment 01 Code
21 pages
3_Modeling.ipynb - Colaboratory
No ratings yet
3_Modeling.ipynb - Colaboratory
31 pages
PRACTICAL5
No ratings yet
PRACTICAL5
23 pages
ml lab
No ratings yet
ml lab
14 pages
Dvpd11 Merged Merged 27 83
No ratings yet
Dvpd11 Merged Merged 27 83
57 pages
vertopal.com_DAI_Amberish_LAB_ASSIGNMENT_3 (1)
No ratings yet
vertopal.com_DAI_Amberish_LAB_ASSIGNMENT_3 (1)
7 pages
ML Lab Manual Prgm 2&3
No ratings yet
ML Lab Manual Prgm 2&3
6 pages
Principal Component Analysis
No ratings yet
Principal Component Analysis
11 pages
Unit1 ML Programs
No ratings yet
Unit1 ML Programs
5 pages
Implementing PCA in Python With Scikit
No ratings yet
Implementing PCA in Python With Scikit
6 pages
mine5
No ratings yet
mine5
8 pages
Principal Component Analysis
No ratings yet
Principal Component Analysis
34 pages
1.variable Reduction 2.principal Component Analysis: Topic UNIT-4
No ratings yet
1.variable Reduction 2.principal Component Analysis: Topic UNIT-4
19 pages
Lab #3
No ratings yet
Lab #3
12 pages
Inbound 3415279694782152083
No ratings yet
Inbound 3415279694782152083
6 pages
Lec4 - Python with data analysis
No ratings yet
Lec4 - Python with data analysis
20 pages
DATA REDUCTION
No ratings yet
DATA REDUCTION
23 pages
PDSLabManualEXP7.docx (2)
No ratings yet
PDSLabManualEXP7.docx (2)
6 pages
U5@-Data Reduction
No ratings yet
U5@-Data Reduction
22 pages
ml_labmanual (3)
No ratings yet
ml_labmanual (3)
33 pages
Python
No ratings yet
Python
5 pages
AIML
No ratings yet
AIML
5 pages
program - 3
No ratings yet
program - 3
4 pages
Class8-9 DataPreprocessing DataReduction 30Sept-05Oct2020
No ratings yet
Class8-9 DataPreprocessing DataReduction 30Sept-05Oct2020
22 pages
LAB-3
No ratings yet
LAB-3
3 pages
Principal Component Analysis
No ratings yet
Principal Component Analysis
1 page
Principal Component Analysis For Data Science
No ratings yet
Principal Component Analysis For Data Science
4 pages
chapter3 (2)
No ratings yet
chapter3 (2)
36 pages
Assignment
No ratings yet
Assignment
24 pages
7034 1713335587607 Dimensionality - Reduction - Ipynb Colaboratory
No ratings yet
7034 1713335587607 Dimensionality - Reduction - Ipynb Colaboratory
4 pages
PCA Clearly Explained -When, Why, How To Use It and Feature Importance_ A Guide in Python _ by Serafeim Loukas _ Towards AI
No ratings yet
PCA Clearly Explained -When, Why, How To Use It and Feature Importance_ A Guide in Python _ by Serafeim Loukas _ Towards AI
19 pages
complete pdf
No ratings yet
complete pdf
28 pages
PCA Using Python
No ratings yet
PCA Using Python
18 pages
PHP Package Mastery: 100 Essential Tools in One Hour - 2024 Edition
From Everand
PHP Package Mastery: 100 Essential Tools in One Hour - 2024 Edition
Kanto
No ratings yet
Dimension Reduction
No ratings yet
Dimension Reduction
15 pages
ModuleAr Merged
No ratings yet
ModuleAr Merged
42 pages
Fem2063 Data Analytics - May 2020 Lab Practice 5 (Week 6)
No ratings yet
Fem2063 Data Analytics - May 2020 Lab Practice 5 (Week 6)
8 pages
Exp 3
No ratings yet
Exp 3
4 pages
PW6
No ratings yet
PW6
1 page
PCA - Jupyter Notebook
No ratings yet
PCA - Jupyter Notebook
5 pages
Module 3
No ratings yet
Module 3
41 pages
D3S2 _ Unsupervised - Dimensionality Reduction
No ratings yet
D3S2 _ Unsupervised - Dimensionality Reduction
81 pages
12 Dimensionality Reduction Techniqwues (with Python Codes)
No ratings yet
12 Dimensionality Reduction Techniqwues (with Python Codes)
20 pages
lec 13-14 PCA
No ratings yet
lec 13-14 PCA
53 pages
Unit 4 Dimenstionality Reduction
No ratings yet
Unit 4 Dimenstionality Reduction
104 pages
Module 3 ML
No ratings yet
Module 3 ML
19 pages
Lab-4 - Muhammad Ahmad - 282660 - BESE-10B
No ratings yet
Lab-4 - Muhammad Ahmad - 282660 - BESE-10B
6 pages
45B Ahmed Shaikh AIML Prac05
No ratings yet
45B Ahmed Shaikh AIML Prac05
4 pages
Asset-V1 VIT+MBA109+2020+type@asset+block@Introductio To ML Using Python
No ratings yet
Asset-V1 VIT+MBA109+2020+type@asset+block@Introductio To ML Using Python
7 pages
Week 4
No ratings yet
Week 4
5 pages
Lab 4
No ratings yet
Lab 4
2 pages
Chap5_wei.ipynb - Colab
No ratings yet
Chap5_wei.ipynb - Colab
29 pages
Learning Pandas 2.0: A Comprehensive Guide to Data Manipulation and Analysis for Data Scientists and Machine Learning Professionals
From Everand
Learning Pandas 2.0: A Comprehensive Guide to Data Manipulation and Analysis for Data Scientists and Machine Learning Professionals
Matthew Rosch
No ratings yet
Clad Sample Papers
No ratings yet
Clad Sample Papers
100 pages
T Test
No ratings yet
T Test
7 pages
Assessment of Pollution in Kampala
No ratings yet
Assessment of Pollution in Kampala
13 pages
UniversityPhysicsVolume1-Ch07
No ratings yet
UniversityPhysicsVolume1-Ch07
2 pages
Problems For Self-Study 1
No ratings yet
Problems For Self-Study 1
8 pages
Maintain Quotation Comments: SAP - Customizing Guide
No ratings yet
Maintain Quotation Comments: SAP - Customizing Guide
5 pages
2011 - Gollwitzer, Meder & Schmitt - Revenge
No ratings yet
2011 - Gollwitzer, Meder & Schmitt - Revenge
12 pages
Reason Tool Docs
No ratings yet
Reason Tool Docs
17 pages
Report Smart Tilt Solar Panel With Online Monitoring
No ratings yet
Report Smart Tilt Solar Panel With Online Monitoring
66 pages
Introduction To C Language
No ratings yet
Introduction To C Language
55 pages
Accessories 2021 Digital
No ratings yet
Accessories 2021 Digital
12 pages
CN Lab 2
No ratings yet
CN Lab 2
5 pages
CK Range CK120 Dimension Data Sheet-Technical Drawings-English
No ratings yet
CK Range CK120 Dimension Data Sheet-Technical Drawings-English
4 pages
IJSARTV4I724548 (Generating Lisp Program For Assembly Drawing in Autocad)
No ratings yet
IJSARTV4I724548 (Generating Lisp Program For Assembly Drawing in Autocad)
4 pages
Riopipeline2019 1017 Artigo Rio Pipeline v10 Revtlp PDF
No ratings yet
Riopipeline2019 1017 Artigo Rio Pipeline v10 Revtlp PDF
10 pages
Journal of Trading - Behind Stock Price Movement
No ratings yet
Journal of Trading - Behind Stock Price Movement
12 pages
HM81123
No ratings yet
HM81123
3 pages
SIS Book - Chapter 08 - PFDavg With FTs
No ratings yet
SIS Book - Chapter 08 - PFDavg With FTs
34 pages
Cnc-Machine and Its Components
No ratings yet
Cnc-Machine and Its Components
36 pages
ECA Worksheet
No ratings yet
ECA Worksheet
11 pages
24Vdc 180amper Rectifier System
No ratings yet
24Vdc 180amper Rectifier System
4 pages
Grid-Connected Photovoltaic Systems: An Overview of Recent Research and Emerging PV Converter Technology
No ratings yet
Grid-Connected Photovoltaic Systems: An Overview of Recent Research and Emerging PV Converter Technology
15 pages
Dynamics of The Mass Distribution of Liquid Ti
No ratings yet
Dynamics of The Mass Distribution of Liquid Ti
23 pages
A Comparison Between Three SDLC Models Waterfall Model, Spiral Model, and Incremental/Iterative Model
No ratings yet
A Comparison Between Three SDLC Models Waterfall Model, Spiral Model, and Incremental/Iterative Model
6 pages
Control Engineering and Automation
No ratings yet
Control Engineering and Automation
2 pages
Price List WNN Zone 1feb 21
No ratings yet
Price List WNN Zone 1feb 21
80 pages
Presto Manual 15 (ENG)
No ratings yet
Presto Manual 15 (ENG)
295 pages
Embedded Systems Design-1: Dr. N. Mathivanan
No ratings yet
Embedded Systems Design-1: Dr. N. Mathivanan
35 pages
Assignment
No ratings yet
Assignment
2 pages
Module 2a - With soln
No ratings yet
Module 2a - With soln
90 pages