Open navigation menu

Scribd

0% found this document useful (0 votes)

18 views

Comprehensive EDA Python Guide

Cheat Sheet

Uploaded by

Muhammad Faizan

Copyright

© © All Rights Reserved

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

18 views

Comprehensive EDA Python Guide

Cheat Sheet

Uploaded by

Muhammad Faizan

Copyright

© © All Rights Reserved

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 13

Comprehensive Guide for Exploratory Data Analysis in Python

Comprehensive Guide for Exploratory Data Analysis in Python

1. Introduction to EDA

Exploratory Data Analysis (EDA) is a crucial step in data analysis that helps understand the data,

uncover patterns, spot anomalies, test hypotheses, and check assumptions with the help of

summary statistics and graphical representations.

Comprehensive Guide for Exploratory Data Analysis in Python

2. Loading Libraries and Dataset

import pandas as pd

import numpy as np

import matplotlib.pyplot as plt

import seaborn as sns

from scipy import stats

from sklearn.preprocessing import MinMaxScaler, StandardScaler

# Example: Loading a CSV file

df = pd.read_csv('your_dataset.csv')
Comprehensive Guide for Exploratory Data Analysis in Python

3. Data Overview

# Display the first few rows of the dataset

print(df.head())

# Display summary statistics

print(df.describe())

# Display information about the dataset

print(df.info())
Comprehensive Guide for Exploratory Data Analysis in Python

4. Data Cleaning

# Handling Missing Values

print(df.isnull().sum())

df.fillna(df.mean(), inplace=True)

# Alternatively, you can fill missing values with median or mode

# df['column_name'].fillna(df['column_name'].median(), inplace=True)

# df['column_name'].fillna(df['column_name'].mode()[0], inplace=True)

# Dropping rows with missing values

# df.dropna(inplace=True)

# Handling Duplicates

print(df.duplicated().sum())

df.drop_duplicates(inplace=True)
Comprehensive Guide for Exploratory Data Analysis in Python

5. Data Preprocessing

# Encoding Categorical Variables

df = pd.get_dummies(df, columns=['categorical_column'])

# Label Encoding for ordinal data

from sklearn.preprocessing import LabelEncoder

le = LabelEncoder()

df['ordinal_column'] = le.fit_transform(df['ordinal_column'])

# Feature Engineering

df['new_feature'] = df['existing_feature1'] * df['existing_feature2']

Comprehensive Guide for Exploratory Data Analysis in Python

6. Outlier Detection and Treatment

# Using Z-score to identify outliers

z_scores = stats.zscore(df['column_name'])

abs_z_scores = np.abs(z_scores)

filtered_entries = (abs_z_scores < 3)

df = df[filtered_entries]

# Using IQR (Interquartile Range) to identify outliers

Q1 = df['column_name'].quantile(0.25)

Q3 = df['column_name'].quantile(0.75)

IQR = Q3 - Q1

filtered_entries = ((df['column_name'] >= (Q1 - 1.5 * IQR)) & (df['column_name'] <= (Q3 + 1.5 *

IQR)))

df = df[filtered_entries]
Comprehensive Guide for Exploratory Data Analysis in Python

7. Scaling and Normalization

# Min-Max Scaling

scaler = MinMaxScaler()

df[['column1', 'column2']] = scaler.fit_transform(df[['column1', 'column2']])

# Standardization

scaler = StandardScaler()

df[['column1', 'column2']] = scaler.fit_transform(df[['column1', 'column2']])

Comprehensive Guide for Exploratory Data Analysis in Python

8. Data Visualization

# Univariate Analysis

# Histogram

plt.figure(figsize=(10, 6))

sns.histplot(df['column_name'], kde=True)

plt.title('Histogram of column_name')

plt.show()

# Boxplot

plt.figure(figsize=(10, 6))

sns.boxplot(x=df['column_name'])

plt.title('Boxplot of column_name')

plt.show()

# Bivariate Analysis

# Scatter plot

plt.figure(figsize=(10, 6))

sns.scatterplot(x='column1', y='column2', data=df)

plt.title('Scatter plot between column1 and column2')

plt.show()

# Heatmap for correlation

Comprehensive Guide for Exploratory Data Analysis in Python

plt.figure(figsize=(12, 8))

sns.heatmap(df.corr(), annot=True, cmap='coolwarm')

plt.title('Correlation Heatmap')

plt.show()

# Multivariate Analysis

# Pairplot

sns.pairplot(df)

plt.show()

# Violin plot

plt.figure(figsize=(10, 6))

sns.violinplot(x='categorical_column', y='numeric_column', data=df)

plt.title('Violin plot')

plt.show()
Comprehensive Guide for Exploratory Data Analysis in Python

9. Summarizing Findings

print("Key Findings:")

print("1. Description of key patterns or anomalies.")

print("2. Potential relationships between features.")

print("3. Insights on missing values and outliers.")

Comprehensive Guide for Exploratory Data Analysis in Python

10. Adjusting for Different Problems and Constraints

# Imbalanced Data

# Check class distribution

print(df['target'].value_counts())

# Oversampling using SMOTE

from imblearn.over_sampling import SMOTE

smote = SMOTE()

X_res, y_res = smote.fit_resample(X, y)

# Large Datasets

# Using Dask for larger-than-memory computations

import dask.dataframe as dd

df = dd.read_csv('large_dataset.csv')

# Time Series Data

# Converting a column to datetime

df['date_column'] = pd.to_datetime(df['date_column'])

# Setting the date column as index

df.set_index('date_column', inplace=True)
Comprehensive Guide for Exploratory Data Analysis in Python

# Resampling

df_resampled = df.resample('M').mean()

# Text Data

# Using CountVectorizer

from sklearn.feature_extraction.text import CountVectorizer

cv = CountVectorizer()

X = cv.fit_transform(df['text_column'])

# Using TF-IDF Vectorizer

from sklearn.feature_extraction.text import TfidfVectorizer

tfidf = TfidfVectorizer()

X = tfidf.fit_transform(df['text_column'])

You might also like

AccurioPress C4080 C4070 C4065 Troubleshooting Guide V1.0e
100% (1)
AccurioPress C4080 C4070 C4065 Troubleshooting Guide V1.0e
251 pages
Data Cleaning - Cheatsheet
100% (2)
Data Cleaning - Cheatsheet
8 pages
2013 Prince2 Practitioner Resource Book v3.9 - 290113
No ratings yet
2013 Prince2 Practitioner Resource Book v3.9 - 290113
208 pages
Data Exploration Preparation
No ratings yet
Data Exploration Preparation
12 pages
EDA Python Guide
No ratings yet
EDA Python Guide
11 pages
Data Analysis With Python
No ratings yet
Data Analysis With Python
29 pages
data analysis
No ratings yet
data analysis
42 pages
Mastering Exploratory Data Analysis With Python - A Comprehensive Guide To Unveiling Hidden Insights
No ratings yet
Mastering Exploratory Data Analysis With Python - A Comprehensive Guide To Unveiling Hidden Insights
73 pages
Exploratory Data Analysis: by Neha Mathur
No ratings yet
Exploratory Data Analysis: by Neha Mathur
14 pages
Unit - Iii - Eda
No ratings yet
Unit - Iii - Eda
25 pages
Exploratory Data Analysis: by Neha Mathur
No ratings yet
Exploratory Data Analysis: by Neha Mathur
14 pages
Chapter 2. Data Analysis and Processing - Full
No ratings yet
Chapter 2. Data Analysis and Processing - Full
49 pages
Python for Data Analysis
No ratings yet
Python for Data Analysis
84 pages
EDAP LAB
No ratings yet
EDAP LAB
47 pages
EDA With Pandas CheatSheet
No ratings yet
EDA With Pandas CheatSheet
3 pages
Exploratory Data Analysis (Eda) With Pandas: (Cheatsheet)
No ratings yet
Exploratory Data Analysis (Eda) With Pandas: (Cheatsheet)
7 pages
Eda
No ratings yet
Eda
4 pages
What Is Exploratory Data Analysis?: Intuition
No ratings yet
What Is Exploratory Data Analysis?: Intuition
8 pages
Perform Exploratory Data Analysis
No ratings yet
Perform Exploratory Data Analysis
5 pages
Exploratory Data Analysis-1
No ratings yet
Exploratory Data Analysis-1
10 pages
BasicAnalysis Using PYTHON
No ratings yet
BasicAnalysis Using PYTHON
6 pages
AUTOMATED EDA Libraries
No ratings yet
AUTOMATED EDA Libraries
12 pages
Exploratory Data Analysis: Prasad Deshmukh
No ratings yet
Exploratory Data Analysis: Prasad Deshmukh
15 pages
Exploratory Data Analysis
No ratings yet
Exploratory Data Analysis
15 pages
Interactive Data Analysis With Jupyter Cheatsheet 1731972443
No ratings yet
Interactive Data Analysis With Jupyter Cheatsheet 1731972443
10 pages
EXP-12
No ratings yet
EXP-12
4 pages
Machine Learning Project Roadmap
No ratings yet
Machine Learning Project Roadmap
4 pages
Data Analytics Fundamentals-2
No ratings yet
Data Analytics Fundamentals-2
34 pages
IMPDAV
No ratings yet
IMPDAV
105 pages
What Is Exploratory Data Analysis - by Prasad Patil - Towards Data Science
No ratings yet
What Is Exploratory Data Analysis - by Prasad Patil - Towards Data Science
17 pages
Exploratory Data Analysis Using Python
No ratings yet
Exploratory Data Analysis Using Python
7 pages
Lesson 2 - Data Preprocessing
100% (1)
Lesson 2 - Data Preprocessing
72 pages
Summary: Introduction To Data Visualization Tools
No ratings yet
Summary: Introduction To Data Visualization Tools
13 pages
Pandas Complete + Visualisation Summary of IBM Visualization
No ratings yet
Pandas Complete + Visualisation Summary of IBM Visualization
21 pages
Week-6 DS Practical
No ratings yet
Week-6 DS Practical
12 pages
Data Exploration
No ratings yet
Data Exploration
5 pages
Data Mining Vs Data Exploration UNIT-II
No ratings yet
Data Mining Vs Data Exploration UNIT-II
11 pages
DAP writeups_merged
No ratings yet
DAP writeups_merged
33 pages
Unit-2 Bda
No ratings yet
Unit-2 Bda
11 pages
Unit 1 - Intro To EDA
No ratings yet
Unit 1 - Intro To EDA
40 pages
Data Manipulation in Python Using Pandas
No ratings yet
Data Manipulation in Python Using Pandas
12 pages
Semi-Automated Exploratory Data Analysis (EDA) in Python - by Destin Gong - Mar, 2021 - Towards Data
No ratings yet
Semi-Automated Exploratory Data Analysis (EDA) in Python - by Destin Gong - Mar, 2021 - Towards Data
3 pages
Exp-12
No ratings yet
Exp-12
7 pages
EDA with Pandas
No ratings yet
EDA with Pandas
8 pages
Exploratory Data Analysis Using Python
No ratings yet
Exploratory Data Analysis Using Python
7 pages
Data Cleaning and Preparation
No ratings yet
Data Cleaning and Preparation
9 pages
Intro
No ratings yet
Intro
26 pages
Course_ Introduction to Data Science (SD211105)
No ratings yet
Course_ Introduction to Data Science (SD211105)
10 pages
Exploratory Data
No ratings yet
Exploratory Data
47 pages
Python Quick Notes
No ratings yet
Python Quick Notes
2 pages
Learneverythingai
No ratings yet
Learneverythingai
9 pages
final dev record
No ratings yet
final dev record
49 pages
Comprehensive Guide Data Exploration Sas Using Python Numpy Scipy Matplotlib Pandas
100% (1)
Comprehensive Guide Data Exploration Sas Using Python Numpy Scipy Matplotlib Pandas
12 pages
Data Exploration
No ratings yet
Data Exploration
11 pages
DataCleaning
No ratings yet
DataCleaning
28 pages
# (Data Preprocessing) : (Cheatsheet)
No ratings yet
# (Data Preprocessing) : (Cheatsheet)
10 pages
PythonForMachineLearning
No ratings yet
PythonForMachineLearning
66 pages
EDS - Python Cheat Sheet
0% (1)
EDS - Python Cheat Sheet
3 pages
Explorotary Data Analysis
100% (1)
Explorotary Data Analysis
30 pages
Oracle Certified Professional Java Programmer OCPJP 1Z0 809
From Everand
Oracle Certified Professional Java Programmer OCPJP 1Z0 809
Manish Soni
No ratings yet
Computer Engineering Laboratory Solution Primer
From Everand
Computer Engineering Laboratory Solution Primer
Karan Bhandari
No ratings yet
Advanced C Concepts and Programming: First Edition
From Everand
Advanced C Concepts and Programming: First Edition
Gayatri
3/5 (1)
Duct Pressure Drop Calculator
0% (1)
Duct Pressure Drop Calculator
3 pages
Forecasting Odds Movements in Horse Racing
No ratings yet
Forecasting Odds Movements in Horse Racing
63 pages
Computer Communication & Networks: Physical Layer: Data & Signals
No ratings yet
Computer Communication & Networks: Physical Layer: Data & Signals
47 pages
Firewall CCF Template V1.1
No ratings yet
Firewall CCF Template V1.1
14 pages
Huawei Certification Examination Appointment Guide
No ratings yet
Huawei Certification Examination Appointment Guide
14 pages
Rulebook Newton PDF
No ratings yet
Rulebook Newton PDF
16 pages
11th Standard Complete EM Notes
No ratings yet
11th Standard Complete EM Notes
39 pages
Sample Problem #3:: Water Benzene
No ratings yet
Sample Problem #3:: Water Benzene
2 pages
Evaluation of Epoxy Injection Method For Concrete Crack Repair
No ratings yet
Evaluation of Epoxy Injection Method For Concrete Crack Repair
7 pages
Clinical Neuropsychology A Pocket Handbook For Assessment 2nd Edition Peter J. Snyder instant download
100% (1)
Clinical Neuropsychology A Pocket Handbook For Assessment 2nd Edition Peter J. Snyder instant download
55 pages
Lecture Notes in Statistical Mechanics
No ratings yet
Lecture Notes in Statistical Mechanics
52 pages
50 Copies TQ Emath 122 Pre Lim Exam Balansag 1
No ratings yet
50 Copies TQ Emath 122 Pre Lim Exam Balansag 1
3 pages
Nyu Gsas Dissertation Formatting
100% (2)
Nyu Gsas Dissertation Formatting
8 pages
Phraseology As An Object of Linguistic and Cultural Studies
No ratings yet
Phraseology As An Object of Linguistic and Cultural Studies
5 pages
Seacare Centre Address List As On 071209b
No ratings yet
Seacare Centre Address List As On 071209b
6 pages
Dineshkumar Vidi Ravindran: Professional Summary
No ratings yet
Dineshkumar Vidi Ravindran: Professional Summary
4 pages
Force and Laws of Motion Worksheet-6 Class 9
No ratings yet
Force and Laws of Motion Worksheet-6 Class 9
16 pages
Auditor Independence: Malaysian Accountants' Perceptions
No ratings yet
Auditor Independence: Malaysian Accountants' Perceptions
13 pages
Xs 122 Catalogo
No ratings yet
Xs 122 Catalogo
12 pages
Stretch and Recovery Testing Method For Knitted Fabrics: Professional Standard of The People's Republic of China
No ratings yet
Stretch and Recovery Testing Method For Knitted Fabrics: Professional Standard of The People's Republic of China
17 pages
ame Viper WRL Penetrating Grease - VPG - 0 SDS
No ratings yet
ame Viper WRL Penetrating Grease - VPG - 0 SDS
2 pages
Performance Evaluation of Efficient Segmentation and Classification Based
No ratings yet
Performance Evaluation of Efficient Segmentation and Classification Based
13 pages
Sukhpreet Kaur
No ratings yet
Sukhpreet Kaur
3 pages
Excavation Earthwork and Filling
No ratings yet
Excavation Earthwork and Filling
4 pages
Performance Task Blueprint - Earth Science End Term
No ratings yet
Performance Task Blueprint - Earth Science End Term
2 pages
Co Creating An Educational Resource To Promote The Upta - 2023 - Nurse Education
No ratings yet
Co Creating An Educational Resource To Promote The Upta - 2023 - Nurse Education
7 pages
Strategies For Revising Judgment
No ratings yet
Strategies For Revising Judgment
62 pages
Double-Digit Numbers in Numerology
No ratings yet
Double-Digit Numbers in Numerology
5 pages