Welcome to Scribd!

100% found this document useful (1 vote)

152 views

What Is Exploratory Data Analysis (EDA)

Uploaded by

Exploratory data analysis (EDA) is the process of exploring and summarizing data to understand patterns, relationships, and trends. EDA helps formulate questions, make data-driven decisions, and gain initial insights. Key steps in EDA include data cleaning, descriptive statistics, data visualization, identifying data distribution and outliers, and correlation analysis.

Copyright:

Available Formats

Download as PPTX, PDF, TXT or read online from Scribd

What Is Exploratory Data Analysis (EDA)

Uploaded by

emansyed2212

100% found this document useful (1 vote)

152 views13 pages

Original Title

What is Exploratory Data Analysis (EDA)

Copyright

Available Formats

PPTX, PDF, TXT or read online from Scribd

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Download as PPTX, PDF, TXT or read online from Scribd

Download as pptx, pdf, or txt

100% found this document useful (1 vote)

152 views13 pages

What Is Exploratory Data Analysis (EDA)

Uploaded by

emansyed2212

Copyright:

Available Formats

Download as PPTX, PDF, TXT or read online from Scribd

Download as pptx, pdf, or txt

Jump to Page

You are on page 1of 13

Search inside document

What is Exploratory Data Analysis (EDA)?

The process of exploring and summarizing the main characteristics of the data
to uncover patterns, relationships, and trends.
It helps in formulating questions and making data-driven decisions.

1
Importance of EDA:

● Provides an initial understanding of the dataset.

● Helps in identifying data quality issues, such as missing values, outliers,
and inconsistencies.
● Guides the selection of appropriate statistical techniques and models.
● Helps in feature engineering and variable selection.
● Enables the discovery of meaningful insights and actionable conclusions.

2
Steps in EDA
1. Data Cleaning
2. Descriptive Statistics
3. Data Visualization
4. Data Distribution
5. Correlation Analysis
6. Outlier Detection or Anomaly Detection
7. Data Transformation

3
Data Cleaning
Data cleaning is the process of fixing or removing incorrect, corrupted,
incorrectly formatted, duplicate, or incomplete data within a dataset. When
combining multiple data sources, there are many opportunities for data to be
duplicated or mislabeled.

Importance: Having clean data will ultimately increase overall productivity and
allow for the highest quality information in your decision-making

4
Data Cleaning Techniques
Handling Missing Data: We use methods like filling or removing to deal with
missing values.

Outlier Detection: Find and address unusual data that can affect analysis or
models.

Data Standardization: Make data consistent for easier analysis and comparison.

Data Validation: Check data against rules to ensure accuracy and reliability.

5
Descriptive Statistics
Descriptive statistics is the branch of statistics that focuses on summarizing and
describing the main features/Attributes/Variables of a dataset.

Importance: They can simplify and organize large amounts of data into a few
numbers or graphs which makes it easier to grasp the main features and patterns
of your data, as well as identify any outliers or errors.

6
Data Visualization
Data visualization is the graphical representation of data and information. It
involves creating visual elements such as charts, graphs, and maps to help
people understand complex data patterns.

7
Importance of data Visualization

1. Enhances Data Understanding

2. Identification of Patterns and Trends

3. Quick Problem Identification

4. Narrative Building

8
Types of Data and Visualization
Different data types require different visualization techniques to convey
insights accurately.

9
Data Distribution
Data distribution refers to how data is spread out or clustered around certain
values or ranges. It is a way to organize trends and patterns observed in
dataset so that they are easier to understand.
Correlation Analysis
Correlation Analysis is also known as bivariate. It is primarily concerned with
finding out whether relationship exists between variables and then determining
the magnitude and action of that relationship.
Outlier/Anomaly Detection
Outlier detection is the process of detecting unusual data points that are far
away from average values. Generally it is a way to identify .rare items from a
dataset.
Data Transformation
Data Transformation is the process of converting data from one format to
another. Such as a database file, XML document or Excel spreadsheet, into
another. Transformations typically involve converting a raw data source into a
cleansed, validated and ready-to-use format.

Unit 1 - Exploratory Data Analysis Fundamentals
Document47 pages
Unit 1 - Exploratory Data Analysis Fundamentals
patilamrutak2003
No ratings yet
Data Exploration & Visualization
Document23 pages
Data Exploration & Visualization
divya kolluri
No ratings yet
Statistical Methods For Decision Making (SMDM) Project Report
Document22 pages
Statistical Methods For Decision Making (SMDM) Project Report
Sachin Juneja GMAIL
100% (2)
Data Science - Unit II
Document173 pages
Data Science - Unit II
DHEEVIKA SURESH
100% (2)
Big Data - Introduction: Ravichandran
Document44 pages
Big Data - Introduction: Ravichandran
Vaidyanathan Ravichandran
100% (1)
Chapter 1. Introduction
Document39 pages
Chapter 1. Introduction
Nasrima D. Macaraya
100% (2)
Data Preprocessing
Document77 pages
Data Preprocessing
20bme094
No ratings yet
Exploratory Spatial Data Analysis
Document54 pages
Exploratory Spatial Data Analysis
Asaad Ashoo
No ratings yet
Variables & Data Structure
Document20 pages
Variables & Data Structure
Amar Krishna
100% (1)
Different Types of Regression Models
Document18 pages
Different Types of Regression Models
Hemal Pandya
No ratings yet
Exploratory Data Analysis
Document9 pages
Exploratory Data Analysis
Lea Rose Jeorgia Salonga
No ratings yet
Linear Regression Chap01
Document7 pages
Linear Regression Chap01
israel14548
100% (1)
UNIT II - Statistics For Data Science - New
Document153 pages
UNIT II - Statistics For Data Science - New
Sid S
No ratings yet
Unit 2 Data Management and Processing System
Document43 pages
Unit 2 Data Management and Processing System
Shasan Sapkota
100% (1)
Spatial Data Exploration
Document8 pages
Spatial Data Exploration
Cheydaa Dahamanhuri
No ratings yet
Geostatistical Analysis
Document38 pages
Geostatistical Analysis
drzubairulislam
100% (1)
Feature Engineering
Document23 pages
Feature Engineering
ARCHANA R
No ratings yet
Fifteen: 15.1 Lesson: Introduction To Databases
Document22 pages
Fifteen: 15.1 Lesson: Introduction To Databases
ສີສຸວັນ ດວງມະນີ
No ratings yet
Introduction To Data Mining: Dr. Dipti Chauhan Assistant Professor SCSIT, SUAS Indore
Document16 pages
Introduction To Data Mining: Dr. Dipti Chauhan Assistant Professor SCSIT, SUAS Indore
roochin
No ratings yet
4-Data Cleaning, Data Integration, Data Transformation, Data Reduction-03-02-2024
Document22 pages
4-Data Cleaning, Data Integration, Data Transformation, Data Reduction-03-02-2024
Rahul tater
No ratings yet
Data Cleaning and Preprocessing Techniques
Document13 pages
Data Cleaning and Preprocessing Techniques
Sivam Chinna
No ratings yet
Time Series
Document23 pages
Time Series
anvity
No ratings yet
Module 4 - Confusion Matrix-1
Document18 pages
Module 4 - Confusion Matrix-1
tcr19me074
No ratings yet
Power BI - Exam Prep - 29 - 3
Document40 pages
Power BI - Exam Prep - 29 - 3
Shital Mashitakar
No ratings yet
CENG301 DBMS - Session-3
Document13 pages
CENG301 DBMS - Session-3
grupsakli
100% (1)
Paper QC QA in GIS 2018 16pages
Document17 pages
Paper QC QA in GIS 2018 16pages
Boris
100% (1)
Subject Code:Mb20Ba01 Subject Name: Data Visulization For Managers Faculty Name: Dr.M.Karthikeyan
Document34 pages
Subject Code:Mb20Ba01 Subject Name: Data Visulization For Managers Faculty Name: Dr.M.Karthikeyan
Karthikeyan M
No ratings yet
Statistical Foundations - Intro 64zlf
Document86 pages
Statistical Foundations - Intro 64zlf
manda sridhar
100% (2)
DAP Training Manual - Module 1
Document24 pages
DAP Training Manual - Module 1
Cris John Hufana
No ratings yet
Data Science Lecture 1 Introduction
Document27 pages
Data Science Lecture 1 Introduction
Liban Ali Mohamud
No ratings yet
Lesson 2 - Designing Web Services and Web Maps
Document10 pages
Lesson 2 - Designing Web Services and Web Maps
rokom
No ratings yet
Tutorial All PPSS PostGIS
Document11 pages
Tutorial All PPSS PostGIS
shareeff3779
100% (1)
For Power BI Installation:: Get Data: To Get The Data From Different Sources Like CSV, Excel, Test, SQL, Access Etc..
Document11 pages
For Power BI Installation:: Get Data: To Get The Data From Different Sources Like CSV, Excel, Test, SQL, Access Etc..
Vasu Dev Rao
No ratings yet
Data Mining Lab Manual
Document2 pages
Data Mining Lab Manual
akbar2694
No ratings yet
Data Mining
Document27 pages
Data Mining
TestingAcc
No ratings yet
Practical Introduction To QGIS: Fmoh/Hitd
Document38 pages
Practical Introduction To QGIS: Fmoh/Hitd
Tee Si
100% (1)
Functions in R Sem-III 2021 PDF
Document30 pages
Functions in R Sem-III 2021 PDF
rajveer shah
100% (1)
Data Distribution
Document18 pages
Data Distribution
ky453125
No ratings yet
Predictive Modeling Project Report
Document31 pages
Predictive Modeling Project Report
Archana shukla
100% (2)
Python For Data Analysis
Document41 pages
Python For Data Analysis
Orlan Galiy
No ratings yet
Data Preprocessing and Cleaning
Document6 pages
Data Preprocessing and Cleaning
dzedziphilly
No ratings yet
Week 1 Analytics in Practice
Document12 pages
Week 1 Analytics in Practice
palacpac jefferson
100% (2)
Data Mining
Document87 pages
Data Mining
Megha Shenoy
No ratings yet
MODULE 12 Populations and Samples
Document21 pages
MODULE 12 Populations and Samples
Faizan Muhammad
No ratings yet
GIS Lab
Document27 pages
GIS Lab
Jeet
100% (1)
Lesson 6 Data Life Cycle Part 2
Document30 pages
Lesson 6 Data Life Cycle Part 2
Neerom Baldemoro
No ratings yet
Cluster
Document72 pages
Cluster
Shashank Gangadharabhatla
100% (1)
Business Analytics & Data Visualization - Unit1
Document30 pages
Business Analytics & Data Visualization - Unit1
Yukti Jain
100% (1)
Grupo 7 Build A Geospatial Dashboard in Python Using Greppo by Adithya Krishnan Towards Data Science
Document13 pages
Grupo 7 Build A Geospatial Dashboard in Python Using Greppo by Adithya Krishnan Towards Data Science
ricardocheke23
100% (1)
Feature Engineering
Document44 pages
Feature Engineering
Venkata Gnaneswar Dasari
100% (2)
1 The Role of Statistics and The Data Analysis Process
Document30 pages
1 The Role of Statistics and The Data Analysis Process
IT GAMING
100% (1)
Dev Answer Key
Document17 pages
Dev Answer Key
jayapriya kce
100% (1)
Regression - Elements of AI 4-2
Document20 pages
Regression - Elements of AI 4-2
Mubasher Hussain
100% (2)
Data Exploration
Document12 pages
Data Exploration
FroFee F
100% (1)
Training in R For Data Statistics
Document113 pages
Training in R For Data Statistics
Krishan Pal Singh
No ratings yet
DAiB Week 4-DataVisualization Tableau
Document67 pages
DAiB Week 4-DataVisualization Tableau
Hiền Trần Thị Minh
No ratings yet
Data Preprocessing in Python - Handling Missing Data
Document8 pages
Data Preprocessing in Python - Handling Missing Data
reyesward085
No ratings yet
Big Data Analytics and Visualization Lab
Document193 pages
Big Data Analytics and Visualization Lab
gummidivenkatlakshmi
No ratings yet
Descriptive Data Analytics
Document56 pages
Descriptive Data Analytics
Lia Ann Vargas
No ratings yet
Data Catalog Third Edition
From Everand
Data Catalog Third Edition
Gerardus Blokdyk
No ratings yet
TAFC R20 Release Notes
Document16 pages
TAFC R20 Release Notes
Greeni Marco
No ratings yet
Ace2 HTML
Document42 pages
Ace2 HTML
dab8106
No ratings yet
SQL Injection IIS
Document53 pages
SQL Injection IIS
taha deghies
100% (1)
Field Group:-Qualifier Section Heading
Document22 pages
Field Group:-Qualifier Section Heading
Sai Boddu
No ratings yet
Project Plan Lazzat
Document2 pages
Project Plan Lazzat
Ляззат Жолаева
No ratings yet
27thjune Curriculum Java 40days 1 1
Document4 pages
27thjune Curriculum Java 40days 1 1
Ujjwal Arora
No ratings yet
Power Bi Interview Questions
Document56 pages
Power Bi Interview Questions
pkumar950811
No ratings yet
Oracle Data Dictionary
Document3 pages
Oracle Data Dictionary
Zolboo Ochir
No ratings yet
Lab 8: Forms - Server-Side WEB1201: Web Fundamentals: Action
Document29 pages
Lab 8: Forms - Server-Side WEB1201: Web Fundamentals: Action
阿符的故事
No ratings yet
001 ABAP CDS - Key Definition Tips
Document6 pages
001 ABAP CDS - Key Definition Tips
Patricia Tableros
No ratings yet
Excel Formulas & Functions PDF
Document81 pages
Excel Formulas & Functions PDF
Frey Condori
80% (5)
Massive Crochet 6587546c122734 00639850 81856995
Document3 pages
Massive Crochet 6587546c122734 00639850 81856995
maganty sasikala
No ratings yet
St. Anne'S: Lab Manual
Document115 pages
St. Anne'S: Lab Manual
hemant nandal
No ratings yet
21CSL5
Document4 pages
21CSL5
priyaakanksha393
No ratings yet
CS Final Project - Debasish Khatei
Document23 pages
CS Final Project - Debasish Khatei
RAM CHANDRA
No ratings yet
Speech and Language Processing. Daniel Jurafsky James H. Martin
Document25 pages
Speech and Language Processing. Daniel Jurafsky James H. Martin
Sheila
No ratings yet
Datapipeline DG
Document337 pages
Datapipeline DG
Balakrishna Bala
No ratings yet
DATA SCIENCE Using R Notes
Document116 pages
DATA SCIENCE Using R Notes
32. MANKHUSH KUMAR
No ratings yet
Software Requirement Engineering Lab No. 04: What Is A Context Diagram?
Document7 pages
Software Requirement Engineering Lab No. 04: What Is A Context Diagram?
saba doll
No ratings yet
Sap System Profiles
Document12 pages
Sap System Profiles
preethamsap82
No ratings yet
INDEX Merged
Document24 pages
INDEX Merged
iamrachel003
No ratings yet
Hotel Management by Abbha Jain
Document10 pages
Hotel Management by Abbha Jain
Jay Soni
No ratings yet
Two Scoops of Django 3x - Compress 3
Document50 pages
Two Scoops of Django 3x - Compress 3
Can İsildar
No ratings yet
Three Tier DBMS Architecture
Document8 pages
Three Tier DBMS Architecture
Nikhil Bharadwaj
No ratings yet
Excel Vlookup Champion A Step by Step Complete Course To Master Vlookup Function in Microsoft Excel (Henry E. Mejia)
Document50 pages
Excel Vlookup Champion A Step by Step Complete Course To Master Vlookup Function in Microsoft Excel (Henry E. Mejia)
anil v
No ratings yet
Test: Final Exam Semester 2 - Part I (1-10)
Document14 pages
Test: Final Exam Semester 2 - Part I (1-10)
Lucia Georgiana Vasile
No ratings yet
ISR Lab Manual
Document58 pages
ISR Lab Manual
India's Dancer
No ratings yet
Module5 DMW
Document13 pages
Module5 DMW
Sreenath Sree
No ratings yet
AI Mini Project
Document73 pages
AI Mini Project
Shrutam Jadhav
No ratings yet
9 5G Core 20.X Basic O - M ISSUE 2.00
Document76 pages
9 5G Core 20.X Basic O - M ISSUE 2.00
myosos
No ratings yet