Data Cleaning in Python

The document provides a comprehensive guide on data cleaning using Python, particularly with the `pandas` library. It covers essential tasks such as handling missing data, removing duplicates, standardizing formats, correcting invalid data, and saving cleaned data. Each task includes Python code snippets for practical implementation.

Uploaded by

christianamboulou26

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

6 views14 pages

Data Cleaning in Python

Uploaded by

christianamboulou26

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 14

DATA CLEANING IN

PYTHON
Working with Python made easier
Introduction

• Data cleaning is a vital step in data analysis, and Python, with libraries
like `pandas`, offers powerful tools for this process. Below is a guide to
common data cleaning tasks using Python:
1. Import Libraries and Load Data

• Python code
• import pandas as pd
• import numpy as np
•
• # Load data
• df = pd.read_csv('data.csv') # Replace with your dataset path
2. Handle Missing Data

Identify Missing Values: Fill Missing Values: Drop Missing Values:

Python Code Python code Python code
print(df.isnull().sum()) df['column_name'].fillna('Default df.dropna(inplace=True) # Drop
# Count missing values per Value', inplace=True) rows with missing values
column # Fill with a default value df.dropna(axis=1, inplace=True)
print(df[df.isnull().any(axis=1)]) df['column_name'].fillna(df['colu # Drop columns with missing
# Display rows with missing mn_name'].mean(), values
values inplace=True)
# Fill with mean
3. Remove Duplicates

• Python code
• df.drop_duplicates(inplace=True) # Remove duplicate rows
4. Standardize Data Formats

Trim Whitespace: Change Case: Format Dates:

Python code Python code Python code
df['column_name'] = df['column_name'] = df['date_column'] =
df['column_name'].str.strip() df['column_name'].str.lower() # pd.to_datetime(df['date_column'
Convert to lowercase ], format='%Y%m%d')
5. Correct Invalid Data

Replace Invalid Values: Remove Outliers:

Python code Python code
df['column_name'] = # Using ZScore
df['column_name'].replace(['Invalid Value'], 'Valid from scipy.stats import zscore
Value') df = df[(np.abs(zscore(df['numeric_column'])) < 3)]
6. Handle Inconsistent Data

Unify Categories: Split and Combine Columns:

Python code Python code
df['category_column'] = # Split a column
df['category_column'].replace({ df[['first_name', 'last_name']] =
'Variation1': 'Standardized Value', df['full_name'].str.split(' ', expand=True)
'Variation2': 'Standardized Value'
}) # Combine columns
df['full_name'] = df['first_name'] + ' ' +
df['last_name']
7. Drop Unnecessary Columns or Rows

Drop Columns: Drop Rows:

Python code Python code
df.drop(['unnecessary_column'], axis=1, df = df[df['column_name'] != 'Unwanted Value']
inplace=True)
8. Validate and Clean Data Types

Convert Data Types: Check for Invalid Types:

Python code Python code
df['numeric_column'] = print(df.dtypes)
pd.to_numeric(df['numeric_column'],
errors='coerce') # Coerce invalid values to NaN
df['string_column'] =
df['string_column'].astype(str)
9. Handle Outliers

• Using IQR:
• Python code
• Q1 = df['numeric_column'].quantile(0.25)
• Q3 = df['numeric_column'].quantile(0.75)
• IQR = Q3 Q1
• df = df[(df['numeric_column'] >= Q1 1.5 IQR) & (df['numeric_column'] <= Q3 + 1.5
IQR)]
10. Save Cleaned Data

• Python code
• df.to_csv('cleaned_data.csv', index=False) # Save cleaned data to a new file
Example Workflow
# Full Example # Identify and # Remove # Standardize # Handle # Save the
fill missing duplicates case outliers cleaned data
values
df = df['age'].fillna(df[ df.drop_duplicat df['name'] = Q1 = df.to_csv('cleane
pd.read_csv('dat 'age'].mean(), es(inplace=True) df['name'].str.lo df['income'].qua d_data.csv',
a.csv') inplace=True) wer() ntile(0.25) index=False)
Q3 =
df['income'].qua
ntile(0.75)
IQR = Q3 Q1
df =
df[(df['income']
>= Q1 1.5 IQR) &
(df['income'] <=
Q3 + 1.5 IQR)]
Conclusion

• These Python tools ensure clean, structured, and consistent data for
analysis.

Data Cleaning - Cheatsheet
100% (2)
Data Cleaning - Cheatsheet
8 pages
Deck Strength Calculation Report
100% (3)
Deck Strength Calculation Report
10 pages
Manual - PTi 1000 DH - A5 - v1.9 7.2017
0% (1)
Manual - PTi 1000 DH - A5 - v1.9 7.2017
20 pages
Statistical Transform Data Cleaning
No ratings yet
Statistical Transform Data Cleaning
30 pages
Reading 5 - Data Preparation
No ratings yet
Reading 5 - Data Preparation
23 pages
Data Cleaning and Preparation
No ratings yet
Data Cleaning and Preparation
9 pages
Data Cleaning
No ratings yet
Data Cleaning
20 pages
Pandas 1
No ratings yet
Pandas 1
13 pages
Python (Unit - 2)
No ratings yet
Python (Unit - 2)
22 pages
Lesson 3. Data Preparation and Structuring 1 Data Cleaning
No ratings yet
Lesson 3. Data Preparation and Structuring 1 Data Cleaning
36 pages
Data Exploration Preparation
No ratings yet
Data Exploration Preparation
12 pages
Module 3
No ratings yet
Module 3
20 pages
Core of ML - Part 1 Handling Data
No ratings yet
Core of ML - Part 1 Handling Data
3 pages
Unit 4 - Working With Graphs - Python
No ratings yet
Unit 4 - Working With Graphs - Python
49 pages
6.data Cleaning
No ratings yet
6.data Cleaning
20 pages
Day 10 Pandasdatacleaning
No ratings yet
Day 10 Pandasdatacleaning
6 pages
Data Cleaning & Preparation
100% (2)
Data Cleaning & Preparation
2 pages
DAP Writeups - Merged
No ratings yet
DAP Writeups - Merged
33 pages
Pandas Data Cleaning Presentation
No ratings yet
Pandas Data Cleaning Presentation
11 pages
Overview of Data Cleaning
No ratings yet
Overview of Data Cleaning
17 pages
IntroToPython Unit 5
No ratings yet
IntroToPython Unit 5
42 pages
Code Explanation For Date Types
No ratings yet
Code Explanation For Date Types
8 pages
Master Data Cleaning With Python
No ratings yet
Master Data Cleaning With Python
11 pages
Data Cleaning
No ratings yet
Data Cleaning
28 pages
Prac 7
No ratings yet
Prac 7
5 pages
What Is Data Cleaning
No ratings yet
What Is Data Cleaning
8 pages
Data Cleaningin ML
No ratings yet
Data Cleaningin ML
15 pages
Deep Learning Ram
No ratings yet
Deep Learning Ram
21 pages
Python Basics Refresher
No ratings yet
Python Basics Refresher
19 pages
Document
No ratings yet
Document
29 pages
DS Lec 6
No ratings yet
DS Lec 6
27 pages
Data Manipulation in Python Using Pandas
No ratings yet
Data Manipulation in Python Using Pandas
12 pages
S08 Slides
No ratings yet
S08 Slides
14 pages
Universal Data Analytics Algorithm
No ratings yet
Universal Data Analytics Algorithm
51 pages
Cleaning Data in Python: Pu!ing It All Together
No ratings yet
Cleaning Data in Python: Pu!ing It All Together
14 pages
Pandas
No ratings yet
Pandas
30 pages
Data Cleaning and Preprocessing
No ratings yet
Data Cleaning and Preprocessing
4 pages
Data Cleaning
No ratings yet
Data Cleaning
13 pages
Week 6 - Data Cleaning
No ratings yet
Week 6 - Data Cleaning
8 pages
Part A Assignment 6
No ratings yet
Part A Assignment 6
28 pages
ch4 Slides PDF
No ratings yet
ch4 Slides PDF
44 pages
Data Cleaning
No ratings yet
Data Cleaning
42 pages
Pandas Cheat Sheet Final
No ratings yet
Pandas Cheat Sheet Final
1 page
Pandas For Python Pro Level Cheat Sheet
No ratings yet
Pandas For Python Pro Level Cheat Sheet
14 pages
DAP 3 Module
No ratings yet
DAP 3 Module
62 pages
Introduction To Pandas Programming 2
No ratings yet
Introduction To Pandas Programming 2
3 pages
Lec 4
No ratings yet
Lec 4
9 pages
DA Cheat Codes
No ratings yet
DA Cheat Codes
2 pages
String (Pandas) - Removing $ After Int Sales ( Revenue') Sales ( Revenue') .STR - Strip ( $') #Convert String To Int
No ratings yet
String (Pandas) - Removing $ After Int Sales ( Revenue') Sales ( Revenue') .STR - Strip ( $') #Convert String To Int
12 pages
Lab 1 ML Lab
No ratings yet
Lab 1 ML Lab
15 pages
Pandas Cheat Sheet
No ratings yet
Pandas Cheat Sheet
5 pages
PDS Exp 7 To 9
No ratings yet
PDS Exp 7 To 9
10 pages
Data Cleaning With Python and Pandas
No ratings yet
Data Cleaning With Python and Pandas
49 pages
Pandas Syntax Revision For ML
No ratings yet
Pandas Syntax Revision For ML
10 pages
Content Pandas Cheat Sheet
No ratings yet
Content Pandas Cheat Sheet
9 pages
Dataframing in CSV
No ratings yet
Dataframing in CSV
14 pages
Lab 3 DWM
No ratings yet
Lab 3 DWM
5 pages
Lecture 4 Data Pre-Processing
No ratings yet
Lecture 4 Data Pre-Processing
43 pages
Unit 5 Python
No ratings yet
Unit 5 Python
30 pages
Unit V
No ratings yet
Unit V
47 pages
ĐỀ SỐ 4 2023
No ratings yet
ĐỀ SỐ 4 2023
5 pages
Drawing Tool App in VanillaJS With Source Code - SourceCodester
No ratings yet
Drawing Tool App in VanillaJS With Source Code - SourceCodester
11 pages
Instrumental
No ratings yet
Instrumental
40 pages
FSFB Acct STMT Xxxx6544 From 07may25 To 13may25 (1) Unlocked
No ratings yet
FSFB Acct STMT Xxxx6544 From 07may25 To 13may25 (1) Unlocked
1 page
Das Scco 20250303 0914 PKW221171 WDD2211711A360400 W221171
No ratings yet
Das Scco 20250303 0914 PKW221171 WDD2211711A360400 W221171
12 pages
Belt Conveyors - RBL
No ratings yet
Belt Conveyors - RBL
141 pages
Baker 2 Phase Flow
No ratings yet
Baker 2 Phase Flow
2 pages
Resume-Template-for-UI-or-UX-Designer pdf versin
No ratings yet
Resume-Template-for-UI-or-UX-Designer pdf versin
1 page
AS 2818-1993 Guide To Swimming Pool Safety PDF
No ratings yet
AS 2818-1993 Guide To Swimming Pool Safety PDF
8 pages
Factors Influencing The Uptake of Cervical Cancer Screening Services Among Women Attending Gynecological OPD at KIUTH, Ishaka-Bushenyi, South Western Uganda
No ratings yet
Factors Influencing The Uptake of Cervical Cancer Screening Services Among Women Attending Gynecological OPD at KIUTH, Ishaka-Bushenyi, South Western Uganda
12 pages
Elec 4 Synchronous Genrators PPT 2
No ratings yet
Elec 4 Synchronous Genrators PPT 2
37 pages
Capital Improvement Budget MNPS Jan 2023
No ratings yet
Capital Improvement Budget MNPS Jan 2023
12 pages
Policy
No ratings yet
Policy
5 pages
Forensic Biotechnology: BIOT-3123
100% (4)
Forensic Biotechnology: BIOT-3123
54 pages
Candidate Declarationform: Instructions: Please Provide All The Information Requested in This Form. Incomplete Candidate
No ratings yet
Candidate Declarationform: Instructions: Please Provide All The Information Requested in This Form. Incomplete Candidate
4 pages
Public Notice / Caution Against Fraudulent Communication by Unscrupulous Elements Regarding "Recruitment Offers" in RINL
No ratings yet
Public Notice / Caution Against Fraudulent Communication by Unscrupulous Elements Regarding "Recruitment Offers" in RINL
1 page
AUDIT Acc 300
No ratings yet
AUDIT Acc 300
16 pages
Business Analytics, Volume II - A Data Driven Decision Making Approach For Business
100% (3)
Business Analytics, Volume II - A Data Driven Decision Making Approach For Business
421 pages
Company Law - Allan Muhome
No ratings yet
Company Law - Allan Muhome
159 pages
Alaska Timeline
No ratings yet
Alaska Timeline
42 pages
A Glimpse Into Chinese History
No ratings yet
A Glimpse Into Chinese History
2 pages
Progress ITER Physics Basis Chapter 3 2007
No ratings yet
Progress ITER Physics Basis Chapter 3 2007
76 pages
Fit To Be Tied
100% (2)
Fit To Be Tied
1 page
Dual-Frequency Proximity and Contactless Readers For Identifi Cation and Enrollment
No ratings yet
Dual-Frequency Proximity and Contactless Readers For Identifi Cation and Enrollment
2 pages
Exemple de Sujet de Dissertation Sur Le Romantisme
100% (1)
Exemple de Sujet de Dissertation Sur Le Romantisme
5 pages
High Performance Quantum Computing: Research Paper
No ratings yet
High Performance Quantum Computing: Research Paper
7 pages
Management Theory
No ratings yet
Management Theory
20 pages
The Persistence of Hollywood Thomas Elsasser PDF Download
100% (1)
The Persistence of Hollywood Thomas Elsasser PDF Download
37 pages

Data Cleaning in Python

Uploaded by

Data Cleaning in Python

Uploaded by

DATA CLEANING IN

Identify Missing Values: Fill Missing Values: Drop Missing Values:

Trim Whitespace: Change Case: Format Dates:

Replace Invalid Values: Remove Outliers:

Unify Categories: Split and Combine Columns:

Drop Columns: Drop Rows:

Convert Data Types: Check for Invalid Types:

You might also like