0% found this document useful (0 votes)

22 views16 pages

Essential Python

The document outlines essential Python skills for data scientists, emphasizing the importance of Python in data science jobs. It covers key topics including Python fundamentals, data manipulation with libraries like Numpy and Pandas, exploratory data analysis, data visualization, and basics of machine learning. Each section includes practical exercises to test skills using datasets from Kaggle.

Uploaded by

harisamser27

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

22 views16 pages

Essential Python

Uploaded by

harisamser27

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 16

Essential

Python for
Data Scientists
A step-by-step roadmap

Dawn Choo
Did you know 92% of
Data Science jobs
require Python?
Here are essential
Python skills for
Data Scientists
1 Learn Python fundamentals
Key concepts

Variables and data types

type()
int(), float(), str()
list(), dict()

Control structures
if, elif, else
for loop
while loop
range()

Functions
def
return
args

List comprehensions
[expression for item in iterable if condition]
1 Learn Python fundamentals
Test your skills

Exercise 1

Implement a function to generate random

even numbers.

Exercise 2

Create a list comprehension to extract

vowels from a given string.

Exercise 3

Write a function that uses a loop to

calculate the factorial of a number.
2 Data Manipulation
Key concepts

Libraries: Numpy (np) & Pandas (pd)

Working with arrays

np.array()
np.reshape()
np.concatenate()

DataFrame operations
pd.DataFrame()
df.head(), df.tail()
df.info(), df.describe()

Data selection and filtering

df.loc[], df.iloc[]
Boolean indexing
df.query()
2 Data Manipulation
Key concepts

Libraries: Numpy (np) & Pandas (pd)

Data cleaning
df.dropna(), df.fillna()
df.drop_duplicates()
df.replace()

Merging and reshaping data

pd.merge()
df.pivot()
df.melt()

Grouping and aggregation

df.groupby()
df.agg()
2 Data Manipulation
Test your skills
For these exercises, use any dataset you like on Kaggle.

Exercise 1

Handle missing values and remove

duplicates in a customer dataset.

Exercise 2

Combine multiple related datasets using a

common key, then calculate summary
statistics for each group.

Exercise 3

Transform a dataset from wide format to

long format, creating new 'variable' and
'value' columns.
3 Exploratory Data Analysis
Key concepts

Libraries: Pandas (pd), Matplotlib (plt) & SciPy

Descriptive statistics
df.mean(), df.median(), df.mode()
df.std(), df.var()
df.min(), df.max(), df.quantile()

Data distribution
df.hist()
plt.hist()
scipy.stats.normaltest()

Correlation analysis
df.corr()
plt.imshow() (for heatmaps)
scipy.stats.pearsonr()
3 Exploratory Data Analysis
Key concepts

Libraries: Pandas (pd), Matplotlib (plt) & SciPy

Outlier detection
plt.boxplot()
scipy.stats.zscore()
IQR method using numpy percentile

Time series analysis basics

df.resample()
df.rolling()
Plotting with plt.plot()

Basic hypothesis testing

scipy.stats.ttest_ind()
scipy.stats.chi2_contingency()
3 Exploratory Data Analysis
Test your skills
For these exercises, use any dataset you like on Kaggle.

Exercise 1

Calculate and visualize basic descriptive

statistics for numerical columns in the
dataset.

Exercise 2

Analyze the distribution of key variables

using histograms and test for normality.

Exercise 3

Identify and visualize correlations between

variables, highlighting strong relationships.
4 Data Visualization
Key concepts

Libraries: Matplotlib (plt) & Pandas

Basic plotting
plt.plot() (line plots)
plt.scatter() (scatter plots)
plt.bar() (bar charts)

Histograms and density plots

plt.hist()
plt.kde()

Box plots
plt.boxplot()

Subplots and multiple charts

plt.subplots()
fig.add_subplot()

Customizing plots
plt.xlabel(), plt.ylabel(), plt.title()
plt.xscale(), plt.yscale()
plt.legend()
4 Data Visualization
Test your skills
For these exercises, use any dataset you like on Kaggle.

Exercise 1

Compare the distributions of several

numerical variables using box plots and
histograms.

Exercise 2

Visualize the relationship between two

continuous variables with a scatter plot,
adding a trend line and confidence
interval.

Exercise 3

Design a stacked bar chart to show the

composition of categories across
different groups in the dataset.
5 Machine learning basics
Key concepts

Libraries: Scikit-learn (sklearn)

Model training and evaluation

sklearn.model_selection.train_test_split()
sklearn.base.BaseEstimator.fit(),
sklearn.base.BaseEstimator.predict()
sklearn.model_selection.cross_val_score()

Regression models
sklearn.linear_model.LinearRegression()
sklearn.metrics.mean_squared_error()
sklearn.metrics.r2_score()

Classification models
sklearn.linear_model.LogisticRegression()
sklearn.metrics.accuracy_score()
sklearn.metrics.confusion_matrix()

Clustering
sklearn.cluster.KMeans()
sklearn.metrics.silhouette_score()
5 Machine learning basics
Test your skills
For these exercises, use any dataset you like on Kaggle.

Exercise 1
Split the dataset into training and test
sets, then build and evaluate a linear
regression model to predict a continuous
target variable.

Exercise 2
Implement a logistic regression classifier,
use cross-validation to assess its
performance, and interpret the model
coefficients.

Exercise 3
Perform k-means clustering on the
dataset, determine the optimal number of
clusters, and visualize the results.
Have any questions?
Share them in the comments below!
Found this
useful?
Save it
Follow me
Repost it Dawn Choo

Python Cheat Sheet 2.0
100% (1)
Python Cheat Sheet 2.0
10 pages
Prescriptive, Descriptive, Formal, Functional, & Pedagogical Grammar
0% (1)
Prescriptive, Descriptive, Formal, Functional, & Pedagogical Grammar
4 pages
1740468137329
No ratings yet
1740468137329
16 pages
Syllabus AIML
No ratings yet
Syllabus AIML
14 pages
Datascience
No ratings yet
Datascience
8 pages
Course - Introduction To Data Science (SD211105)
No ratings yet
Course - Introduction To Data Science (SD211105)
10 pages
DS Final
No ratings yet
DS Final
46 pages
Data Science
No ratings yet
Data Science
18 pages
Python Practice Questions
No ratings yet
Python Practice Questions
5 pages
DS-DS Lab-1
No ratings yet
DS-DS Lab-1
4 pages
DAL EXT 1 and 2
No ratings yet
DAL EXT 1 and 2
125 pages
Exp 1
No ratings yet
Exp 1
5 pages
Teks DATA SCIENCE Syllabus - QR
No ratings yet
Teks DATA SCIENCE Syllabus - QR
26 pages
Data Analysis Lab - Final - 23-24
No ratings yet
Data Analysis Lab - Final - 23-24
11 pages
Some Exercises
No ratings yet
Some Exercises
9 pages
L6 and 7-Data Preprocessing-Coding
No ratings yet
L6 and 7-Data Preprocessing-Coding
34 pages
Python Data Analyst Handbook Guide - Byom - Cybertechie
No ratings yet
Python Data Analyst Handbook Guide - Byom - Cybertechie
57 pages
Python in Research
No ratings yet
Python in Research
18 pages
Final Dev Record
No ratings yet
Final Dev Record
49 pages
ML Lab Manual With Statistical Formulas
No ratings yet
ML Lab Manual With Statistical Formulas
9 pages
IDS Syllabus
No ratings yet
IDS Syllabus
5 pages
Ids 1
No ratings yet
Ids 1
30 pages
Pert Q Python
No ratings yet
Pert Q Python
3 pages
Data Science
No ratings yet
Data Science
42 pages
ML (Sudhanshu)
No ratings yet
ML (Sudhanshu)
24 pages
Module 1.Foundations of Data Science
No ratings yet
Module 1.Foundations of Data Science
17 pages
Learneverythingai
No ratings yet
Learneverythingai
9 pages
Sarkar, DR Tirthajyoti - Roychowdhury, Shubhadeep - Data Wrangling With Python - Creating Actionable Data From Raw Sources-Packt Publishing (2019)
No ratings yet
Sarkar, DR Tirthajyoti - Roychowdhury, Shubhadeep - Data Wrangling With Python - Creating Actionable Data From Raw Sources-Packt Publishing (2019)
538 pages
Index: SR. NO. Practical Name Date of Perform NO. Sign
No ratings yet
Index: SR. NO. Practical Name Date of Perform NO. Sign
28 pages
DAV Guidelines
No ratings yet
DAV Guidelines
4 pages
Foundation of Data Science Lab Manual Full
No ratings yet
Foundation of Data Science Lab Manual Full
8 pages
Machine Learning Lab Word 12-1-2025. Document
No ratings yet
Machine Learning Lab Word 12-1-2025. Document
68 pages
Even Students
No ratings yet
Even Students
36 pages
Edap Lab
No ratings yet
Edap Lab
47 pages
DA Question Bank
No ratings yet
DA Question Bank
4 pages
Data Analytics Lab Manual Final1
No ratings yet
Data Analytics Lab Manual Final1
32 pages
FDS Record-1-4
No ratings yet
FDS Record-1-4
18 pages
Data - Science - Manaul (Te)
No ratings yet
Data - Science - Manaul (Te)
78 pages
01 Introduction To Python
No ratings yet
01 Introduction To Python
36 pages
04 DS 2023
No ratings yet
04 DS 2023
63 pages
Python For Data Exploration
No ratings yet
Python For Data Exploration
28 pages
DVA Lab Manual
No ratings yet
DVA Lab Manual
20 pages
Microsoft Ai Automate
No ratings yet
Microsoft Ai Automate
259 pages
Data Science Workshop - Day 1
No ratings yet
Data Science Workshop - Day 1
80 pages
CO-367 Machine Learning Lab File: Submitted To: Submitted by
No ratings yet
CO-367 Machine Learning Lab File: Submitted To: Submitted by
12 pages
Fds Merged
No ratings yet
Fds Merged
102 pages
ML Programs
No ratings yet
ML Programs
41 pages
Fdsa Lab Manual Final
No ratings yet
Fdsa Lab Manual Final
70 pages
Python Course Outline
No ratings yet
Python Course Outline
24 pages
Practical Assignment4 1
No ratings yet
Practical Assignment4 1
6 pages
Python For Machine Learning
No ratings yet
Python For Machine Learning
66 pages
DSBDAlab Manual
No ratings yet
DSBDAlab Manual
116 pages
Bca212 Ids 2023
No ratings yet
Bca212 Ids 2023
3 pages
Python Practical Questions@Subas
No ratings yet
Python Practical Questions@Subas
7 pages
ML Lab Manual
No ratings yet
ML Lab Manual
28 pages
01 Introduction To Python
No ratings yet
01 Introduction To Python
36 pages
DATASCIENCE
No ratings yet
DATASCIENCE
3 pages
CSE445 NSU Week - 3
No ratings yet
CSE445 NSU Week - 3
48 pages
DSBDA Lab Plan
No ratings yet
DSBDA Lab Plan
5 pages
Mastering Data Structures and Algorithms in Python & Java
From Everand
Mastering Data Structures and Algorithms in Python & Java
Sachin Naha
No ratings yet
DATA MINING and MACHINE LEARNING: CLUSTER ANALYSIS and kNN CLASSIFIERS. Examples with MATLAB
From Everand
DATA MINING and MACHINE LEARNING: CLUSTER ANALYSIS and kNN CLASSIFIERS. Examples with MATLAB
César Pérez López
No ratings yet
MS 126 Calculus II Exam I Fall 2024
No ratings yet
MS 126 Calculus II Exam I Fall 2024
2 pages
Single Women Report
No ratings yet
Single Women Report
198 pages
Quant Roadmap
No ratings yet
Quant Roadmap
3 pages
Homework 1 - Propositional Logic
No ratings yet
Homework 1 - Propositional Logic
3 pages
Exceptions
No ratings yet
Exceptions
11 pages
Homework 3
No ratings yet
Homework 3
2 pages
Functions and Scope
No ratings yet
Functions and Scope
14 pages
Control Structures
No ratings yet
Control Structures
15 pages
File IO
No ratings yet
File IO
9 pages
Basic OOP
No ratings yet
Basic OOP
13 pages
Ashish Jaiswal Resume
No ratings yet
Ashish Jaiswal Resume
1 page
Panda Practice Test 6 Math Explanation (Mr. Amr Mustafa)
No ratings yet
Panda Practice Test 6 Math Explanation (Mr. Amr Mustafa)
17 pages
Heritage of Words
No ratings yet
Heritage of Words
64 pages
Jarman LightCameon 2005
No ratings yet
Jarman LightCameon 2005
7 pages
Charles Dickens Teacher
No ratings yet
Charles Dickens Teacher
9 pages
Abstract Logical Reasoning Reviewer
No ratings yet
Abstract Logical Reasoning Reviewer
5 pages
11.-Sinif-Ingilizce-3.-Unite-Gramer-Konu-Ozeti-Konu-Anlatim-Notlari 2
No ratings yet
11.-Sinif-Ingilizce-3.-Unite-Gramer-Konu-Ozeti-Konu-Anlatim-Notlari 2
2 pages
Method Two: Using The Page Source Code: Lorem Ipsum Generator
No ratings yet
Method Two: Using The Page Source Code: Lorem Ipsum Generator
11 pages
Lesson Plan - Where Were You at
No ratings yet
Lesson Plan - Where Were You at
6 pages
Research Paper Memes - As - Digital - Folk - Tales
No ratings yet
Research Paper Memes - As - Digital - Folk - Tales
9 pages
Getting Started With CREATE PLUS
No ratings yet
Getting Started With CREATE PLUS
3 pages
The Victorian Poetry
No ratings yet
The Victorian Poetry
7 pages
11-Transmission Line Matrix
No ratings yet
11-Transmission Line Matrix
4 pages
HandsOn Solutions
No ratings yet
HandsOn Solutions
41 pages
Tutorial Letter 302/4/2024: Presenting Assignment Answers and Referencing
No ratings yet
Tutorial Letter 302/4/2024: Presenting Assignment Answers and Referencing
46 pages
LEA 6 - CFLM 2 N-P-FaHCotP
No ratings yet
LEA 6 - CFLM 2 N-P-FaHCotP
128 pages
DFDFD
No ratings yet
DFDFD
4 pages
Ansys Vs NX Nastran
No ratings yet
Ansys Vs NX Nastran
22 pages
BCM and O Webcast - Questions - and - Answers PDF
No ratings yet
BCM and O Webcast - Questions - and - Answers PDF
12 pages
Instruction Manual 862 Interface-Thermo-Element
100% (1)
Instruction Manual 862 Interface-Thermo-Element
16 pages
Wordly Wise Grade K Kenneth Hodkinson full chapters instanly
No ratings yet
Wordly Wise Grade K Kenneth Hodkinson full chapters instanly
108 pages
Difference Between BART and BERT
No ratings yet
Difference Between BART and BERT
2 pages
Cambridge Checkpoint Science Student's Book 1 Riley Peter Download
100% (2)
Cambridge Checkpoint Science Student's Book 1 Riley Peter Download
31 pages
PHYS235 Cheat Sheet 3
No ratings yet
PHYS235 Cheat Sheet 3
5 pages
Greetings and Introductions Worksheet
100% (3)
Greetings and Introductions Worksheet
2 pages
How Does A Teacher Become A Facilitator of Learning
No ratings yet
How Does A Teacher Become A Facilitator of Learning
32 pages
Is 621
No ratings yet
Is 621
8 pages
REVIEW G Pratico and M V Van Pelt Basics
No ratings yet
REVIEW G Pratico and M V Van Pelt Basics
1 page
CAD, Mechatronics
No ratings yet
CAD, Mechatronics
168 pages
b1 Reading Lesson World Migratory Bird Day - 157285
No ratings yet
b1 Reading Lesson World Migratory Bird Day - 157285
17 pages
Configuring Allen Bradley RSLinx and RSLogix For Use With The PLC Trainer
No ratings yet
Configuring Allen Bradley RSLinx and RSLogix For Use With The PLC Trainer
7 pages
Ideophones, Mimetics and Expressives - (2019)
100% (2)
Ideophones, Mimetics and Expressives - (2019)
337 pages
RELIGION STUDIES P1 GR12 QP SEPT 2023 - English
No ratings yet
RELIGION STUDIES P1 GR12 QP SEPT 2023 - English
16 pages

Essential Python

Uploaded by

Essential Python

Uploaded by

Essential

Variables and data types

Implement a function to generate random

Create a list comprehension to extract

Write a function that uses a loop to

Libraries: Numpy (np) & Pandas (pd)

Working with arrays

Data selection and filtering

Libraries: Numpy (np) & Pandas (pd)

Merging and reshaping data

Grouping and aggregation

Handle missing values and remove

Combine multiple related datasets using a

Transform a dataset from wide format to

Libraries: Pandas (pd), Matplotlib (plt) & SciPy

Libraries: Pandas (pd), Matplotlib (plt) & SciPy

Time series analysis basics

Basic hypothesis testing

Calculate and visualize basic descriptive

Analyze the distribution of key variables

Identify and visualize correlations between

Libraries: Matplotlib (plt) & Pandas

Histograms and density plots

Subplots and multiple charts

Compare the distributions of several

Visualize the relationship between two

Design a stacked bar chart to show the

Libraries: Scikit-learn (sklearn)

Model training and evaluation

You might also like