0% found this document useful (0 votes)

101 views16 pages

Pyspark Vs Pandas

Uploaded by

julianalb.berrio

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

101 views16 pages

Pyspark Vs Pandas

Uploaded by

julianalb.berrio

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 16

Data Engineering Fundamentals

Pandas
vs PySpark

Eren Han
Data Engineering Fundamentals
1
LOAD CSV

Pandas PySpark

df = spark.read \
.options(header=True,
df = pd.read_csv('sample.csv')
inferSchema=True) \
.csv('sample.csv')

Eren Han
Data Engineering Fundamentals
2
VIEW DATAFRAME

Pandas PySpark

df df.show()

df.head(10) df.show(10)

Eren Han
Data Engineering Fundamentals
3
CHECK COLUMNS AND DATA TYPES

Pandas PySpark

df.columns df.columns

df.dtypes df.dtypes

Eren Han
Data Engineering Fundamentals
4
RENAME COLUMNS

Pandas PySpark

df.columns = [x, y, z] df.toDF(x, y, z)

df.rename(columns= {"old":"new"}) df.withColumnRenamed("old","new")

Eren Han
Data Engineering Fundamentals
5
DROP COLUMN

Pandas PySpark

df.drop("column", axis=1) df.drop("column")

Eren Han
Data Engineering Fundamentals
6
FILTERING

Pandas PySpark

df[df.column < 80] df[df.column < 80]

df[(df.column < 80) & (df.column2 == 50)] df[(df.column < 80) & (df.column2 == 50)]

Eren Han
Data Engineering Fundamentals
7
ADD COLUMN

Pandas PySpark

df["new"] = 1 / df.column df.withColumn("new", 1 /

df.column)

Note: Division by zero is Note: Division by zero is NULL.

infinite.

Eren Han
Data Engineering Fundamentals
8
FILL NULLS

Pandas PySpark

df.fillna(0) df.fillna(0)

Eren Han
Data Engineering Fundamentals
9
AGGREGATION

Pandas PySpark

df.groupby([date, product]) \ df.groupby([date, product]) \

.agg({"sales":"mean", .agg({"sales":"mean",
"revenue":"max"}) "revenue":"max"})

Eren Han
Data Engineering Fundamentals
10
STANDARD TRANSFORMATIONS

Pandas PySpark

import numpy as np import pysapark.sql.functions as F

df["logcolumn"] = np.log(df.column) df.withColumn("logcolumn",
F.log(df.column)

Eren Han
Data Engineering Fundamentals
11
CONDITIONAL STATEMENTS

Pandas PySpark

df["cond"]= df.apply(lambda x: 1 if import pysapark.sql.functions as F

df.col1>20 else 2 if df.col2==6 else df.withColumn("cond", \
3, axis=1) F.when(df.col1>20,1) \
.when(df.col2==6,2)
.otherwise(3))

Eren Han
Data Engineering Fundamentals
12
MERGE / JOIN DATAFRAMES

Pandas PySpark

df.merge(df2, on="key") df.join(df2, on="key")

df.merge(df2, left_on="a",right_on="b") df.join(df2, df.a == df2.b)

Eren Han
Data Engineering Fundamentals
13
SUMMARY STATISTICS

Pandas PySpark

df.describe() df.describe().show()

Note: Only
count,mean,stddev,min,max.

Eren Han
Data Engineering Fundamentals
14
CHANGE DATA TYPES

Pandas PySpark

from pyspark.sql.types
df['A'] = df['A'].astype(int)
import IntegerType

df = df.withColumn('A',
col('A').cast(IntegerType()))

Eren Han
Data Engineering Fundamentals

Thank You for

reading. I hope
you enjoyed it.

Eren Han

Pandas Handbook
No ratings yet
Pandas Handbook
33 pages
Pyspark Basics
No ratings yet
Pyspark Basics
16 pages
Pyspark Vs Pandas Cheatsheet
No ratings yet
Pyspark Vs Pandas Cheatsheet
3 pages
PYSPARK Interview Questions
100% (3)
PYSPARK Interview Questions
126 pages
Basic Maintenance KPI Metrics
100% (6)
Basic Maintenance KPI Metrics
20 pages
PySpark Data Frame Questions PDF
100% (2)
PySpark Data Frame Questions PDF
57 pages
Design of Thrust Block
100% (2)
Design of Thrust Block
2 pages
Data Engineering 101 PySpark Vs Pandas 1721887961
No ratings yet
Data Engineering 101 PySpark Vs Pandas 1721887961
36 pages
Master Pyspark Zero To Big Data Hero: Day 1 Day 2 Day 3 Day 4 Day 5 Day 6 Day 7 Day 8 Day 9 Day 10
No ratings yet
Master Pyspark Zero To Big Data Hero: Day 1 Day 2 Day 3 Day 4 Day 5 Day 6 Day 7 Day 8 Day 9 Day 10
106 pages
Chapter 3
No ratings yet
Chapter 3
33 pages
PySpark Notes
No ratings yet
PySpark Notes
64 pages
PySpark SQL Pandas CheatSheet
No ratings yet
PySpark SQL Pandas CheatSheet
2 pages
1 - Introduction ToPySpark
No ratings yet
1 - Introduction ToPySpark
26 pages
Pyspark IQ FREE Guide
100% (1)
Pyspark IQ FREE Guide
57 pages
Master PySpark 1-18
No ratings yet
Master PySpark 1-18
59 pages
W04L01 - FA23 - AIC270 - Programming for AI - Syed Ahmed
No ratings yet
W04L01 - FA23 - AIC270 - Programming for AI - Syed Ahmed
66 pages
Working With CSV File in Databricks
No ratings yet
Working With CSV File in Databricks
4 pages
Pandas
No ratings yet
Pandas
36 pages
50 PySpark Interview Questions 1732556477
No ratings yet
50 PySpark Interview Questions 1732556477
7 pages
Py Spark
No ratings yet
Py Spark
9 pages
Pyspark
No ratings yet
Pyspark
10 pages
Deloitte & EY Data Engineer Interview Questions
No ratings yet
Deloitte & EY Data Engineer Interview Questions
26 pages
Day 11 Notes
No ratings yet
Day 11 Notes
3 pages
DevOps Session 3 Pandas
No ratings yet
DevOps Session 3 Pandas
33 pages
4 Data Transformation Using Pandas
No ratings yet
4 Data Transformation Using Pandas
59 pages
Deloitte Data Engineer Interview Experience (0-3 Yoe)
No ratings yet
Deloitte Data Engineer Interview Experience (0-3 Yoe)
22 pages
06 MGMT 590 Fall 2019 Data Handling With Pandas
No ratings yet
06 MGMT 590 Fall 2019 Data Handling With Pandas
14 pages
Slide 10 PySpark - SQL
No ratings yet
Slide 10 PySpark - SQL
131 pages
Pandas Learndatasci
No ratings yet
Pandas Learndatasci
86 pages
Py Spark
No ratings yet
Py Spark
177 pages
Apache Spark
No ratings yet
Apache Spark
5 pages
Panduan Pandas
No ratings yet
Panduan Pandas
33 pages
Deloite Data Engineer Interview Questions
No ratings yet
Deloite Data Engineer Interview Questions
24 pages
Deloitee Data Engineer Interview Questions
No ratings yet
Deloitee Data Engineer Interview Questions
24 pages
DP 203t00a Enu Powerpoint 03
No ratings yet
DP 203t00a Enu Powerpoint 03
25 pages
Learn Python Pandas For Data Science Quick TutorialExamples For All Primary Operations of DataFrames
No ratings yet
Learn Python Pandas For Data Science Quick TutorialExamples For All Primary Operations of DataFrames
37 pages
Pyspark Syntax Using Simple Examples
No ratings yet
Pyspark Syntax Using Simple Examples
28 pages
Spark Lab
No ratings yet
Spark Lab
6 pages
Extract, Transform and Load (ETL)
No ratings yet
Extract, Transform and Load (ETL)
31 pages
FDS Module 2 Notes
No ratings yet
FDS Module 2 Notes
24 pages
Pandas Illustrated The Definitive Visual Guide To Pandas by Lev Maximov Jan, 2023 Better Programming - Semplificato
No ratings yet
Pandas Illustrated The Definitive Visual Guide To Pandas by Lev Maximov Jan, 2023 Better Programming - Semplificato
63 pages
Pandas Notes
No ratings yet
Pandas Notes
6 pages
07 Spark Dataframes
100% (1)
07 Spark Dataframes
45 pages
Pandas - PySpark Equivalents-1
No ratings yet
Pandas - PySpark Equivalents-1
3 pages
Freedium - cfd-PySpark Interview Questions
No ratings yet
Freedium - cfd-PySpark Interview Questions
17 pages
Pandas (Ziad)
No ratings yet
Pandas (Ziad)
38 pages
Data Analysis With Python
No ratings yet
Data Analysis With Python
12 pages
Bda U5
No ratings yet
Bda U5
42 pages
Day11 Notes
No ratings yet
Day11 Notes
2 pages
Pyspark Funcamentals
No ratings yet
Pyspark Funcamentals
10 pages
Fundamental Pyspark Operations 1708364268
No ratings yet
Fundamental Pyspark Operations 1708364268
10 pages
Week 3 Python
No ratings yet
Week 3 Python
152 pages
1 Pandas Basics
No ratings yet
1 Pandas Basics
13 pages
Pandas Illustrated: The Definitive Visual Guide To Pandas - by Lev Maximov - Jan, 2023 - Better Programming
No ratings yet
Pandas Illustrated: The Definitive Visual Guide To Pandas - by Lev Maximov - Jan, 2023 - Better Programming
99 pages
(Big Data Analytics With PySpark) (CheatSheet)
No ratings yet
(Big Data Analytics With PySpark) (CheatSheet)
7 pages
Pandas
No ratings yet
Pandas
41 pages
Tech 3 5 Years Exp Questions
No ratings yet
Tech 3 5 Years Exp Questions
1 page
57 Pandas_
No ratings yet
57 Pandas_
7 pages
Pandas
No ratings yet
Pandas
28 pages
B LSC CD W1 Geiv Yx BAmc EE3 U
No ratings yet
B LSC CD W1 Geiv Yx BAmc EE3 U
166 pages
Computer Engineering Laboratory Solution Primer
From Everand
Computer Engineering Laboratory Solution Primer
Karan Bhandari
No ratings yet
The Essential R Reference
From Everand
The Essential R Reference
Mark Gardener
No ratings yet
EQUIPMENTS
No ratings yet
EQUIPMENTS
8 pages
Experimental Investigation of Tri-Axial Self-Centering Reinforced Concrete Frame Structures Through Shaking Table Tests
No ratings yet
Experimental Investigation of Tri-Axial Self-Centering Reinforced Concrete Frame Structures Through Shaking Table Tests
11 pages
Training tscs20 Xray Screening Refresher Cargo
100% (1)
Training tscs20 Xray Screening Refresher Cargo
2 pages
Jinko Tds 400-420 Tiger Neo 54hl4-b en
No ratings yet
Jinko Tds 400-420 Tiger Neo 54hl4-b en
2 pages
CV Arbaz
No ratings yet
CV Arbaz
2 pages
DFloyd Talk
No ratings yet
DFloyd Talk
32 pages
SpecSheet UW45-65 UniLincTouch
No ratings yet
SpecSheet UW45-65 UniLincTouch
4 pages
Malleable Catalogue 0
No ratings yet
Malleable Catalogue 0
14 pages
LBA Count For Disk Drives Standard LBA1 03
No ratings yet
LBA Count For Disk Drives Standard LBA1 03
3 pages
Temperature & Altitude Effects
No ratings yet
Temperature & Altitude Effects
5 pages
Laser Diode Combi Controller ITC502 (-IEEE) ITC510 (-IEEE) : Operation Manual Thorlabs Instrumentation
No ratings yet
Laser Diode Combi Controller ITC502 (-IEEE) ITC510 (-IEEE) : Operation Manual Thorlabs Instrumentation
123 pages
Worksheet 3 (Simple Programs)
No ratings yet
Worksheet 3 (Simple Programs)
2 pages
Raica: Breaker-Failure Protection
100% (1)
Raica: Breaker-Failure Protection
8 pages
Hands Cope
No ratings yet
Hands Cope
2 pages
Sprocket Forces
No ratings yet
Sprocket Forces
8 pages
ASTM A252: Product Line To Expand Your Possibilities
No ratings yet
ASTM A252: Product Line To Expand Your Possibilities
1 page
TOLCO Fig. 907 - Multi-Angle Attachment
No ratings yet
TOLCO Fig. 907 - Multi-Angle Attachment
1 page
Experiment 3 Lab Report
No ratings yet
Experiment 3 Lab Report
2 pages
Adritz Aqua-Guard Self-Washing Continuous Fine Screen
No ratings yet
Adritz Aqua-Guard Self-Washing Continuous Fine Screen
2 pages
(Lecture Notes in Computer Science 4488) JeongHee Cha, GyeYoung Kim, HyungIl Choi (auth.), Yong Shi, Geert Dick van Albada, Jack Dongarra, Peter M. A. Sloot (eds.)-Computational Science – ICCS 2007_ 7.pdf
No ratings yet
(Lecture Notes in Computer Science 4488) JeongHee Cha, GyeYoung Kim, HyungIl Choi (auth.), Yong Shi, Geert Dick van Albada, Jack Dongarra, Peter M. A. Sloot (eds.)-Computational Science – ICCS 2007_ 7.pdf
1,284 pages
AK5850HS
No ratings yet
AK5850HS
5 pages
RG RM RGH Datasheet
No ratings yet
RG RM RGH Datasheet
3 pages
Nama: Dwi Ainun Fadzilah NIM: 932216417 Language Assessment and Test Development
No ratings yet
Nama: Dwi Ainun Fadzilah NIM: 932216417 Language Assessment and Test Development
27 pages
Anchor Bolt Plan: Notes
No ratings yet
Anchor Bolt Plan: Notes
1 page
2.fuse and Relay
No ratings yet
2.fuse and Relay
23 pages
Enabling Ciphering Indicator in Android
No ratings yet
Enabling Ciphering Indicator in Android
9 pages
Catálogo de Peças - Enerpac P-462 e P-464
No ratings yet
Catálogo de Peças - Enerpac P-462 e P-464
4 pages
(TOTL-WI-16) Determination of Total Nitrogen in Urea
No ratings yet
(TOTL-WI-16) Determination of Total Nitrogen in Urea
8 pages

Pyspark Vs Pandas

Uploaded by

Pyspark Vs Pandas

Uploaded by

Data Engineering Fundamentals

df.columns = [x, y, z] df.toDF(x, y, z)

df.rename(columns= {"old":"new"}) df.withColumnRenamed("old","new")

df.drop("column", axis=1) df.drop("column")

df[df.column < 80] df[df.column < 80]

df["new"] = 1 / df.column df.withColumn("new", 1 /

Note: Division by zero is Note: Division by zero is NULL.

df.groupby([date, product]) \ df.groupby([date, product]) \

import numpy as np import pysapark.sql.functions as F

df["cond"]= df.apply(lambda x: 1 if import pysapark.sql.functions as F

df.merge(df2, on="key") df.join(df2, on="key")

df.merge(df2, left_on="a",right_on="b") df.join(df2, df.a == df2.b)

Thank You for

You might also like