0% found this document useful (0 votes)

17 views6 pages

Pyspark SQL and DataFrames

This document is a comprehensive cheatsheet for PySpark SQL and DataFrames, covering various methods to create DataFrames from different data sources, perform operations like filtering, sorting, and aggregating data, and execute joins and set operations. It also includes detailed sections on window functions, array and map functions, date and timestamp functions, and miscellaneous functions. Each section provides concise code snippets for practical use in data processing tasks.

Uploaded by

vamsitarak55

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

17 views6 pages

Pyspark SQL and DataFrames

Uploaded by

vamsitarak55

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 6

# [ PySpark SQL and DataFrames ] [ cheatsheet ]

1. Creating DataFrames

● Create DataFrame from RDD: df = spark.createDataFrame(rdd)

● Create DataFrame from list: df = spark.createDataFrame([(1, "John"), (2,
"Jane"), (3, "Bob")])
● Create DataFrame from CSV: df = spark.read.csv("path/to/file.csv",
header=True, inferSchema=True)
● Create DataFrame from JSON: df = spark.read.json("path/to/file.json")
● Create DataFrame from Parquet: df =
spark.read.parquet("path/to/file.parquet")
● Create DataFrame from Avro: df =
spark.read.format("avro").load("path/to/file.avro")
● Create DataFrame from ORC: df = spark.read.orc("path/to/file.orc")
● Create DataFrame from JDBC: df = spark.read.format("jdbc").option("url",
"jdbc:postgresql:dbserver").option("dbtable",
"schema.tablename").option("user", "username").option("password",
"password").load()
● Create empty DataFrame with schema: schema =
StructType([StructField("id", IntegerType()), StructField("name",
StringType())]); df = spark.createDataFrame([], schema)

2. DataFrame Operations

● Show DataFrame: df.show()

● Show DataFrame with truncated columns: df.show(truncate=False)
● Show DataFrame with limited rows: df.show(n=10)
● Print DataFrame schema: df.printSchema()
● Select columns: df.select("column1", "column2")
● Select columns with aliases: df.select(col("column1").alias("col1"),
col("column2").alias("col2"))
● Filter rows: df.filter(col("age") > 18)
● Filter rows with multiple conditions: df.filter((col("age") > 18) &
(col("gender") == "M"))
● Filter rows with SQL expression: df.filter("age > 18 AND gender = 'M'")
● Filter rows with NULL values: df.filter(col("column").isNull())
● Filter rows with NOT NULL values: df.filter(col("column").isNotNull())
● Filter rows with IN clause: df.filter(col("column").isin(1, 2, 3))

By: Waleed Mousa

● Filter rows with LIKE clause: df.filter(col("name").like("J%"))
● Filter rows with RLIKE clause: df.filter(col("name").rlike("J.*"))
● Filter rows with BETWEEN clause: df.filter(col("age").between(18, 30))
● Distinct values: df.distinct()
● Distinct values of specific columns: df.dropDuplicates(["column1",
"column2"])
● Sort by column: df.sort("column")
● Sort by multiple columns: df.sort("column1", "column2")
● Sort by column in descending order: df.sort(col("column").desc())
● Group by column: df.groupBy("column")
● Group by multiple columns: df.groupBy("column1", "column2")
● Aggregations (count, sum, avg, min, max):
df.groupBy("column").agg(count("*").alias("count"),
sum("value").alias("sum"), avg("value").alias("avg"),
min("value").alias("min"), max("value").alias("max"))
● Pivot table: df.groupBy("column1").pivot("column2").agg(count("*"))
● Unpivot table: df.select("column1", expr("stack(3, 'column2', column2,
'column3', column3, 'column4', column4) as (key, value)")).where("value
is not null")
● Window functions (rank, dense_rank, percent_rank, row_number): from
pyspark.sql.window import Window; window =
Window.partitionBy("column1").orderBy("column2"); df.withColumn("rank",
rank().over(window))
● Lag and lead functions: from pyspark.sql.window import Window; window =
Window.partitionBy("column1").orderBy("column2"); df.withColumn("lag",
lag("value", 1).over(window)).withColumn("lead", lead("value",
1).over(window))
● Cumulative sum: from pyspark.sql.window import Window; window =
Window.partitionBy("column1").orderBy("column2");
df.withColumn("cumulative_sum", sum("value").over(window))
● Cumulative max: from pyspark.sql.window import Window; window =
Window.partitionBy("column1").orderBy("column2");
df.withColumn("cumulative_max", max("value").over(window))

3. DataFrame Joins

● Inner join: df1.join(df2, on="key", how="inner")

● Left outer join: df1.join(df2, on="key", how="left")
● Right outer join: df1.join(df2, on="key", how="right")
● Full outer join: df1.join(df2, on="key", how="full")
● Left semi join: df1.join(df2, on="key", how="leftsemi")

By: Waleed Mousa

● Left anti join: df1.join(df2, on="key", how="leftanti")
● Cross join: df1.crossJoin(df2)
● Self join: df.alias("t1").join(df.alias("t2"), on="key")
● Join with complex condition: df1.join(df2, (df1.column1 == df2.column2) &
(df1.column3 > df2.column4))
● Join with multiple keys: df1.join(df2, on=["key1", "key2"], how="inner")

4. DataFrame Set Operations

● Union: df1.union(df2)
● Union by name: df1.unionByName(df2)
● Intersect: df1.intersect(df2)
● Except: df1.except(df2)
● Subtract: df1.subtract(df2)

5. DataFrame Sorting

● Sort by column: df.sort("column")

● Sort by multiple columns: df.sort("column1", "column2")
● Sort by column in ascending order: df.sort(col("column").asc())
● Sort by column in descending order: df.sort(col("column").desc())

6. DataFrame Grouping and Aggregation

● Group by column: df.groupBy("column")

● Group by multiple columns: df.groupBy("column1", "column2")
● Aggregations (count, sum, avg, min, max):
df.groupBy("column").agg(count("*").alias("count"),
sum("value").alias("sum"), avg("value").alias("avg"),
min("value").alias("min"), max("value").alias("max"))
● Aggregation with filter: df.groupBy("column").agg(sum(when(col("value") >
100, col("value"))).alias("sum_filtered"))
● Aggregation with multiple filters:
df.groupBy("column").agg(sum(when(col("value") > 100,
col("value"))).alias("sum_filtered1"), sum(when(col("value") < 50,
col("value"))).alias("sum_filtered2"))
● Pivot table: df.groupBy("column1").pivot("column2").agg(count("*"))
● Unpivot table: df.select("column1", expr("stack(3, 'column2', column2,
'column3', column3, 'column4', column4) as (key, value)")).where("value
is not null")

By: Waleed Mousa

7. DataFrame Window Functions

● Window functions (rank, dense_rank, percent_rank, row_number): from

pyspark.sql.window import Window; window =
Window.partitionBy("column1").orderBy("column2"); df.withColumn("rank",
rank().over(window))
● Lag and lead functions: from pyspark.sql.window import Window; window =
Window.partitionBy("column1").orderBy("column2"); df.withColumn("lag",
lag("value", 1).over(window)).withColumn("lead", lead("value",
1).over(window))
● Cumulative sum: from pyspark.sql.window import Window; window =
Window.partitionBy("column1").orderBy("column2");
df.withColumn("cumulative_sum", sum("value").over(window))
● Cumulative max: from pyspark.sql.window import Window; window =
Window.partitionBy("column1").orderBy("column2");
df.withColumn("cumulative_max", max("value").over(window))
● Moving average: from pyspark.sql.window import Window; window =
Window.partitionBy("column1").orderBy("column2").rowsBetween(-2, 0);
df.withColumn("moving_avg", avg("value").over(window))
● Running total: from pyspark.sql.window import Window; window =
Window.partitionBy("column1").orderBy("column2").rowsBetween(Window.unbou
ndedPreceding, Window.currentRow); df.withColumn("running_total",
sum("value").over(window))

8. DataFrame Explode and Flatten

● Explode array column: df.select(explode("array_column"))

● Explode map column: df.select(explode("map_column"))
● Flatten struct column: df.select("*", col("struct_column.*"))
● Flatten nested struct column: df.select("*",
col("nested_struct_column.level1.*"),
col("nested_struct_column.level2.*"))

9. DataFrame Array Functions

● Array contains: df.filter(array_contains(col("array_column"), "value"))

● Array distinct: df.select(array_distinct(col("array_column")))
● Array except: df.select(array_except(col("array_column1"),
col("array_column2")))
● Array intersect: df.select(array_intersect(col("array_column1"),
col("array_column2")))

By: Waleed Mousa

● Array join: df.select(array_join(col("array_column"), ","))
● Array max: df.select(array_max(col("array_column")))
● Array min: df.select(array_min(col("array_column")))
● Array position: df.select(array_position(col("array_column"), "value"))
● Array remove: df.select(array_remove(col("array_column"), "value"))
● Array repeat: df.select(array_repeat("value", 3))
● Array size: df.select(size(col("array_column")))
● Array sort: df.select(array_sort(col("array_column")))
● Array union: df.select(array_union(col("array_column1"),
col("array_column2")))
● Array zip: df.select(arrays_zip(col("array_column1"),
col("array_column2")))

10. DataFrame Map Functions

● Map contains key: df.filter(col("map_column").getItem("key").isNotNull())

● Map keys: df.select(map_keys(col("map_column")))
● Map values: df.select(map_values(col("map_column")))
● Map from entries: df.select(map_from_entries(col("array_column")))
● Map concat: df.select(map_concat(col("map_column1"), col("map_column2")))
● Map zip with: df.select(map_zip_with(col("map_column1"),
col("map_column2"), (k, v1, v2) => v1 + v2))

11. DataFrame Date and Timestamp Functions

● Current date: df.select(current_date())

● Current timestamp: df.select(current_timestamp())
● Date add: df.select(date_add(col("date_column"), 7))
● Date format: df.select(date_format(col("date_column"), "yyyy-MM-dd"))
● Date sub: df.select(date_sub(col("date_column"), 7))
● Date diff: df.select(datediff(col("end_date"), col("start_date")))
● To date: df.select(to_date(col("timestamp_column")))
● To timestamp: df.select(to_timestamp(col("string_column"), "yyyy-MM-dd
HH:mm:ss"))
● Trunc: df.select(trunc(col("timestamp_column"), "year"))

12. DataFrame Miscellaneous Functions

● Coalesce: df.select(coalesce(col("column1"), col("column2"),

lit("default_value")))

By: Waleed Mousa

● When otherwise: df.select(when(col("column") > 10,
"GT10").when(col("column") < 5, "LT5").otherwise("BETWEEN"))
● Case when: df.select(expr("CASE WHEN column1 > 10 THEN 'GT10' WHEN
column1 < 5 THEN 'LT5' ELSE 'BETWEEN' END"))
● Concat: df.select(concat(col("column1"), lit("_"), col("column2")))
● Concat with separator: df.select(concat_ws("_", col("column1"),
col("column2"), col("column3")))
● Substring: df.select(substring(col("column"), 1, 5))
● Substring index: df.select(substring_index(col("column"), ".", 1))
● Instr: df.select(instr(col("column"), "substring"))

By: Waleed Mousa

Apricorn End User Agreement
No ratings yet
Apricorn End User Agreement
1 page
Etl Commands For Pyspark
No ratings yet
Etl Commands For Pyspark
8 pages
Pyspark Practice
No ratings yet
Pyspark Practice
42 pages
SQL Vs PySpark 1678871778
No ratings yet
SQL Vs PySpark 1678871778
8 pages
Window Functions Spark
No ratings yet
Window Functions Spark
3 pages
Window Functions in SQL and PySpark
No ratings yet
Window Functions in SQL and PySpark
5 pages
Pyspark Funcamentals
No ratings yet
Pyspark Funcamentals
10 pages
Fundamental Pyspark Operations 1708364268
No ratings yet
Fundamental Pyspark Operations 1708364268
10 pages
PySpark Transformations
No ratings yet
PySpark Transformations
18 pages
SQL & PYSPARK
No ratings yet
SQL & PYSPARK
9 pages
Quewtion SQL - Pyspark
No ratings yet
Quewtion SQL - Pyspark
4 pages
PySpark Interview Cheatsheet 1741068112
No ratings yet
PySpark Interview Cheatsheet 1741068112
19 pages
Pyspark Syntax Using Simple Examples
No ratings yet
Pyspark Syntax Using Simple Examples
28 pages
Pyspark - DataFrame Window Functions
No ratings yet
Pyspark - DataFrame Window Functions
3 pages
SQL Vs Pyspark-1
No ratings yet
SQL Vs Pyspark-1
9 pages
SQL & pySPARK
No ratings yet
SQL & pySPARK
9 pages
Python Data Exploratory Commands
No ratings yet
Python Data Exploratory Commands
9 pages
(Big Data Analytics With PySpark) (CheatSheet)
No ratings yet
(Big Data Analytics With PySpark) (CheatSheet)
7 pages
Window Function in Pyspark
100% (1)
Window Function in Pyspark
8 pages
Pyspark Interview Questions
No ratings yet
Pyspark Interview Questions
4 pages
Must Know Pyspark Coding Before Databricks Interview
No ratings yet
Must Know Pyspark Coding Before Databricks Interview
7 pages
PySpark All Query
No ratings yet
PySpark All Query
22 pages
Scenarios Where Bad Records Occur
No ratings yet
Scenarios Where Bad Records Occur
38 pages
Comparison of SQL
No ratings yet
Comparison of SQL
11 pages
SQL PySpark Cheat Sheet 1731729790
No ratings yet
SQL PySpark Cheat Sheet 1731729790
9 pages
SQL To Pyspark Conversion
No ratings yet
SQL To Pyspark Conversion
9 pages
PySpark SQL Pandas CheatSheet
No ratings yet
PySpark SQL Pandas CheatSheet
2 pages
Pyspark SQL Basics Cheat Sheet: Python For Data Science
No ratings yet
Pyspark SQL Basics Cheat Sheet: Python For Data Science
1 page
Basic DataFrame Operation
No ratings yet
Basic DataFrame Operation
11 pages
_Spark SQL Optimization — Real Case Studies
No ratings yet
_Spark SQL Optimization — Real Case Studies
18 pages
Pyspark Cheatsheet
No ratings yet
Pyspark Cheatsheet
21 pages
EDA Python For Data Analsis
No ratings yet
EDA Python For Data Analsis
10 pages
SQL and PySpark
No ratings yet
SQL and PySpark
80 pages
Spark Test Que
No ratings yet
Spark Test Que
3 pages
IBM PySpark CheatSheet
No ratings yet
IBM PySpark CheatSheet
2 pages
Databricks Spark Exam Notes
No ratings yet
Databricks Spark Exam Notes
27 pages
SQL Cheat Sheet Python
100% (1)
SQL Cheat Sheet Python
1 page
SQL Final Document
No ratings yet
SQL Final Document
37 pages
Py Spark Samples
No ratings yet
Py Spark Samples
3 pages
Pyspark Intro
No ratings yet
Pyspark Intro
3 pages
Top 100 Pyspark Functions For Data Engineers 1738131847
No ratings yet
Top 100 Pyspark Functions For Data Engineers 1738131847
30 pages
V2 SQL Final Document
No ratings yet
V2 SQL Final Document
35 pages
Pyspark 12 Questions
No ratings yet
Pyspark 12 Questions
8 pages
Big Data Analytics in Apache Spark
No ratings yet
Big Data Analytics in Apache Spark
79 pages
Cheat Sheet: From Spark Data Sources SQL Queries
No ratings yet
Cheat Sheet: From Spark Data Sources SQL Queries
1 page
Cheat Sheet: From Spark Data Sources SQL Queries
No ratings yet
Cheat Sheet: From Spark Data Sources SQL Queries
1 page
Pyspark Scenario-Based Interview Questions & Answers: Nitya Cloudtech PVT LTD
No ratings yet
Pyspark Scenario-Based Interview Questions & Answers: Nitya Cloudtech PVT LTD
12 pages
1756366911016
No ratings yet
1756366911016
40 pages
Pyspark Practice - Databricks
No ratings yet
Pyspark Practice - Databricks
66 pages
Journal
No ratings yet
Journal
47 pages
PySpark Questions
No ratings yet
PySpark Questions
5 pages
Databricks Vs SQL Cheat Sheet
No ratings yet
Databricks Vs SQL Cheat Sheet
11 pages
Py Spark
No ratings yet
Py Spark
7 pages
Spark Essentials
No ratings yet
Spark Essentials
15 pages
Pyspark SQL Final Document
No ratings yet
Pyspark SQL Final Document
31 pages
PySpark Cheatsheet
No ratings yet
PySpark Cheatsheet
12 pages
SQL For Data Science
No ratings yet
SQL For Data Science
8 pages
Python Lists, Sets, and Tuples
No ratings yet
Python Lists, Sets, and Tuples
5 pages
Python Essential Methods in Machine Learning
No ratings yet
Python Essential Methods in Machine Learning
6 pages
Power BI Important Shortcuts
No ratings yet
Power BI Important Shortcuts
5 pages
Web Scraping and Data Collection CheatSheet 1731972399
No ratings yet
Web Scraping and Data Collection CheatSheet 1731972399
10 pages
Data Wrangling With Dask CheatSheet 1731972488
No ratings yet
Data Wrangling With Dask CheatSheet 1731972488
7 pages
Comprehensive Python CheatSheet 1731972192
No ratings yet
Comprehensive Python CheatSheet 1731972192
10 pages
GitLab CI CD Operations CheatSheet 1731972419
No ratings yet
GitLab CI CD Operations CheatSheet 1731972419
11 pages
Power BI Deployment Pipelines CheatSheet 1731972155
No ratings yet
Power BI Deployment Pipelines CheatSheet 1731972155
10 pages
White Paper Openmatics, ZF Friedrichshafen AG - A Platform For All Telematics Applications - English
No ratings yet
White Paper Openmatics, ZF Friedrichshafen AG - A Platform For All Telematics Applications - English
5 pages
Hot Rotary Kiln Deformability For Cement Plant Exp
No ratings yet
Hot Rotary Kiln Deformability For Cement Plant Exp
10 pages
Azhagi Keymapping
No ratings yet
Azhagi Keymapping
19 pages
Design and Fpga Implementation of Hamming Code Encoder and Decoder Under The Guidance of Asst - Professor Dr. K Rajendra Prasad
No ratings yet
Design and Fpga Implementation of Hamming Code Encoder and Decoder Under The Guidance of Asst - Professor Dr. K Rajendra Prasad
20 pages
Talaijhanae Delahoussaye Resume
No ratings yet
Talaijhanae Delahoussaye Resume
2 pages
Computer History Timeline PPTX 1
100% (1)
Computer History Timeline PPTX 1
11 pages
ENG Cypefire Design y Sprinklers
No ratings yet
ENG Cypefire Design y Sprinklers
8 pages
Emu Log
No ratings yet
Emu Log
253 pages
ATX Power Supply Connector Pinout and Wiring @
No ratings yet
ATX Power Supply Connector Pinout and Wiring @
3 pages
Programmable Controller: User Manual
No ratings yet
Programmable Controller: User Manual
60 pages
Iecex Sir 12.0100X
No ratings yet
Iecex Sir 12.0100X
17 pages
GC University Lahore Department of Computer Science Mid Term Exam - 2021
100% (1)
GC University Lahore Department of Computer Science Mid Term Exam - 2021
2 pages
Why Web3 Matters - Cdixon
No ratings yet
Why Web3 Matters - Cdixon
5 pages
SSD 3.5 Operation Manual 1.2
No ratings yet
SSD 3.5 Operation Manual 1.2
61 pages
Admin Cloudera
100% (3)
Admin Cloudera
637 pages
Eve Lam CV
No ratings yet
Eve Lam CV
2 pages
Use of Technology in Accounting
No ratings yet
Use of Technology in Accounting
2 pages
Intuit Quickbook Job Description
No ratings yet
Intuit Quickbook Job Description
4 pages
1 - Web Based Laboratory Information System LIMS - Edited
No ratings yet
1 - Web Based Laboratory Information System LIMS - Edited
63 pages
TQC Installation Maintenance Manual - Rev 7 - 09
100% (2)
TQC Installation Maintenance Manual - Rev 7 - 09
25 pages
How To Choose The Right Bean Scope? (JSF) : @Request/View/Flow/Session/Applicationscoped
No ratings yet
How To Choose The Right Bean Scope? (JSF) : @Request/View/Flow/Session/Applicationscoped
2 pages
Fortidb User Guide 430
No ratings yet
Fortidb User Guide 430
206 pages
Using The Fluke 5000A-RH/T With MET/CAL V6.11
No ratings yet
Using The Fluke 5000A-RH/T With MET/CAL V6.11
15 pages
【Zybio】 Guía de funcionamiento del sistema de gestión de datos del analizador de hematología V1.0 - 20191105
No ratings yet
【Zybio】 Guía de funcionamiento del sistema de gestión de datos del analizador de hematología V1.0 - 20191105
15 pages
Mekelle University Ethiopian Institute of Technology-Mekelle Mechanical Engineering Department
No ratings yet
Mekelle University Ethiopian Institute of Technology-Mekelle Mechanical Engineering Department
3 pages
Tej3m Network Design 2014 Final
No ratings yet
Tej3m Network Design 2014 Final
3 pages
Sap Nwds Install and Upgrade
No ratings yet
Sap Nwds Install and Upgrade
14 pages
Data Stok
No ratings yet
Data Stok
3 pages
Result Prediction by Mining Replays in Dota 2: Filip Johansson, Jesper Wikström
No ratings yet
Result Prediction by Mining Replays in Dota 2: Filip Johansson, Jesper Wikström
29 pages

Pyspark SQL and DataFrames

Uploaded by

Pyspark SQL and DataFrames

Uploaded by

# [ PySpark SQL and DataFrames ] [ cheatsheet ]

● Create DataFrame from RDD: df = spark.createDataFrame(rdd)

● Show DataFrame: df.show()

By: Waleed Mousa

● Inner join: df1.join(df2, on="key", how="inner")

By: Waleed Mousa

4. DataFrame Set Operations

● Sort by column: df.sort("column")

6. DataFrame Grouping and Aggregation

● Group by column: df.groupBy("column")

By: Waleed Mousa

● Window functions (rank, dense_rank, percent_rank, row_number): from

8. DataFrame Explode and Flatten

● Explode array column: df.select(explode("array_column"))

9. DataFrame Array Functions

● Array contains: df.filter(array_contains(col("array_column"), "value"))

By: Waleed Mousa

10. DataFrame Map Functions

● Map contains key: df.filter(col("map_column").getItem("key").isNotNull())

11. DataFrame Date and Timestamp Functions

● Current date: df.select(current_date())

12. DataFrame Miscellaneous Functions

● Coalesce: df.select(coalesce(col("column1"), col("column2"),

By: Waleed Mousa

By: Waleed Mousa

You might also like