Open navigation menu

Scribd

0% found this document useful (0 votes)

133 views

Data Engineering 101 - Day 24 - SQL Vs PySpark

Books data engineering SQL

Uploaded by

Copyright

© © All Rights Reserved

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

133 views

Data Engineering 101 - Day 24 - SQL Vs PySpark

Books data engineering SQL

Uploaded by

Copyright

© © All Rights Reserved

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 82

Data Engineering 101 -

SQL vs PySpark
80 +
comparisons

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

SELECT COLUMNS
SQL
SELECT column1, column2

1
FROM table;

PYSPARK
df.select("column1", "column2")

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

FILTER ROWS
SQL
SELECT * FROM table

2
WHERE condition;

PYSPARK
df.filter("condition")

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

AGGREGATE FUNCTIONS
SQL
SELECT AVG(column)

3
FROM table;

PYSPARK
df.select(F.avg("column"))

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

GROUP BY
SQL
SELECT column, COUNT(*)

4
FROM table
GROUP BY column;

PYSPARK
df.groupBy("column").count()

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

ORDER BY
SQL
SELECT *

5
FROM table
ORDER BY column ASC;

PYSPARK
df.orderBy("column",
ascending=True)

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

JOIN
SQL
SELECT * FROM table1

6
JOIN table2
ON table1.id = table2.id;

PYSPARK
df1.join(df2, df1.id == df2.id)

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

UNION
SQL
SELECT * FROM table1

7
UNION
SELECT * FROM table2;

PYSPARK
df1.union(df2)

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

LIMIT
SQL
SELECT *

8
FROM table
LIMIT 100;

PYSPARK
df.limit(100)

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

DISTINCT VALUES
SQL
SELECT DISTINCT column

9
FROM table;

PYSPARK
df.select("column").distinct()

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

ADDING A NEW COLUMN

SQL
SELECT *, (column1 + column2)

10
AS new_column
FROM table;

PYSPARK
df.withColumn("new_column",
F.col("column1") +
F.col("column2"))

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

COLUMN ALIAS
SQL
SELECT column AS alias_name

11
FROM table;

PYSPARK
df.select(F.col("column").alias("
alias_name"))

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

FILTERING ON MULTIPLE
CONDITIONS
SQL
SELECT * FROM table

12
WHERE
condition1 AND condition2;

PYSPARK
df.filter((F.col("condition1")) &
(F.col("condition2")))

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

SUBQUERY
SQL
SELECT * FROM

13
(SELECT * FROM table
WHERE condition) AS subquery;

PYSPARK
df.filter("condition").alias("subq
uery")

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

BETWEEN
SQL
SELECT * FROM table

14
WHERE column
BETWEEN val1 AND val2;

PYSPARK
df.filter(F.col("column") \
.between("val1", "val2"))

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

LIKE
SQL
SELECT * FROM table

15
WHERE column LIKE pattern;

PYSPARK
df.filter(F.col("column") \
.like("pattern"))

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

CASE WHEN
SQL
SELECT CASE

16
WHEN condition THEN result1
ELSE result2 END
FROM table;

PYSPARK
df.select(F.when(F.col("conditio
n"), "result1") \
.otherwise("result2"))

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

CAST DATA TYPE

SQL
SELECT

17
CAST(column AS datatype)
FROM table;

PYSPARK
df.select(F.col("column") \
.cast("datatype"))

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

COUNT DISTINCT
SQL
SELECT

18
COUNT(DISTINCT column)
FROM table;

PYSPARK
df.select(F.countDistinct("colu
mn"))

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

SUBSTRING
SQL
SELECT SUBSTRING(column,

19
start, length)
FROM table;

PYSPARK
df.select(F.substring("column",
start, length))

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

CONCATENATE COLUMNS
SQL
SELECT

20
CONCAT(column1, column2) AS
new_column
FROM table;

PYSPARK
df.withColumn("new_column",
F.concat(F.col("column1"),
F.col("column2")))

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

AVERAGE OVER PARTITION

SQL
SELECT AVG(column)

21
OVER (PARTITION BY column2)
FROM table;

PYSPARK
df.withColumn("avg", F.avg("column") \
.over(Window.partitionBy("column2")))

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

SUM OVER PARTITION

SQL
SELECT SUM(column)

22
OVER (PARTITION BY column2)
FROM table;

PYSPARK
df.withColumn("sum", F.sum("column") \
.over(Window.partitionBy("column2")))

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

LEAD FUNCTION
SQL
SELECT LEAD(column, 1)

23
OVER (ORDER BY column2)
FROM table;

PYSPARK
df.withColumn("lead",
F.lead("column", 1) \
.over(Window.orderBy("column2")))

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

LAG FUNCTION
SQL
SELECT LAG(column, 1)

24
OVER (ORDER BY column2)
FROM table;

PYSPARK
df.withColumn("lag", F.lag("column", 1) \
.over(Window.orderBy("column2")))

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

ROW COUNT
SQL
SELECT COUNT(*)

25
FROM table;

PYSPARK
df.count()

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

DROP COLUMN
SQL
ALTER TABLE table

26
DROP COLUMN column;

PYSPARK
df.drop("column")

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

RENAME COLUMN
SQL
ALTER TABLE table RENAME

27
COLUMN column1 TO column2;

PYSPARK
df.withColumnRenamed("colu
mn1", "column2")

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

CHANGE COLUMN TYPE

SQL
ALTER TABLE table

28
ALTER COLUMN column TYPE
new_type;

PYSPARK
df.withColumn("column",
df["column"] \
.cast("new_type"))

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

CREATING A TABLE FROM

SELECT
SQL
CREATE TABLE new_table

29
AS SELECT * FROM table;

PYSPARK
(df.write.format("parquet") \
.saveAsTable("new_table"))

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

INSERTING SELECTED DATA

INTO TABLE
SQL
INSERT INTO table2

30
SELECT * FROM table1;

PYSPARK
(df1.write.insertInto("table2"))

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

CREATING A TABLE WITH

SPECIFIC COLUMNS
SQL
CREATE TABLE new_table

31
AS
SELECT column1, column2
FROM table;

PYSPARK
(df.select("column1", "column2") \
.write.format("parquet") \
.saveAsTable("new_table"))

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

AGGREGATE WITH ALIAS

SQL
SELECT column,

32
COUNT(*) AS count
FROM table
GROUP BY column;

PYSPARK
df.groupBy("column") \
.agg(F.count("*") \
.alias("count"))

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

NESTED SUBQUERY
SQL
SELECT * FROM

33
(SELECT *
FROM table
WHERE condition) sub
WHERE sub.condition2;

PYSPARK
df.filter("condition") \
.alias("sub") \
.filter("sub.condition2")

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

MULTIPLE JOINS
SQL
SELECT * FROM table1

34
JOIN table2
ON table1.id = table2.id
JOIN table3
ON table1.id = table3.id;

PYSPARK
df1.join(df2, "id").join(df3, "id")

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

CROSS JOIN
SQL
SELECT *

35
FROM table1
CROSS JOIN table2;

PYSPARK
df1.crossJoin(df2)

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

GROUP BY HAVING COUNT

GREATER THAN
SQL
SELECT column,

36
COUNT(*)
FROM table
GROUP BY column
HAVING COUNT(*) > 1;

PYSPARK
df.groupBy("column") \
.count() \
.filter(F.col("count") > 1)

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

ALIAS FOR TABLE IN JOIN

SQL
SELECT t1.*

37
FROM table1 t1
JOIN table2 t2
ON t1.id = t2.id;

PYSPARK
df1.alias("t1") \
.join(df2.alias("t2"), F.col("t1.id")
== F.col("t2.id"))

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

SELECTING FROM MULTIPLE

TABLES
SQL
SELECT t1.column, t2.column

38
FROM table1 t1, table2 t2
WHERE t1.id = t2.id;

PYSPARK
df1.join(df2, df1.id == df2.id) \
.select(df1.column, df2.column)

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

CASE WHEN WITH MULTIPLE

CONDITIONS
SQL
SELECT CASE WHEN

39
condition THEN 'value1'
WHEN condition2 THEN 'value2' ELSE
'value3'
END
FROM table;

PYSPARK
df.select(F.when(F.col("condition"),
"value1").when(F.col("condition2"),
"value2").otherwise("value3"))

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

EXTRACTING DATE PARTS

SQL
SELECT EXTRACT(YEAR FROM

40
date_column)
FROM table;

PYSPARK
df.select(F.year(F.col("date_colu
mn")))

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

INEQUALITY FILTERING
SQL
SELECT *

41
FROM table
WHERE column != 'value';

PYSPARK
df.filter(df.column != 'value')

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

IN LIST
SQL
SELECT *

42
FROM table
WHERE column IN ('value1',
'value2');

PYSPARK
df.filter(df.column.isin('value1',
'value2'))

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

NOT IN LIST
SQL
SELECT *

43
FROM table
WHERE column NOT IN ('value1',
'value2');

PYSPARK
df.filter(~df.column.isin('value1',
'value2'))

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

NULL VALUES
SQL
SELECT * FROM

44
table
WHERE column IS NULL;

PYSPARK
df.filter(df.column.isNull())

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

NOT NULL VALUES

SQL
SELECT *

45
FROM table
WHERE column IS NOT NULL;

PYSPARK
df.filter(df.column.isNotNull())

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

STRING UPPER CASE

SQL
SELECT UPPER(column)

46
FROM table;

PYSPARK
df.select(F.upper(df.column))

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

STRING LOWER CASE

SQL
SELECT LOWER(column)

47
FROM table;

PYSPARK
df.select(F.lower(df.column))

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

STRING LENGTH
SQL
SELECT LENGTH(column)

48
FROM table;

PYSPARK
df.select(F.length(df.column))

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

TRIM STRING
SQL
SELECT TRIM(column)

49
FROM table;

PYSPARK
df.select(F.trim(df.column))

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

LEFT TRIM STRING

SQL
SELECT LTRIM(column)

50
FROM table;

PYSPARK
df.select(F.ltrim(df.column))

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

RIGHT TRIM STRING

SQL
SELECT RTRIM(column)

51
FROM table;

PYSPARK
df.select(F.rtrim(df.column))

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

STRING REPLACE
SQL
SELECT REPLACE(column, 'find',

52
'replace')
FROM table;

PYSPARK
df.select(F.regexp_replace(df.c
olumn, 'find', 'replace'))

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

SUBSTRING INDEX
SQL
SELECT

53
SUBSTRING_INDEX(column,
'delim', count)
FROM table;

PYSPARK
df.select(F.expr("split(column,
'delim')[count-1]"))

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

DATE DIFFERENCE
SQL
SELECT DATEDIFF('date1', 'date2')

54
FROM table;

PYSPARK
df.select(F.datediff(F.col('date1'
), F.col('date2')))

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

ADD MONTHS TO DATE

SQL
SELECT

55
ADD_MONTHS(date_column,
num_months)
FROM table;

PYSPARK
df.select(F.add_months
(df.date_column, num_months))

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

FIRST VALUE IN GROUP

SQL
SELECT FIRST_VALUE(column)

56
OVER (PARTITION BY column2)
FROM table;

PYSPARK
df.withColumn("first_val",
F.first("column") \
.over(Window.partitionBy("column2")))

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

LAST VALUE IN GROUP

SQL
SELECT LAST_VALUE(column)

57
OVER (PARTITION BY column2)
FROM table;

PYSPARK
df.withColumn("last_val",
F.last("column") \
.over(Window.partitionBy("column2")))

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

ROW NUMBER OVER

PARTITION
SQL
SELECT ROW_NUMBER()

58
OVER (PARTITION BY column
ORDER BY column)
FROM table;

PYSPARK
df.withColumn("row_num",
F.row_number() \
.over(Window.partitionBy("column") \
.orderBy("column")))

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

RANK OVER PARTITION

SQL
SELECT RANK()

59
OVER (PARTITION BY column
ORDER BY column)
FROM table;

PYSPARK
df.withColumn("rank",
F.rank().over(Window.partitionBy
("column").orderBy("column")))

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

DENSE RANK OVER

PARTITION
SQL
SELECT DENSE_RANK()

60
OVER (PARTITION BY column
ORDER BY column)
FROM table;

PYSPARK
df.withColumn("dense_rank",
F.dense_rank().over(Window.partitio
nBy("column").orderBy("column")))

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

COUNT ROWS
SQL
SELECT COUNT(*)

61
FROM table;

PYSPARK
df.count()

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

MATHEMATICAL
OPERATIONS
SQL
SELECT column1 + column2

62
FROM table;

PYSPARK
df.select(F.col("column1") +
F.col("column2"))

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

STRING CONCATENATION
SQL
SELECT column1 | column2

63
AS new_column
FROM table;

PYSPARK
df.withColumn("new_column",
F.concat_ws("|",
F.col("column1"),
F.col("column2")))

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

FIND MINIMUM VALUE

SQL
SELECT MIN(column)

64
FROM table;

PYSPARK
df.select(F.min("column"))

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

FIND MAXIMUM VALUE

SQL
SELECT MAX(column)

65
FROM table;

PYSPARK
df.select(F.max("column"))

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

REMOVING DUPLICATES
SQL
SELECT DISTINCT *

66
FROM table;

PYSPARK
df.distinct()

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

LEFT JOIN
SQL
SELECT * FROM table1

67
LEFT JOIN table2
ON table1.id = table2.id;

PYSPARK
df1.join(df2, df1.id == df2.id,
"left")

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

RIGHT JOIN
SQL
SELECT * FROM table1

68
RIGHT JOIN table2
ON table1.id = table2.id;

PYSPARK
df1.join(df2, df1.id == df2.id,
"right")

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

FULL OUTER JOIN

SQL
SELECT * FROM table1

69
FULL OUTER
JOIN table2
ON table1.id = table2.id;

PYSPARK
df1.join(df2, df1.id == df2.id,
"outer")

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

GROUP BY WITH HAVING

SQL
SELECT column, COUNT(*)

70
FROM table
GROUP BY column
HAVING COUNT(*) > 10;

PYSPARK
df.groupBy("column") \
.count() \
.filter(F.col("count") > 10)

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

ROUND DECIMAL VALUES

SQL
SELECT ROUND(column, 2)

71
FROM table;

PYSPARK
df.select(F.round("column", 2))

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

GET CURRENT DATE

SQL
SELECT CURRENT_DATE();

72
PYSPARK
df.select(F.current_date())

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

DATE ADDITION
SQL
SELECT

73
DATE_ADD(date_column, 10)
FROM table;

PYSPARK
df.select(F.date_add(F.col("dat
e_column"), 10))

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

DATE SUBTRACTION
SQL
SELECT

74
DATE_SUB(date_column, 10)
FROM table;

PYSPARK
df.select(F.date_sub(F.col("dat
e_column"), 10))

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

EXTRACT YEAR FROM DATE

SQL
SELECT YEAR(date_column)

75
FROM table;

PYSPARK
df.select(F.year(F.col("date_col
umn")))

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

EXTRACT MONTH FROM

DATE
SQL
SELECT MONTH(date_column)

76
FROM table;

PYSPARK
df.select(F.month(F.col("date_
column")))

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

EXTRACT DAY FROM DATE

SQL
SELECT DAY(date_column)

77
FROM table;

PYSPARK
df.select(F.dayofmonth(F.col("d
ate_column")))

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

SORTING DESCENDING
SQL
SELECT *

78
FROM table
ORDER BY column DESC;

PYSPARK
df.orderBy(F.col("column").desc())

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

GROUP BY MULTIPLE
COLUMNS
SQL
SELECT col1, col2, COUNT(*)

79
FROM table
GROUP BY col1, col2;

PYSPARK
df.groupBy("col1", "col2") \
.count()

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

CONDITIONAL COLUMN
UPDATE
SQL
UPDATE table

80
SET column1 = CASE
WHEN condition
THEN 'value1' ELSE 'value2' END;

PYSPARK
df.withColumn("column1",
F.when(F.col("condition"),
"value1").otherwise("value2"))

Shwetank Singh
GritSetGrow - GSGLearn.com

You might also like

TM9-2320-345-10 M1120 A4
100% (6)
TM9-2320-345-10 M1120 A4
1,368 pages
Databricks Questions
No ratings yet
Databricks Questions
23 pages
725 and 730 Articulated Trucks-Maintenance Intervals
100% (4)
725 and 730 Articulated Trucks-Maintenance Intervals
61 pages
Iti Pdfs
No ratings yet
Iti Pdfs
10 pages
SQL Vs PySpark 1678871778
No ratings yet
SQL Vs PySpark 1678871778
8 pages
53 SQL Questions-Answers
No ratings yet
53 SQL Questions-Answers
89 pages
ADF Course Content
No ratings yet
ADF Course Content
11 pages
Databricks How To Data Import PDF
No ratings yet
Databricks How To Data Import PDF
16 pages
3+ Tableau Resume
No ratings yet
3+ Tableau Resume
4 pages
Aws Glue Information
No ratings yet
Aws Glue Information
46 pages
Pandas Vs SQL
No ratings yet
Pandas Vs SQL
50 pages
SQL To Pyspark Conversion
No ratings yet
SQL To Pyspark Conversion
9 pages
Data Engineering - Dimensional Modelling
No ratings yet
Data Engineering - Dimensional Modelling
52 pages
PySpark Q&A
No ratings yet
PySpark Q&A
56 pages
Full download PySpark SQL Recipes: With HiveQL, Dataframe and Graphframes 1st Edition Raju Kumar Mishra pdf docx
100% (2)
Full download PySpark SQL Recipes: With HiveQL, Dataframe and Graphframes 1st Edition Raju Kumar Mishra pdf docx
50 pages
Sai Harish Addanki - Lead Data EngineerAWS Certified Professional
No ratings yet
Sai Harish Addanki - Lead Data EngineerAWS Certified Professional
2 pages
Data Engineering 101 ETL Terminology 1717401904
No ratings yet
Data Engineering 101 ETL Terminology 1717401904
148 pages
Pyspark Vs Spark SQL
No ratings yet
Pyspark Vs Spark SQL
6 pages
Dice Resume CV SN
No ratings yet
Dice Resume CV SN
5 pages
Informatica IDQ Course Content
No ratings yet
Informatica IDQ Course Content
14 pages
Top Pyspark InterviewQuestions
No ratings yet
Top Pyspark InterviewQuestions
21 pages
DataEngineer Roadmap
No ratings yet
DataEngineer Roadmap
12 pages
Top 50 Data Warehousing Interview Questions & Answers
No ratings yet
Top 50 Data Warehousing Interview Questions & Answers
8 pages
Databricksmcqsquestionsandanswers
No ratings yet
Databricksmcqsquestionsandanswers
5 pages
PySpark Tutorial For Beginners - Python Examples - Spark by (Examples)
No ratings yet
PySpark Tutorial For Beginners - Python Examples - Spark by (Examples)
19 pages
Spark Interview QUestions
No ratings yet
Spark Interview QUestions
200 pages
Spark Interview Questions 1713805760
No ratings yet
Spark Interview Questions 1713805760
40 pages
Pyspark IQ FREE Guide
No ratings yet
Pyspark IQ FREE Guide
57 pages
Python-IQ
No ratings yet
Python-IQ
123 pages
Apache Pig
100% (2)
Apache Pig
80 pages
Snowflake Database Structures and DML - Snowflake
No ratings yet
Snowflake Database Structures and DML - Snowflake
50 pages
Spark SQL Optimization
No ratings yet
Spark SQL Optimization
29 pages
Pyspark Learning Hub
No ratings yet
Pyspark Learning Hub
7 pages
Sqoop Cammand
No ratings yet
Sqoop Cammand
8 pages
Databricks Question
No ratings yet
Databricks Question
89 pages
Talend Data Integration: Subramanyam K
No ratings yet
Talend Data Integration: Subramanyam K
64 pages
SCD Type 2. Pyspark
No ratings yet
SCD Type 2. Pyspark
7 pages
Dhanush Bigdata Resume Updated
No ratings yet
Dhanush Bigdata Resume Updated
9 pages
Python Lists: List Initialization
No ratings yet
Python Lists: List Initialization
25 pages
SCD Type-1,2 Implementation in Pyspark
No ratings yet
SCD Type-1,2 Implementation in Pyspark
6 pages
Delta Table and Pyspark Interview Questions
100% (1)
Delta Table and Pyspark Interview Questions
14 pages
PySpark Reference Guide
No ratings yet
PySpark Reference Guide
2 pages
What Are The Difference Between DDL, DML and DCL Commands - Oracle FAQ
No ratings yet
What Are The Difference Between DDL, DML and DCL Commands - Oracle FAQ
4 pages
Manu - Tomar - Data Analyst
No ratings yet
Manu - Tomar - Data Analyst
2 pages
3 Lecture 3-ETL
100% (1)
3 Lecture 3-ETL
42 pages
Download Full Learn PySpark: Build python-based machine learning and deep learning models 1st Edition Pramod Singh PDF All Chapters
100% (4)
Download Full Learn PySpark: Build python-based machine learning and deep learning models 1st Edition Pramod Singh PDF All Chapters
55 pages
PySpark Cheatsheet
No ratings yet
PySpark Cheatsheet
12 pages
Power BI Cheat Sheet
No ratings yet
Power BI Cheat Sheet
10 pages
Try Out The Interactive: Window Functions Partition by Order by Aggregate Functions vs. Window Functions
No ratings yet
Try Out The Interactive: Window Functions Partition by Order by Aggregate Functions vs. Window Functions
2 pages
Practical No - 01: Aim: Data Collection, Data Curation and Management For Unstructured Data (Nosql) Using Apache Couchdb
No ratings yet
Practical No - 01: Aim: Data Collection, Data Curation and Management For Unstructured Data (Nosql) Using Apache Couchdb
79 pages
150 Data Engineering Interview Questions PDF
No ratings yet
150 Data Engineering Interview Questions PDF
8 pages
AWS Certified Big Data Specialty Exam Dumps - Amazondumps - Us
100% (1)
AWS Certified Big Data Specialty Exam Dumps - Amazondumps - Us
5 pages
Data Engineering
No ratings yet
Data Engineering
15 pages
Databricks Practice Questions
No ratings yet
Databricks Practice Questions
83 pages
Srikanth
No ratings yet
Srikanth
7 pages
PAM For Informatica Platform v10 5 4
No ratings yet
PAM For Informatica Platform v10 5 4
237 pages
Complete Reference To Informatica PDF
100% (3)
Complete Reference To Informatica PDF
52 pages
Apache Hive
No ratings yet
Apache Hive
3 pages
Databricks
No ratings yet
Databricks
4 pages
PySpark Essentials: A Practical Guide to Distributed Computing
From Everand
PySpark Essentials: A Practical Guide to Distributed Computing
Robert Johnson
No ratings yet
SQL and PySpark
No ratings yet
SQL and PySpark
80 pages
Data Engineering 101 SQL and PySpark 1727161935
No ratings yet
Data Engineering 101 SQL and PySpark 1727161935
58 pages
SQL Guide to Null
No ratings yet
SQL Guide to Null
11 pages
PostGres SQL
No ratings yet
PostGres SQL
7 pages
Extra-Practice-Problems-for-SQL
No ratings yet
Extra-Practice-Problems-for-SQL
5 pages
Sample Db SQL
No ratings yet
Sample Db SQL
4 pages
SQL Server Source Control Basics eBook
No ratings yet
SQL Server Source Control Basics eBook
296 pages
LoA - Basic - Book 1
No ratings yet
LoA - Basic - Book 1
21 pages
Choosing Beliefs NOTES
No ratings yet
Choosing Beliefs NOTES
9 pages
Top company list
No ratings yet
Top company list
24 pages
Descriptive Essay Socialization
No ratings yet
Descriptive Essay Socialization
2 pages
Cleaning in The Life Science Industry - TACCT BPE v2.0
No ratings yet
Cleaning in The Life Science Industry - TACCT BPE v2.0
45 pages
Amee Gtu Exam Preparation PDF
No ratings yet
Amee Gtu Exam Preparation PDF
110 pages
Professional Development Plan: GOALS - Next 5 Years
No ratings yet
Professional Development Plan: GOALS - Next 5 Years
3 pages
Specifikasi Amp Tsap 1000 Bertam
No ratings yet
Specifikasi Amp Tsap 1000 Bertam
1 page
ANALYST 3Q Colour: Power Quality Analyser
No ratings yet
ANALYST 3Q Colour: Power Quality Analyser
4 pages
Google Adwords Learning Center Quiz
0% (1)
Google Adwords Learning Center Quiz
90 pages
INFS1602 Assignment
No ratings yet
INFS1602 Assignment
17 pages
Positive Systems Theory and Applications POSTA 2018 James Lam all chapter instant download
100% (5)
Positive Systems Theory and Applications POSTA 2018 James Lam all chapter instant download
65 pages
8400, 8600, 8650 Illustrated Parts List
No ratings yet
8400, 8600, 8650 Illustrated Parts List
48 pages
SCA - Module 7
No ratings yet
SCA - Module 7
47 pages
M1_L28_Cauchy Euler's Equation
No ratings yet
M1_L28_Cauchy Euler's Equation
10 pages
Random Dice Deck Database - Search
No ratings yet
Random Dice Deck Database - Search
36 pages
Minazaini - Resume 2022
No ratings yet
Minazaini - Resume 2022
1 page
LeTourneau Technologies 116 C
100% (1)
LeTourneau Technologies 116 C
3 pages
EROL Et Al 2016
No ratings yet
EROL Et Al 2016
6 pages
1MRK511408-UEN - en - M - Technical Manual, Phasor Measurement Unit RES670 Version 2.2 IEC
No ratings yet
1MRK511408-UEN - en - M - Technical Manual, Phasor Measurement Unit RES670 Version 2.2 IEC
848 pages
Tws Review
No ratings yet
Tws Review
49 pages
1er Devoir Du 3ème Trimestre Anglais 2nde Abd 2021-2022 Cpeg Saint Justin
67% (3)
1er Devoir Du 3ème Trimestre Anglais 2nde Abd 2021-2022 Cpeg Saint Justin
3 pages
ET3000 - ET4000 Catalogo
No ratings yet
ET3000 - ET4000 Catalogo
12 pages
ISAT - Translators Commands
No ratings yet
ISAT - Translators Commands
14 pages
Unit 2
No ratings yet
Unit 2
24 pages
Lifting Tools & Tackles & Machinary Inventory List-5
No ratings yet
Lifting Tools & Tackles & Machinary Inventory List-5
5 pages
GS-05 Command
No ratings yet
GS-05 Command
2 pages
UNIT 3: Program Control Structures
No ratings yet
UNIT 3: Program Control Structures
65 pages
Iso 50001:2018 Client Gap Analysis Tool: Instructions For Use
No ratings yet
Iso 50001:2018 Client Gap Analysis Tool: Instructions For Use
12 pages
3117 301 LCF Furnace Controller
No ratings yet
3117 301 LCF Furnace Controller
4 pages