0% found this document useful (0 votes)

63 views10 pages

EDA Python For Data Analsis

The document provides a comprehensive guide on using Apache Spark for data manipulation, including data loading, cleaning, analysis, visualization, and machine learning integration. It covers various operations such as reading/writing different file formats, performing statistical analysis, and handling complex data types. Additionally, it discusses performance optimization techniques and advanced features like window functions, graph analysis, and real-time data processing.

Uploaded by

salmasaiff.22

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

63 views10 pages

EDA Python For Data Analsis

Uploaded by

salmasaiff.22

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 10

1.

Data Loading

• Read CSV File:

df = spark.read.csv('filename.csv', header=True, inferSchema=True)

• Read Parquet File:

df = spark.read.parquet('filename.parquet')

• Read from JDBC (Databases):

df=spark.read.format("jdbc").options(url="jdbc_url",dbtable="table_name").lo
ad()

2. show data

• Display Top Rows: df.show()

• Print Schema: df.printSchema()

• Summary Statistics: df.describe().show()

• Count Rows: df.count()

• Display Columns: df.columns

3. Data Cleaning

• Drop Missing Values: df.na.drop()

• Fill Missing Values: df.na.fill(value)

• Drop Irrelevant Columns: df.drop('column_name')

• Rename Column: df.withColumnRenamed('old_name', 'new_name')

• Check for Duplicates: df.dropDuplicates()

• Handle Duplicates: df.dropDuplicates(['column1', 'column2'])

• Remove Duplicates Completely: df.dropDuplicates()

• Check for Outliers:

6. Statistical Analysis

• Describe data: df.describe()

• To show distribution data: Sns.histplot(df,bins=20,kde=True)

• Correlation Matrix: from pyspark.ml.stat import Correlation;

Correlation.corr(df, 'column')

• Covariance: df.stat.cov('column1', 'column2')

• Frequency Items: df.stat.freqItems(['column1', 'column2'])

7. Data Visualization

• Bar Chart: df.groupBy('column').count().show()

• Histogram: df.select('column').rdd.flatMap(lambda x: x).histogram(10)

• Scatter Plot: df.select('column1', 'column2').show()

• Box Plot: pandas_df[['column']].boxplot()

• ……………………

8. Export Data in Python

• Convert to Pandas DataFrame: pandas_df = df.toPandas()

• Convert to CSV (Pandas): pandas_df.to_csv('path_to_save.csv',
index=False)

• Write DataFrame to CSV: df.write.csv('path_to_save.csv')

• Write DataFrameto Parquet: df.write.parquet('path_to_save.parquet')

9. Advanced Data Processing

• Window Functions: from pyspark.sql.window import Window;

df.withColumn('rank',
rank().over(Window.partitionBy('column').orderBy('other_column')))
• Pivot Table: df.groupBy('column').pivot('pivot_column').sum('sum_column')
• UDF (User Defined Functions): from pyspark.sql.functions import udf;
my_udf = udf(my_python_function); df.withColumn('new_col',
my_udf(df['col']))

10. Performance Optimization

• Caching DataFrame: df.cache()

• Repartitioning: df.repartition(10)

• Broadcast Join Hint: df.join(broadcast(df2), 'key', 'inner')

11. Exploratory Data Analysis Specifics

• Column Value Counts: df.groupBy('column').count().show()

• Distinct Values in a Column: df.select('column').distinct().show()

• Aggregations (sum, max, min, avg): df.groupBy().sum('column').show()

12. Working with Complex Data Types

• Exploding Arrays: df.withColumn('exploded', explode(df['array_column']))

• Working with Structs: df.select(df['struct_column']['field'])

• Handling Maps: df.select(map_keys(df['map_column']))

13. Joins

• Inner Join: df1.join(df2, df1['id'] == df2['id'])

• Left Outer Join: df1.join(df2, df1['id'] == df2['id'], 'left_outer')

• Right Outer Join: df1.join(df2, df1['id'] == df2['id'], 'right_outer')
14. Saving and Loading Models

• Saving ML Model: model.save('model_path')

• Loading ML Model:

from pyspark.ml.classification import LogisticRegressionModel;

LogisticRegressionModel.load('model_path')

15. Handling JSON and Complex Files

• Read JSON: df = spark.read.json('path_to_file.json')

• Explode JSON Object: df.selectExpr('json_column.*')

16. Custom Aggregations

• Custom Aggregate Function:

from pyspark.sql import functions as F;

df.groupBy('group_column').agg(F.sum('sum_column'))

17. Working with Null Values

• Counting Nulls in Each Column:

df.select([F.count(F.when(F.isnull(c), c)).alias(c) for c in df.columns])

• Drop Rows with Null Values: df.na.drop()

18. Data Import/Export Tips

• Read Text Files: df = spark.read.text('path_to_file.txt')

• Write Data to JDBC:

df.write.format("jdbc").options(url="jdbc_url", dbtable="table_name").save()

19. Advanced SQL Operations

• Register DataFrame as Table: df.createOrReplaceTempView('temp_table')

• Perform SQL Queries: spark.sql('SELECT * FROM temp_table WHERE
condition')

20. Dealing with Large Datasets

• Sampling Data: sampled_df = df.sample(False, 0.1)

• Approximate Count Distinct:

df.select(approx_count_distinct('column')).show()

21. Data Quality Checks

• Checking Data Integrity: df.checkpoint()

• Asserting Conditions: df.filter(df['column'] > 0).count()

22. Advanced File Handling

• Specify Schema While Reading: schema = StructType([...]); df =

spark.read.csv('file.csv', schema=schema)

• Writing in Overwrite Mode: df.write.mode('overwrite').csv('path_to_file.csv')

23. Debugging and Error Handling

• Collecting Data Locally for Debugging: local_data = df.take(5)

• Handling Exceptions in UDFs:

def safe_udf(my_udf): def wrapper(*args, **kwargs): try: return

my_udf(*args, **kwargs) except: return None; return wrapper

24. Machine Learning Integration

• Creating Feature Vector:

from pyspark.ml.feature import VectorAssembler; assembler =

VectorAssembler(inputCols=['col1', 'col2'], outputCol='features'); feature_df =
assembler.transform(df)
25. Advanced Joins and Set Operations

• Cross Join: df1.crossJoin(df2)

• Set Operations (Union, Intersect, Minus): df1.union(df2);

df1.intersect(df2); df1.subtract(df2)

26. Dealing with Network Data

• Reading Data from HTTP Source: spark.read.format("csv").option("url",

"http://example.com/data.csv").load()

27. Integration with Visualization Libraries

• Convert to Pandas for Visualization: pandas_df = df.toPandas();

pandas_df.plot(kind='bar')

28. Spark Streaming for Real-Time EDA

• Reading from a Stream: df = spark.readStream.format('source').load()

• Writing to a Stream: df.writeStream.format('console').start()

29. Advanced Window Functions

• Cumulative Sum: from pyspark.sql.window import Window;

df.withColumn('cum_sum',
F.sum('column').over(Window.partitionBy('group_column').orderBy('order_col
umn')))

• Row Number: df.withColumn('row_num',

F.row_number().over(Window.orderBy('column')))

30. Handling Complex Analytics

• Rollup: df.rollup('column1', 'column2').agg(F.sum('column3'))

• Cube for Multi-Dimensional Aggregation: df.cube('column1',

'column2').agg(F.sum('column3'))
31. Dealing with Geospatial Data

• Using GeoSpark for Geospatial Data:

from geospark.register import GeoSparkRegistrator;

GeoSparkRegistrator.registerAll(spark)

32. Advanced File Formats

• Reading ORC Files: df = spark.read.orc('filename.orc')

• Writing Data to ORC: df.write.orc('path_to_file.orc')

33. Dealing with Sparse Data

• Using Sparse Vectors:

from pyspark.ml.linalg import SparseVector; sparse_vec =

SparseVector(size, {index: value})

34. Handling Binary Data

• Reading Binary Files:

df = spark.read.format('binaryFile').load('path_to_binary_file')

35. Efficient Data Transformation

• Using mapPartitions for Transformation:

rdd = df.rdd.mapPartitions(lambda partition: [transform(row) for row in

partition])

36. Advanced Machine Learning Operations

• Using ML Pipelines:

from pyspark.ml import Pipeline; pipeline = Pipeline(stages=[stage1,

stage2]); model = pipeline.fit(df)
• Model Evaluation:

from pyspark.ml.evaluation import BinaryClassificationEvaluator;

evaluator = BinaryClassificationEvaluator(); evaluator.evaluate(predictions)

37. Optimization Techniques

• Broadcast Variables for Efficiency: from pyspark.sql.functions import

broadcast; df.join(broadcast(df2), 'key')

• Using Accumulators for Global Aggregates: accumulator =

spark.sparkContext.accumulator(0); rdd.foreach(lambda x:
accumulator.add(x))

38. Advanced Data Import/Export

• Reading Data from Multiple Sources: df =

spark.read.format('format').option('option', 'value').load(['path1', 'path2'])

• Writing Data to Multiple Formats: df.write.format('format').save('path',

mode='overwrite')

39. Utilizing External Data Sources

• Connecting to External Data Sources (e.g., Kafka, S3):

df = spark.read.format('kafka').option('kafka.bootstrap.servers',
'host1:port1').load()

40. Efficient Use of SQL Functions

• Using Built-in SQL Functions:

from pyspark.sql.functions import col, lit; df.withColumn('new_column',

col('existing_column') + lit(1))

41. Exploring Data with GraphFrames

• Using GraphFrames for Graph Analysis:

from graphframes import GraphFrame; g = GraphFrame(vertices_df,
edges_df)

42. Working with Nested Data

• Exploding Nested Arrays:

df.selectExpr('id', 'explode(nestedArray) as element')

• Handling Nested Structs: df.select('struct_column.*')

43. Advanced Statistical Analysis

• Hypothesis Testing:

from pyspark.ml.stat import ChiSquareTest; r = ChiSquareTest.test(df,

'features', 'label')

• Statistical Functions (e.g., mean, stddev):

from pyspark.sql.functions import mean, stddev; df.select(mean('column'),

stddev('column'))

44. Customizing Spark Session

• Configuring SparkSession:

spark=SparkSession.builder.appName('app').config('spark.some.config.optio
n', 'value').getOrCreate()

Data Cleaning - Cheatsheet
100% (2)
Data Cleaning - Cheatsheet
8 pages
Pyspark Basics
No ratings yet
Pyspark Basics
16 pages
Apache Spark With Scala - Cheatsheet
No ratings yet
Apache Spark With Scala - Cheatsheet
7 pages
ETL Processes Using PySpark
67% (3)
ETL Processes Using PySpark
7 pages
Etl Commands For Pyspark
No ratings yet
Etl Commands For Pyspark
8 pages
Oracle Database Design Final Exam
No ratings yet
Oracle Database Design Final Exam
14 pages
Informatica Interview Questions and Answers
No ratings yet
Informatica Interview Questions and Answers
58 pages
Python Data Exploratory Commands
No ratings yet
Python Data Exploratory Commands
9 pages
Fundamental Pyspark Operations 1708364268
No ratings yet
Fundamental Pyspark Operations 1708364268
10 pages
Pyspark Funcamentals
No ratings yet
Pyspark Funcamentals
10 pages
Pandas Fuction Notes
No ratings yet
Pandas Fuction Notes
3 pages
EDA Cheat Sheet
No ratings yet
EDA Cheat Sheet
7 pages
Py Spark
No ratings yet
Py Spark
7 pages
PySpark Cheatsheet
No ratings yet
PySpark Cheatsheet
12 pages
Cheat Sheet_Pandas
No ratings yet
Cheat Sheet_Pandas
6 pages
PySpark Transformations
No ratings yet
PySpark Transformations
18 pages
Exploratory Data Analysis (Eda) With Pandas: (Cheatsheet)
No ratings yet
Exploratory Data Analysis (Eda) With Pandas: (Cheatsheet)
7 pages
PySpark Interview Cheatsheet 1741068112
No ratings yet
PySpark Interview Cheatsheet 1741068112
19 pages
(Big Data Analytics With PySpark) (CheatSheet)
No ratings yet
(Big Data Analytics With PySpark) (CheatSheet)
7 pages
Must Know Pyspark Coding Before Databricks Interview
No ratings yet
Must Know Pyspark Coding Before Databricks Interview
7 pages
Spark Optimisation
No ratings yet
Spark Optimisation
7 pages
Spark Commands
No ratings yet
Spark Commands
3 pages
Spark Optimization 1741826797
No ratings yet
Spark Optimization 1741826797
7 pages
PySpark Notes
No ratings yet
PySpark Notes
64 pages
Senior Data Engineer Qs
No ratings yet
Senior Data Engineer Qs
7 pages
EDA With Pandas
No ratings yet
EDA With Pandas
8 pages
Dataframe in Pandas - Cheatsheet
No ratings yet
Dataframe in Pandas - Cheatsheet
8 pages
Pandas Data Manipulation Extended CheatSheet 1731972219
No ratings yet
Pandas Data Manipulation Extended CheatSheet 1731972219
9 pages
Spark Test Que
No ratings yet
Spark Test Que
3 pages
Pyspark Coding Questions From StrataScratch Platform
No ratings yet
Pyspark Coding Questions From StrataScratch Platform
23 pages
Pandas Roadmap
No ratings yet
Pandas Roadmap
6 pages
Top 10 Production-Grade Reusable PySpark Scripts For Data Engineers - by Mayurkumar Surani - May, 2025 - Medium
No ratings yet
Top 10 Production-Grade Reusable PySpark Scripts For Data Engineers - by Mayurkumar Surani - May, 2025 - Medium
14 pages
Pyspark Distinct and Filter
No ratings yet
Pyspark Distinct and Filter
3 pages
Pyspark 12 Questions
No ratings yet
Pyspark 12 Questions
8 pages
Apache Spark
No ratings yet
Apache Spark
5 pages
Apache Spark - Optimization Techniques
No ratings yet
Apache Spark - Optimization Techniques
7 pages
IBM PySpark CheatSheet
No ratings yet
IBM PySpark CheatSheet
2 pages
Universal Data Analytics Algorithm
No ratings yet
Universal Data Analytics Algorithm
51 pages
Top 100 Pyspark Functions For Data Engineers 1738131847
No ratings yet
Top 100 Pyspark Functions For Data Engineers 1738131847
30 pages
Comparison of SQL
No ratings yet
Comparison of SQL
11 pages
PySpark Interview Questions
No ratings yet
PySpark Interview Questions
3 pages
Journal
No ratings yet
Journal
47 pages
Spark Essentials
No ratings yet
Spark Essentials
15 pages
Pyspark Cheatsheet
No ratings yet
Pyspark Cheatsheet
21 pages
Interactive Data Analysis With Jupyter Cheatsheet 1731972443
No ratings yet
Interactive Data Analysis With Jupyter Cheatsheet 1731972443
10 pages
PySpark Cheat Sheet
No ratings yet
PySpark Cheat Sheet
6 pages
Q1. Difference Between Cache and Pe
No ratings yet
Q1. Difference Between Cache and Pe
13 pages
Pyspark
No ratings yet
Pyspark
6 pages
50 PySpark Interview Questions 1732556477
No ratings yet
50 PySpark Interview Questions 1732556477
7 pages
Pyspark Code Quality by Azurelib
No ratings yet
Pyspark Code Quality by Azurelib
4 pages
Pyspark Syntax Using Simple Examples
No ratings yet
Pyspark Syntax Using Simple Examples
28 pages
Slide 10 PySpark - SQL
No ratings yet
Slide 10 PySpark - SQL
131 pages
Data Wrangling With Dask CheatSheet 1731972488
No ratings yet
Data Wrangling With Dask CheatSheet 1731972488
7 pages
Pyspark Coding Interview Questions
No ratings yet
Pyspark Coding Interview Questions
19 pages
Exploratory Data Analysis
No ratings yet
Exploratory Data Analysis
10 pages
SQL Cheat Sheet Python
100% (1)
SQL Cheat Sheet Python
1 page
Oracle Certified Professional Java Programmer OCPJP 1Z0 809
From Everand
Oracle Certified Professional Java Programmer OCPJP 1Z0 809
Manish Soni
No ratings yet
TensorFlow深度学习项目实战: Chinese Edition
From Everand
TensorFlow深度学习项目实战: Chinese Edition
Posts & Telecom Press
No ratings yet
Computer Engineering Laboratory Solution Primer
From Everand
Computer Engineering Laboratory Solution Primer
Karan Bhandari
No ratings yet
Advanced C Concepts and Programming: First Edition
From Everand
Advanced C Concepts and Programming: First Edition
Gayatri
3/5 (1)
Administering Microsoft Azure SQL Solutions DP 300
From Everand
Administering Microsoft Azure SQL Solutions DP 300
Manish Soni
No ratings yet
Couchbase Certified Java Developer - Exam Practice Tests
From Everand
Couchbase Certified Java Developer - Exam Practice Tests
Cristian Scutaru
No ratings yet
12 CS Preboard Set-I QP 2023-24
No ratings yet
12 CS Preboard Set-I QP 2023-24
8 pages
Tutorial - Rockstar
No ratings yet
Tutorial - Rockstar
1 page
Web Based Internship Management System - A Collaborative Coordinat PDF
No ratings yet
Web Based Internship Management System - A Collaborative Coordinat PDF
68 pages
Chapter 7 Introduction To SQL
No ratings yet
Chapter 7 Introduction To SQL
84 pages
SQL Queries - 1
No ratings yet
SQL Queries - 1
5 pages
Untitled Document
No ratings yet
Untitled Document
7 pages
2022-23 S4 Mid-Year Exam P1
No ratings yet
2022-23 S4 Mid-Year Exam P1
19 pages
Importing Suppliers r12
No ratings yet
Importing Suppliers r12
37 pages
R23 Unit-3 PDF V1
No ratings yet
R23 Unit-3 PDF V1
37 pages
PLSQL
No ratings yet
PLSQL
220 pages
Wmi Reference
No ratings yet
Wmi Reference
40 pages
Oracle 9i Forms Developer Quick Notes
100% (7)
Oracle 9i Forms Developer Quick Notes
29 pages
Quiz 5 Answers PDF
No ratings yet
Quiz 5 Answers PDF
10 pages
IIT M DIPLOMA ET1 EXAM QPD1 S2 30 Apr 2023
No ratings yet
IIT M DIPLOMA ET1 EXAM QPD1 S2 30 Apr 2023
380 pages
Io
100% (2)
Io
11 pages
Oracle Reviewer
No ratings yet
Oracle Reviewer
24 pages
Pract 17 To 25
No ratings yet
Pract 17 To 25
27 pages
用户权限分配
100% (1)
用户权限分配
8 pages
MongoDB CRUD Operations
No ratings yet
MongoDB CRUD Operations
70 pages
The Lost Art of The Self Join
100% (2)
The Lost Art of The Self Join
65 pages
DBT SB
No ratings yet
DBT SB
159 pages
Query Performance Tuning
No ratings yet
Query Performance Tuning
35 pages
Exam Registration System
61% (18)
Exam Registration System
12 pages
Mobile Application Development Lab Manual
No ratings yet
Mobile Application Development Lab Manual
16 pages
(My) SQL Cheat Sheet: Mysql Command-Line What How Example (S)
No ratings yet
(My) SQL Cheat Sheet: Mysql Command-Line What How Example (S)
4 pages
SQL and SQL Plus Basics
100% (2)
SQL and SQL Plus Basics
69 pages
Dbmssemauto
No ratings yet
Dbmssemauto
54 pages
Power BI Data Storytelling
No ratings yet
Power BI Data Storytelling
10 pages