etl_and_stats_code

The document outlines an ETL (Extract, Transform, Load) process using Python with pandas and numpy. It includes data extraction from a CSV-like structure, transformation by adding a bonus and normalizing age, and loading the transformed data into a CSV file. Additionally, it performs statistical analysis on salary data and implements a simple linear regression model to predict salary based on age.

Uploaded by

Rahul Waldia

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as TXT, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

3 views

etl_and_stats_code

Uploaded by

Rahul Waldia

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as TXT, PDF, TXT or read online on Scribd

You are on page 1/ 2

import pandas as pd

import numpy as np
from scipy.stats import norm

# Step 1: Extract
def extract_data():
# Example data as a CSV
data = {
'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Eve'],
'Age': [25, 30, 35, 40, 29],
'Salary': [50000, 60000, 70000, 80000, 55000]
}
df = pd.DataFrame(data)
print("Data Extracted:")
print(df)
return df

# Step 2: Transform
def transform_data(df):
# Adding a column for Bonus (10% of Salary)
df['Bonus'] = df['Salary'] * 0.1

# Normalizing Age column (min-max scaling)

df['Age_Normalized'] = (df['Age'] - df['Age'].min()) / (df['Age'].max() -
df['Age'].min())

print("\nData Transformed:")
print(df)
return df

# Step 3: Load
def load_data(df):
# Save transformed data to a CSV file
output_file = "transformed_data.csv"
df.to_csv(output_file, index=False)
print(f"\nData Loaded to {output_file}")

# Statistical Functions
def statistical_functions(df):
# Mean and Median
mean_salary = np.mean(df['Salary'])
median_salary = np.median(df['Salary'])

# Normal Distribution Example

mu, sigma = mean_salary, np.std(df['Salary'])
normal_dist = norm.pdf(df['Salary'], mu, sigma)
df['Normal_Distribution'] = normal_dist

print("\nStatistical Analysis:")
print(f"Mean Salary: {mean_salary}")
print(f"Median Salary: {median_salary}")
print("\nNormal Distribution (Probability Density Function):")
print(df[['Salary', 'Normal_Distribution']])

# Modeling (Linear Regression Example)

def simple_model(df):
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error

# Independent variable: Age, Dependent variable: Salary

X = df[['Age']]
y = df['Salary']

# Splitting data
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2,
random_state=42)

# Model Training
model = LinearRegression()
model.fit(X_train, y_train)

# Prediction and Evaluation

y_pred = model.predict(X_test)
mse = mean_squared_error(y_test, y_pred)

print("\nSimple Linear Regression Model:")

print(f"Coefficient: {model.coef_[0]}")
print(f"Intercept: {model.intercept_}")
print(f"Mean Squared Error: {mse}")

# Main Function to Execute the Steps

def main():
# ETL Process
df = extract_data()
df = transform_data(df)
load_data(df)

# Statistical Analysis
statistical_functions(df)

# Simple Modeling
simple_model(df)

# Run the main function

if __name__ == "__main__":
main()

Deformations of Reinforced Concrete Members at Yielding and Ultimate
No ratings yet
Deformations of Reinforced Concrete Members at Yielding and Ultimate
84 pages
Palworld - Breeding Combinations and Calculator (v1.3-014)
No ratings yet
Palworld - Breeding Combinations and Calculator (v1.3-014)
24 pages
Foamglas Insulation - Installation Guidelines
No ratings yet
Foamglas Insulation - Installation Guidelines
36 pages
Answers 2 Reviews and Exercises
No ratings yet
Answers 2 Reviews and Exercises
26 pages
Sonar For Practising Engineers, 3rd Edition
88% (8)
Sonar For Practising Engineers, 3rd Edition
323 pages
python 1
No ratings yet
python 1
3 pages
Data Preprocessing & Visualization1
No ratings yet
Data Preprocessing & Visualization1
2 pages
EXP-4 DMusingPYTHON
No ratings yet
EXP-4 DMusingPYTHON
7 pages
Task1
No ratings yet
Task1
5 pages
Linear Regression2
No ratings yet
Linear Regression2
9 pages
2022UCD2164-1-2
No ratings yet
2022UCD2164-1-2
35 pages
Data Science and Analtics Laboratory
No ratings yet
Data Science and Analtics Laboratory
21 pages
Regression Dataset Example
No ratings yet
Regression Dataset Example
14 pages
Linear Regression 1
No ratings yet
Linear Regression 1
2 pages
Data Visualization EDA-print
No ratings yet
Data Visualization EDA-print
18 pages
Linear regression - Colab
No ratings yet
Linear regression - Colab
1 page
Simple Linear Regression in Machine Learning
No ratings yet
Simple Linear Regression in Machine Learning
7 pages
Fdsa Final
No ratings yet
Fdsa Final
34 pages
Python Module 5
No ratings yet
Python Module 5
19 pages
Aayushi ML File
No ratings yet
Aayushi ML File
37 pages
Data Analysis in Python-3
No ratings yet
Data Analysis in Python-3
4 pages
MACHINE LEARNING manual
No ratings yet
MACHINE LEARNING manual
36 pages
AIDS - DM Using Python - Lab Programs
No ratings yet
AIDS - DM Using Python - Lab Programs
19 pages
Kartik mlp 4-9prg (1)
No ratings yet
Kartik mlp 4-9prg (1)
10 pages
PythonFile[1]
No ratings yet
PythonFile[1]
5 pages
MACHINE LEARNING LAB WORD 12-1-2025. DOCUMENT
No ratings yet
MACHINE LEARNING LAB WORD 12-1-2025. DOCUMENT
68 pages
Ai Programs
No ratings yet
Ai Programs
22 pages
aiml_
No ratings yet
aiml_
27 pages
Data Science Record_05
No ratings yet
Data Science Record_05
20 pages
Simple Linear Regression
No ratings yet
Simple Linear Regression
4 pages
Simple Linear Regression
No ratings yet
Simple Linear Regression
4 pages
Kunj Project 1
No ratings yet
Kunj Project 1
34 pages
Data Preprocessing
No ratings yet
Data Preprocessing
18 pages
EmployeeMgmt XII IP ProjectReprot 2022 23
No ratings yet
EmployeeMgmt XII IP ProjectReprot 2022 23
16 pages
Pattern Recognition
No ratings yet
Pattern Recognition
26 pages
Aastha IP Employee Project
No ratings yet
Aastha IP Employee Project
32 pages
Lab 11,12 - Copy
No ratings yet
Lab 11,12 - Copy
7 pages
Gaurav - Data Mining Lab Assignment
No ratings yet
Gaurav - Data Mining Lab Assignment
36 pages
DSBDA3 - Jupyter Notebook
No ratings yet
DSBDA3 - Jupyter Notebook
12 pages
employee management-Ghanim,Rudra
No ratings yet
employee management-Ghanim,Rudra
25 pages
Machine Learning 2
No ratings yet
Machine Learning 2
45 pages
Kunj Project 1
No ratings yet
Kunj Project 1
34 pages
Project paarth (1) (1)
No ratings yet
Project paarth (1) (1)
21 pages
ml_6_7_8 (1)
No ratings yet
ml_6_7_8 (1)
10 pages
Employee Info
No ratings yet
Employee Info
2 pages
Lab 1
No ratings yet
Lab 1
3 pages
Data Science
No ratings yet
Data Science
18 pages
Kunj 3
No ratings yet
Kunj 3
34 pages
utf-8''C2M1 Assignment
No ratings yet
utf-8''C2M1 Assignment
24 pages
vertopal.com_Final007
No ratings yet
vertopal.com_Final007
35 pages
CS 3362 FDS
No ratings yet
CS 3362 FDS
53 pages
2.1 ML (Implementation of Simple Linear Regression in Python)
No ratings yet
2.1 ML (Implementation of Simple Linear Regression in Python)
8 pages
Employee Management System
No ratings yet
Employee Management System
33 pages
Viksit Ip Project File
No ratings yet
Viksit Ip Project File
33 pages
Parth IP Employee Management Project (1)
No ratings yet
Parth IP Employee Management Project (1)
32 pages
ML File
No ratings yet
ML File
37 pages
Ip Project File
No ratings yet
Ip Project File
46 pages
Assignment 03
No ratings yet
Assignment 03
6 pages
Practical_1
No ratings yet
Practical_1
5 pages
AD3411 DATA SCIENCE AND ANALYTICS LAB (2)_removed
No ratings yet
AD3411 DATA SCIENCE AND ANALYTICS LAB (2)_removed
24 pages
Salary Prediction LinearRegression
100% (1)
Salary Prediction LinearRegression
7 pages
External
No ratings yet
External
11 pages
FDS RECORD-1-4
No ratings yet
FDS RECORD-1-4
18 pages
New Microsoft Word Document
No ratings yet
New Microsoft Word Document
11 pages
Profound Python Data Science
From Everand
Profound Python Data Science
Onder Teker
No ratings yet
Session 12 - Time Series and Forecasting (GbA) PDF
No ratings yet
Session 12 - Time Series and Forecasting (GbA) PDF
84 pages
Microcontroller AND Applications (LAB)
No ratings yet
Microcontroller AND Applications (LAB)
64 pages
Detailed Lesson Plan in Math4 Co2
No ratings yet
Detailed Lesson Plan in Math4 Co2
7 pages
Real Analysis Assignment & Solution
No ratings yet
Real Analysis Assignment & Solution
4 pages
2F MS
No ratings yet
2F MS
28 pages
Production Process and Costs
No ratings yet
Production Process and Costs
22 pages
Lesson 22: Multiplying and Dividing Expressions With Radicals
No ratings yet
Lesson 22: Multiplying and Dividing Expressions With Radicals
16 pages
BES103 PythonLab4
No ratings yet
BES103 PythonLab4
4 pages
Real Analysis-2
No ratings yet
Real Analysis-2
6 pages
Final Mechanics ENGLISH MATH SCIENCE Amazing Race
No ratings yet
Final Mechanics ENGLISH MATH SCIENCE Amazing Race
7 pages
CDAC
No ratings yet
CDAC
2 pages
Search Techniques in AI
No ratings yet
Search Techniques in AI
3 pages
MAT 261 Rogawski Spring 2014
No ratings yet
MAT 261 Rogawski Spring 2014
76 pages
Introduction To Econometrics, 5 Edition: Chapter 3: Multiple Regression Analysis
No ratings yet
Introduction To Econometrics, 5 Edition: Chapter 3: Multiple Regression Analysis
17 pages
Ap2 PDF
No ratings yet
Ap2 PDF
13 pages
Statistical Mechanics Lecture Notes (2006), L12
No ratings yet
Statistical Mechanics Lecture Notes (2006), L12
7 pages
K Roset Training
100% (1)
K Roset Training
22 pages
Integrated Seismic Interpretation of The Mumbai High Field
100% (1)
Integrated Seismic Interpretation of The Mumbai High Field
4 pages
Electrical Engineering (UEE001) : Dr. S. K. Aggarwal
No ratings yet
Electrical Engineering (UEE001) : Dr. S. K. Aggarwal
12 pages
Scatter Diagrams: Earnings Given Age
No ratings yet
Scatter Diagrams: Earnings Given Age
3 pages
Post-Tonal Music Theory
No ratings yet
Post-Tonal Music Theory
5 pages
Download ebooks file Air Bearings Theory Design and Applications 1st Edition Farid Al-Bender all chapters
100% (2)
Download ebooks file Air Bearings Theory Design and Applications 1st Edition Farid Al-Bender all chapters
72 pages
TLE-GRADE8-Q4-SY.-2022-2023
No ratings yet
TLE-GRADE8-Q4-SY.-2022-2023
87 pages
Requirements of Driver's Field of Vision For Agricultural Tractors
No ratings yet
Requirements of Driver's Field of Vision For Agricultural Tractors
10 pages
19 20Champs4Tests
No ratings yet
19 20Champs4Tests
40 pages