0% found this document useful (0 votes)

18 views5 pages

Main - Py Text File

The document is a Python script that performs data analysis, cleaning, and visualization using libraries such as pandas, matplotlib, and seaborn. It includes functions for analyzing data columns, cleaning missing values, identifying critical columns, generating tags from text, and creating various visualizations. The script also manages directories for saving visualizations and cleaned data, and it handles potential errors during execution.

Uploaded by

vikhepa

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as TXT, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

18 views5 pages

Main - Py Text File

Uploaded by

vikhepa

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as TXT, PDF, TXT or read online on Scribd

You are on page 1/ 5

import pandas as pd

import matplotlib.pyplot as plt

import seaborn as sns
from sklearn.feature_extraction.text import CountVectorizer
import os

# Set a global seaborn style

sns.set(style="whitegrid", palette="coolwarm") # You can also try 'darkgrid',
'ticks', etc.

# Update font style globally

plt.rcParams.update({'font.size': 12, 'font.family': 'serif'}) # Set font size and
family globally

# Create the directory for visualizations

visualizations_directory = 'visualizations/'
if not os.path.exists(visualizations_directory):
os.makedirs(visualizations_directory)

# Create the directory for cleaned data

cleaned_data_directory = 'cleaned_data_files/'
if not os.path.exists(cleaned_data_directory):
os.makedirs(cleaned_data_directory)

def column_wise_analysis(data):
"""
Analyzes columns for data types, unique values, and numerical summaries.
"""
print("Data Types:\n", data.dtypes)

for column in data.columns:

print(f"\nColumn: {column}")
print(f"Unique Values: {data[column].nunique()}")
if data[column].dtype in ['float64', 'int64']:
print(f"Summary:\n{data[column].describe()}\n")
else:
print(f"Value Counts:\n{data[column].value_counts().head(5)}\n")

def data_cleaning(data):
"""
Cleans the dataset by handling missing values and inconsistencies.
"""
# Handle Missing Values
for column in data.select_dtypes(include=['float64', 'int64']).columns:
if data[column].isnull().any():
data[column] = data[column].fillna(data[column].mean()) # Fill
numerical NaNs with the column mean

for column in data.select_dtypes(include=['object']).columns:

if data[column].isnull().any():
data[column] = data[column].fillna(data[column].mode()[0]) # Fill
categorical NaNs with the mode

# Ensure uniformity in categorical columns (convert to lowercase)

for column in data.select_dtypes(include=['object']).columns:
data[column] = data[column].str.lower()

# Handle outliers (optional, you can adjust the thresholds or remove outliers
if needed)
for column in data.select_dtypes(include=['float64', 'int64']).columns:
upper_limit = data[column].mean() + 3 * data[column].std()
lower_limit = data[column].mean() - 3 * data[column].std()
data[column] = data[column].clip(lower=lower_limit, upper=upper_limit) #
Clip outliers to within limits

return data

def identify_critical_columns(data):
"""
Identifies and visualizes critical columns in the dataset.
"""
print("Columns in the dataset:", data.columns) # Debugging: Print the columns

# Update the critical columns list based on your dataset

critical_columns = [col for col in ['TOTALCOST', 'REPORTING_COST', 'LBRCOST',
'KM'] if col in data.columns]

if not critical_columns:
print("No critical columns found in the dataset.")
return

print("\nReasoning for Selected Critical Columns:") # Reasoning for selection

reasoning = {
'TOTALCOST': "Total expenditure; critical for profitability analysis.",
'REPORTING_COST': "Relevant for tracking costs associated with repairs.",
'LBRCOST': "Labor costs involved in repairs.",
'KM': "Kilometers, relevant for repair frequency analysis."
}

for col in critical_columns:

print(f"{col.upper()}: {reasoning.get(col, 'No reasoning available for this
column')}")

# Visualize the critical column (bar plot)

plt.figure(figsize=(10, 6))
data[col].plot(kind='bar', color='skyblue')
plt.title(f'{col.upper()} Bar Plot')
plt.xlabel('Index')
plt.ylabel(col.upper())
plt.tight_layout()
plt.savefig(f'{visualizations_directory}{col}_barplot.png') # Save plot as
image file
plt.show()

def generate_tags(data, text_column='CAUSAL_PART_NM'):

"""
Generates tags/features from free text in the dataset (if applicable).
"""
if text_column in data.columns:
vectorizer = CountVectorizer(stop_words='english', max_features=10)
data[text_column] = data[text_column].fillna('') # Replace NaNs with empty
strings for text processing
tags = vectorizer.fit_transform(data[text_column]) # Generate tag features
print("\nGenerated Tags:", vectorizer.get_feature_names_out()) # Display
top tags
else:
print(f"\nColumn '{text_column}' not found. Skipping tag generation.")

def visualize_data(data):
"""
Create various visualizations for the dataset.
"""
# Bar Charts for categorical data
categorical_columns = ['CAUSAL_PART_NM', 'PLATFORM', 'BODY_STYLE',
'DEALER_NAME', 'STATE']
for col in categorical_columns:
if col in data.columns:
plt.figure(figsize=(10, 6))
data[col].value_counts().plot(kind='bar', color='skyblue')
plt.title(f'{col} Distribution')
plt.xlabel(col)
plt.ylabel('Frequency')
plt.tight_layout()
plt.savefig(f'{visualizations_directory}{col}_barchart.png', dpi=300)
# Save with high resolution
plt.show()

# Line Chart for time-series data (REPAIR_DATE)

if 'REPAIR_DATE' in data.columns:
plt.figure(figsize=(10, 6))
data['REPAIR_DATE'] = pd.to_datetime(data['REPAIR_DATE'], errors='coerce')
# Convert to datetime

data.groupby(data['REPAIR_DATE'].dt.to_period('M')).size().plot(kind='line',
marker='o', color='orange')
plt.title('Repairs Over Time')
plt.xlabel('Date')
plt.ylabel('Number of Repairs')
plt.tight_layout()
plt.savefig(f'{visualizations_directory}repair_date_linechart.png',
dpi=300)
plt.show()

# Scatter Plot for KM vs TOTALCOST

if 'KM' in data.columns and 'TOTALCOST' in data.columns:
plt.figure(figsize=(10, 6))
plt.scatter(data['KM'], data['TOTALCOST'], color='green')
plt.title('Scatter Plot: KM vs TOTALCOST')
plt.xlabel('Kilometers')
plt.ylabel('Total Cost')
plt.tight_layout()
plt.savefig(f'{visualizations_directory}km_vs_totalcost_scatterplot.png',
dpi=300)
plt.show()

# Histogram for the Distribution of REPAIR_AGE

if 'REPAIR_AGE' in data.columns:
plt.figure(figsize=(10, 6))
data['REPAIR_AGE'].plot(kind='hist', bins=30, edgecolor='black',
color='purple')
plt.title('Distribution of REPAIR_AGE')
plt.xlabel('Repair Age')
plt.ylabel('Frequency')
plt.tight_layout()
plt.savefig(f'{visualizations_directory}repair_age_histogram.png', dpi=300)
plt.show()

# Heatmap for Correlation Between Numerical Columns

numerical_columns = data.select_dtypes(include=['float64', 'int64']).columns
if len(numerical_columns) > 1:
correlation_matrix = data[numerical_columns].corr()
plt.figure(figsize=(10, 6))
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', fmt='.2f',
cbar=True)
plt.title('Correlation Heatmap')
plt.tight_layout()
plt.savefig(f'{visualizations_directory}correlation_heatmap.png', dpi=300)
plt.show()

# Pie Chart for TRANSACTION_CATEGORY Distribution

if 'TRANSACTION_CATEGORY' in data.columns:
plt.figure(figsize=(8, 8))
data['TRANSACTION_CATEGORY'].value_counts().plot(kind='pie', autopct='%1.1f
%%', startangle=90)
plt.title('Transaction Category Distribution')
plt.ylabel('')
plt.tight_layout()
plt.savefig(f'{visualizations_directory}transaction_category_piechart.png',
dpi=300)
plt.show()

def main():
"""
Main function to execute data analysis, cleaning, and visualization steps.
"""
try:
# Load the dataset
file_path = r'D:\Downloads(D)\Chrome\Data for Task 1. (1).xlsx'
data = pd.read_excel(file_path) # Load data from Excel file
print("Dataset loaded successfully.")

# Display initial dataset overview

print("\nInitial Dataset Overview:")
print(data.head())
print(data.info())

# Step 1: Perform column-wise analysis

print("\nPerforming column-wise analysis...")
column_wise_analysis(data)

# Step 2: Clean the data

print("\nCleaning data...")
cleaned_data = data_cleaning(data)
print("\nData after cleaning:")
print(cleaned_data.head())

# Step 3: Identify and analyze critical columns

print("\nIdentifying and analyzing critical columns...")
identify_critical_columns(cleaned_data)

# Step 4: Generate tags/features from free text

print("\nGenerating tags from free text (if applicable)...")
generate_tags(cleaned_data, text_column='CAUSAL_PART_NM')

# Step 5: Visualize the data

print("\nVisualizing the data...")
visualize_data(cleaned_data)

# Step 6: Save the cleaned data to a CSV file

output_path = os.path.join(cleaned_data_directory, 'cleaned_data.csv')
cleaned_data.to_csv(output_path, index=False)
print(f"\nCleaned data saved to {output_path}")

except Exception as e:
print(f"An error occurred: {e}")

if __name__ == '__main__':
main()

Aspie Quiz
No ratings yet
Aspie Quiz
1 page
West Rox
No ratings yet
West Rox
29 pages
BIDA Practical Print
No ratings yet
BIDA Practical Print
56 pages
Data Preprocessing 2
No ratings yet
Data Preprocessing 2
5 pages
Data Analyzer
No ratings yet
Data Analyzer
10 pages
Real Estate
No ratings yet
Real Estate
10 pages
Boston House Prediction - Colab1
No ratings yet
Boston House Prediction - Colab1
10 pages
AIL303 M
No ratings yet
AIL303 M
22 pages
Codeppsjf
No ratings yet
Codeppsjf
16 pages
Data Mining Practicals Complete
No ratings yet
Data Mining Practicals Complete
13 pages
DAVL PR1.2 Mit
No ratings yet
DAVL PR1.2 Mit
10 pages
An Extensive Step by Step Guide To Exploratory Data Analysis
No ratings yet
An Extensive Step by Step Guide To Exploratory Data Analysis
26 pages
External
No ratings yet
External
11 pages
Ex - 08 DS
No ratings yet
Ex - 08 DS
11 pages
Chirayu (1) Merged Merged
No ratings yet
Chirayu (1) Merged Merged
76 pages
Phase3 NM
No ratings yet
Phase3 NM
7 pages
Practical D.V
No ratings yet
Practical D.V
13 pages
Code Shabab Error 7
No ratings yet
Code Shabab Error 7
5 pages
ML Lab - Exp1-10
No ratings yet
ML Lab - Exp1-10
4 pages
Data Visualization EDA-print
No ratings yet
Data Visualization EDA-print
18 pages
3rd Semester DDM AI DAA DEV Print Pages For Spiral Record 25-1-24 - Removed
No ratings yet
3rd Semester DDM AI DAA DEV Print Pages For Spiral Record 25-1-24 - Removed
28 pages
UNITIV BtechIot
No ratings yet
UNITIV BtechIot
43 pages
Summary: Introduction To Data Visualization Tools
No ratings yet
Summary: Introduction To Data Visualization Tools
13 pages
Pandas Complete + Visualisation Summary of IBM Visualization
No ratings yet
Pandas Complete + Visualisation Summary of IBM Visualization
21 pages
DAVP Lab Manual
No ratings yet
DAVP Lab Manual
12 pages
Practical 5
No ratings yet
Practical 5
6 pages
Unit1 ML Programs
No ratings yet
Unit1 ML Programs
5 pages
Exp 12 and 15
No ratings yet
Exp 12 and 15
4 pages
3 Creating Features - Kaggle
No ratings yet
3 Creating Features - Kaggle
14 pages
Data Visualization Lab: Experiment 1
No ratings yet
Data Visualization Lab: Experiment 1
8 pages
Https Raw - Githubusercontent.com Joelgrus Data-Science-From-Scratch Master Code Working With Data
No ratings yet
Https Raw - Githubusercontent.com Joelgrus Data-Science-From-Scratch Master Code Working With Data
7 pages
Machine Learning Lab
No ratings yet
Machine Learning Lab
43 pages
NumPy and Pandas Step
No ratings yet
NumPy and Pandas Step
9 pages
Data Cleaning EDA
No ratings yet
Data Cleaning EDA
5 pages
Malicious Coding
No ratings yet
Malicious Coding
4 pages
ML Labmanual
No ratings yet
ML Labmanual
33 pages
Eda Lab Assignment2
No ratings yet
Eda Lab Assignment2
10 pages
Analyzing Taxi Trends
No ratings yet
Analyzing Taxi Trends
43 pages
Advance Python
No ratings yet
Advance Python
5 pages
Mainpy (Customer Segmentation)
No ratings yet
Mainpy (Customer Segmentation)
6 pages
Matplotlib Pandas Guide
No ratings yet
Matplotlib Pandas Guide
7 pages
Advanced Visualization For Data Scientists With Matplotlib
No ratings yet
Advanced Visualization For Data Scientists With Matplotlib
38 pages
S6 - Data Mining Lab Experiments (Except 1)
No ratings yet
S6 - Data Mining Lab Experiments (Except 1)
6 pages
DV LAb Staff
No ratings yet
DV LAb Staff
73 pages
Fraud 2
No ratings yet
Fraud 2
20 pages
Data Exploration Preparation
No ratings yet
Data Exploration Preparation
12 pages
Dav Week8 240953580
No ratings yet
Dav Week8 240953580
15 pages
ML Lab
No ratings yet
ML Lab
14 pages
EDA Plots Code
No ratings yet
EDA Plots Code
13 pages
Roll NO 2020
No ratings yet
Roll NO 2020
8 pages
Advertising in ML
No ratings yet
Advertising in ML
9 pages
Cleaning Data in Python
No ratings yet
Cleaning Data in Python
8 pages
ML 3
No ratings yet
ML 3
24 pages
Aim: Objective
No ratings yet
Aim: Objective
7 pages
Eda Assignment 1
No ratings yet
Eda Assignment 1
12 pages
Customer Segmentation PDF
No ratings yet
Customer Segmentation PDF
18 pages
ML Short Code - Under Updating
No ratings yet
ML Short Code - Under Updating
4 pages
DMV Unit-4-1 PDF
No ratings yet
DMV Unit-4-1 PDF
10 pages
Code - Cap 3
No ratings yet
Code - Cap 3
5 pages
The Essential R Reference
From Everand
The Essential R Reference
Mark Gardener
No ratings yet
Profound Python Data Science
From Everand
Profound Python Data Science
Onder Teker
No ratings yet
Steel Grade: Material Data Sheet
No ratings yet
Steel Grade: Material Data Sheet
5 pages
GPhys 2 Lesson 1.1
No ratings yet
GPhys 2 Lesson 1.1
10 pages
Algorithms:: Inserting at Beginning of The List
No ratings yet
Algorithms:: Inserting at Beginning of The List
4 pages
How To Survive An FDA Inspection
No ratings yet
How To Survive An FDA Inspection
24 pages
Astm e 1417e - 05
No ratings yet
Astm e 1417e - 05
11 pages
Unit No. 8 Grinding Machines
No ratings yet
Unit No. 8 Grinding Machines
11 pages
5 - BOSCH I - O Module
No ratings yet
5 - BOSCH I - O Module
21 pages
Summer Task Jr. 1
No ratings yet
Summer Task Jr. 1
4 pages
Theoretical Analysis For Self-Sharpening Penetration of Tungsten High-Entropy Alloy Into Steel Target With Elevated Impact Velocities
No ratings yet
Theoretical Analysis For Self-Sharpening Penetration of Tungsten High-Entropy Alloy Into Steel Target With Elevated Impact Velocities
13 pages
22-10-2022 JR - Super60-Sterling BT Jee-Main Wtm-15 Q.paper
No ratings yet
22-10-2022 JR - Super60-Sterling BT Jee-Main Wtm-15 Q.paper
28 pages
Principles of Gender Specific Medicine Second Edition Marianne J. Legato Download
No ratings yet
Principles of Gender Specific Medicine Second Edition Marianne J. Legato Download
63 pages
JEE Mains 2026 Math High Weightage Syllabus
No ratings yet
JEE Mains 2026 Math High Weightage Syllabus
4 pages
402MAN - B6 - CW1 - Case Study 1 - Fashion & Sustainability - UK - 2023 - Executive Summary - Mintel
No ratings yet
402MAN - B6 - CW1 - Case Study 1 - Fashion & Sustainability - UK - 2023 - Executive Summary - Mintel
9 pages
The Industrial Revolution and Its Consequences
No ratings yet
The Industrial Revolution and Its Consequences
8 pages
Advanced Topics in Forensic DNA Typing Interpretation 1st Edition John M. Butler Ph.D. (Analytical Chemistry) University of Virginia Download
100% (1)
Advanced Topics in Forensic DNA Typing Interpretation 1st Edition John M. Butler Ph.D. (Analytical Chemistry) University of Virginia Download
56 pages
Đề thi thử Tiếng Anh 2023
No ratings yet
Đề thi thử Tiếng Anh 2023
18 pages
Lecture 2-Mold-Design
No ratings yet
Lecture 2-Mold-Design
48 pages
History of Positive Psychology
No ratings yet
History of Positive Psychology
9 pages
1976 - Controlled Release Polymeric Formulations
No ratings yet
1976 - Controlled Release Polymeric Formulations
321 pages
Syllabus Science Combined 0653
No ratings yet
Syllabus Science Combined 0653
64 pages
Chapter 1 - Lecture Notes
No ratings yet
Chapter 1 - Lecture Notes
34 pages
BR Knauf Ceiling Solutions Suspension Systems ND en
No ratings yet
BR Knauf Ceiling Solutions Suspension Systems ND en
96 pages
Presentation On Communication Skills
No ratings yet
Presentation On Communication Skills
19 pages
ND 24 Day Scholer Details
No ratings yet
ND 24 Day Scholer Details
2 pages
The Philippine Environmental Movements
No ratings yet
The Philippine Environmental Movements
11 pages
Preparation of Micro-Size Flake Silver Powder by Planetary
No ratings yet
Preparation of Micro-Size Flake Silver Powder by Planetary
6 pages
Sample of Cover Letter For Job Application in Nigeria
100% (1)
Sample of Cover Letter For Job Application in Nigeria
4 pages
Ancient Egypt Anatomy of A Civilisation 2nd Edition Barry J. Kemp PDF Download
No ratings yet
Ancient Egypt Anatomy of A Civilisation 2nd Edition Barry J. Kemp PDF Download
42 pages
A Solution To Problems Presented by Residual Magnetism in Electron Beam Welding
No ratings yet
A Solution To Problems Presented by Residual Magnetism in Electron Beam Welding
14 pages

Main - Py Text File

Uploaded by

Main - Py Text File

Uploaded by

import pandas as pd

import matplotlib.pyplot as plt

# Set a global seaborn style

# Update font style globally

# Create the directory for visualizations

# Create the directory for cleaned data

for column in data.columns:

for column in data.select_dtypes(include=['object']).columns:

# Ensure uniformity in categorical columns (convert to lowercase)

# Update the critical columns list based on your dataset

print("\nReasoning for Selected Critical Columns:") # Reasoning for selection

for col in critical_columns:

# Visualize the critical column (bar plot)

def generate_tags(data, text_column='CAUSAL_PART_NM'):

# Line Chart for time-series data (REPAIR_DATE)

# Scatter Plot for KM vs TOTALCOST

# Histogram for the Distribution of REPAIR_AGE

# Heatmap for Correlation Between Numerical Columns

# Pie Chart for TRANSACTION_CATEGORY Distribution

# Display initial dataset overview

# Step 1: Perform column-wise analysis

# Step 2: Clean the data

# Step 3: Identify and analyze critical columns

# Step 4: Generate tags/features from free text

# Step 5: Visualize the data

# Step 6: Save the cleaned data to a CSV file

You might also like