0% found this document useful (0 votes)

7 views3 pages

DataScience Coding QA

The document provides a collection of data science coding questions and answers, covering topics such as data cleaning, correlation calculations, DataFrame summarization, feature engineering, and SQL queries. It includes Python code snippets for various tasks like logistic regression metrics, flattening nested dictionaries, and creating batch generators. Additionally, it features SQL queries for analyzing customer purchases and user counts by country.

Uploaded by

Rakshit Kumar

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

7 views3 pages

DataScience Coding QA

Uploaded by

Rakshit Kumar

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 3

Data Science Coding Questions and Answers

1. Load CSV, clean data

import pandas as pd

df = pd.read_csv('data.csv')
df = df.drop_duplicates()
df = df.dropna()
df.columns = df.columns.str.lower().str.replace(' ', '_')

2. Pearson correlation from scratch

def pearson_corr(x, y):

mean_x = sum(x) / len(x)
mean_y = sum(y) / len(y)
num = sum((a - mean_x)*(b - mean_y) for a, b in zip(x, y))
den = (sum((a - mean_x)**2 for a in x) * sum((b - mean_y)**2 for b in y))**0.5
return num / den

3. DataFrame summary function

def summarize_df(df):
return {
'shape': df.shape,
'missing_values': df.isnull().sum().to_dict(),
'top_categoricals': {
col: df[col].value_counts().head(3).to_dict()
for col in df.select_dtypes(include='object')
}
}

4. Text feature engineering

df['num_chars'] = df['text'].str.len()
df['num_words'] = df['text'].str.split().apply(len)
df['avg_word_len'] = df['num_chars'] / df['num_words']

5. Binary column for top 10%

threshold = df['score'].quantile(0.9)
df['is_top_10_percent'] = df['score'] >= threshold

6. Datetime extraction

df['timestamp'] = pd.to_datetime(df['timestamp'])
df['weekday'] = df['timestamp'].dt.day_name()
df['hour'] = df['timestamp'].dt.hour
df['month'] = df['timestamp'].dt.month
Data Science Coding Questions and Answers

7. Logistic regression metrics

from sklearn.linear_model import LogisticRegression

from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report, confusion_matrix

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

model = LogisticRegression().fit(X_train, y_train)
y_pred = model.predict(X_test)
print(confusion_matrix(y_test, y_pred))
print(classification_report(y_test, y_pred))

8. Correlation matrix

df.corr()

9. Flatten nested dictionary

def flatten_dict(d, parent_key='', sep='_'):

items = []
for k, v in d.items():
new_key = f"{parent_key}{sep}{k}" if parent_key else k
if isinstance(v, dict):
items.extend(flatten_dict(v, new_key, sep=sep).items())
else:
items.append((new_key, v))
return dict(items)

10. Timer decorator

import time

def timer(func):
def wrapper(*args, **kwargs):
start = time.time()
result = func(*args, **kwargs)
print(f"{func.__name__} took {time.time() - start:.4f} seconds")
return result
return wrapper

11. Mini-batch generator

def batch_generator(data, batch_size):

for i in range(0, len(data), batch_size):
yield data[i:i+batch_size]

12. SQL: Find top 5 customers by purchase amount

SELECT customer_id, SUM(amount) AS total_spent

Data Science Coding Questions and Answers

FROM transactions
GROUP BY customer_id
ORDER BY total_spent DESC
LIMIT 5;

13. SQL: Count of users per country

SELECT country, COUNT(*) AS user_count

FROM users
GROUP BY country;

14. SQL: Users who made more than 3 purchases in last 30 days

SELECT user_id
FROM purchases
WHERE purchase_date >= CURRENT_DATE - INTERVAL '30 days'
GROUP BY user_id
HAVING COUNT(*) > 3;

15. SQL: Revenue per category

SELECT category, SUM(price * quantity) AS revenue

FROM sales
GROUP BY category;

CS4002 U-Deck Operator's Instructions
100% (1)
CS4002 U-Deck Operator's Instructions
148 pages
Answers To End-Of-Chapter Questions
No ratings yet
Answers To End-Of-Chapter Questions
2 pages
Smoke&Gas With PLC Project1-Modified
33% (3)
Smoke&Gas With PLC Project1-Modified
53 pages
The Worldwide Offshore Accident Databank (WOAD)
No ratings yet
The Worldwide Offshore Accident Databank (WOAD)
5 pages
C++ Robert Lafore
100% (4)
C++ Robert Lafore
701 pages
Adaptive Reuse and Facadism: A.Introduction
No ratings yet
Adaptive Reuse and Facadism: A.Introduction
31 pages
Data Science
No ratings yet
Data Science
10 pages
Data Science Notes
No ratings yet
Data Science Notes
44 pages
DATASCIENCE (Unit-1) Question Bank
No ratings yet
DATASCIENCE (Unit-1) Question Bank
6 pages
Real Python Interview Questions American Express
No ratings yet
Real Python Interview Questions American Express
7 pages
FDS - 1 Solved
No ratings yet
FDS - 1 Solved
17 pages
IDS Syllabus
No ratings yet
IDS Syllabus
5 pages
Python Data Science Cheat Sheet
No ratings yet
Python Data Science Cheat Sheet
2 pages
Module 1.Foundations of Data Science
No ratings yet
Module 1.Foundations of Data Science
17 pages
Cheat Sheet: Python For Data Science
No ratings yet
Cheat Sheet: Python For Data Science
4 pages
Cheat Sheet: Python For Data Science
No ratings yet
Cheat Sheet: Python For Data Science
4 pages
DS 3-Marks Semeseter Suggestion
No ratings yet
DS 3-Marks Semeseter Suggestion
54 pages
DW Lab File
No ratings yet
DW Lab File
18 pages
Common Python Data Science Interview Questions1
No ratings yet
Common Python Data Science Interview Questions1
5 pages
Data Science Workshop - Day 1
No ratings yet
Data Science Workshop - Day 1
80 pages
Data Science Module 1 Notes and QA
No ratings yet
Data Science Module 1 Notes and QA
4 pages
Course - Introduction To Data Science (SD211105)
No ratings yet
Course - Introduction To Data Science (SD211105)
10 pages
DATASCIENCE
No ratings yet
DATASCIENCE
2 pages
ICSE PHYTHON PROGRAMS
No ratings yet
ICSE PHYTHON PROGRAMS
65 pages
OCS353 - Review Questions
No ratings yet
OCS353 - Review Questions
3 pages
CSL 410 L04
No ratings yet
CSL 410 L04
17 pages
File 2
No ratings yet
File 2
43 pages
5 DSL Journal
No ratings yet
5 DSL Journal
39 pages
Test 1 Datasheet
No ratings yet
Test 1 Datasheet
3 pages
Top 50 Python Interview Questions
No ratings yet
Top 50 Python Interview Questions
8 pages
Datascince 1
No ratings yet
Datascince 1
190 pages
Report
No ratings yet
Report
18 pages
Machine Learning Lecture2
No ratings yet
Machine Learning Lecture2
38 pages
Data Science Assignments
No ratings yet
Data Science Assignments
6 pages
Data Science QnA
No ratings yet
Data Science QnA
15 pages
Foundation of Data Science Solve Question Paper Aug 2022
No ratings yet
Foundation of Data Science Solve Question Paper Aug 2022
7 pages
5 WEEK Python Programs
No ratings yet
5 WEEK Python Programs
20 pages
Top 100 Python Interview Questions For Data Analyst
No ratings yet
Top 100 Python Interview Questions For Data Analyst
10 pages
Introduction To Data Science - 23CSH-283
100% (1)
Introduction To Data Science - 23CSH-283
48 pages
Data Science QB
No ratings yet
Data Science QB
2 pages
Cs3352 -Foundation of Data Science(1)
No ratings yet
Cs3352 -Foundation of Data Science(1)
56 pages
227C4A Data Science
No ratings yet
227C4A Data Science
2 pages
SampleQuestion - AIOL 2024
No ratings yet
SampleQuestion - AIOL 2024
5 pages
IDA - Sample Questions FA1
No ratings yet
IDA - Sample Questions FA1
2 pages
Even Students
No ratings yet
Even Students
36 pages
Question Bank-BDA (Module 1&2) 2
No ratings yet
Question Bank-BDA (Module 1&2) 2
5 pages
PDF 20230708 071434 0000
No ratings yet
PDF 20230708 071434 0000
6 pages
AI Qna
No ratings yet
AI Qna
5 pages
CS3352_FDS_Solved_2024
No ratings yet
CS3352_FDS_Solved_2024
3 pages
Foslipy Notes For Data Science Module 1 & 2
No ratings yet
Foslipy Notes For Data Science Module 1 & 2
3 pages
Numpy
No ratings yet
Numpy
13 pages
Python and Libraries for AI
No ratings yet
Python and Libraries for AI
34 pages
Unit-II Data Science QB
No ratings yet
Unit-II Data Science QB
33 pages
Module 1 - Introduction To Data Science
No ratings yet
Module 1 - Introduction To Data Science
3 pages
Holidays Homework - 20231204 - 195647 - 0000
No ratings yet
Holidays Homework - 20231204 - 195647 - 0000
15 pages
What Is A Series and How Is It Different From A 1-D Array, A List, and A Dictionary
No ratings yet
What Is A Series and How Is It Different From A 1-D Array, A List, and A Dictionary
3 pages
Numpy Merged
No ratings yet
Numpy Merged
59 pages
Datascience Internship
No ratings yet
Datascience Internship
43 pages
Notes For Fintech Assesment, Cheatsheet
No ratings yet
Notes For Fintech Assesment, Cheatsheet
19 pages
DATASCIENCE
No ratings yet
DATASCIENCE
3 pages
Summer Vacation Work IP
No ratings yet
Summer Vacation Work IP
4 pages
Model Question Paper With Effect From 2021 (CBCS Scheme) : Data Science and Visualization
No ratings yet
Model Question Paper With Effect From 2021 (CBCS Scheme) : Data Science and Visualization
29 pages
Data Manipulation Topics List
No ratings yet
Data Manipulation Topics List
6 pages
Draeger Panorama Standard P en
No ratings yet
Draeger Panorama Standard P en
2 pages
Ananta Group Profile Feb 2012
No ratings yet
Ananta Group Profile Feb 2012
20 pages
Ceran (R) Cleartrans Product Detail Sheet
No ratings yet
Ceran (R) Cleartrans Product Detail Sheet
2 pages
9070 T 250 D 1
No ratings yet
9070 T 250 D 1
5 pages
DALIMA - Brochure 2017
No ratings yet
DALIMA - Brochure 2017
23 pages
Shafer™ RV-Series Rotary Vane Valve Actuators
No ratings yet
Shafer™ RV-Series Rotary Vane Valve Actuators
8 pages
ML梅花联轴器 coupling-20150603162036
No ratings yet
ML梅花联轴器 coupling-20150603162036
24 pages
Frigidaire Freezer Ffu2064dw1
No ratings yet
Frigidaire Freezer Ffu2064dw1
12 pages
Comparative Analysis
No ratings yet
Comparative Analysis
2 pages
Chandni Tiwari: Chandni - Sai21@yahoo - Co M
No ratings yet
Chandni Tiwari: Chandni - Sai21@yahoo - Co M
4 pages
Urban Design
No ratings yet
Urban Design
9 pages
PTW Questionnaire 1 Nov. 2020
No ratings yet
PTW Questionnaire 1 Nov. 2020
4 pages
ERPIntegrator
No ratings yet
ERPIntegrator
144 pages
Army Aviation Digest - Jun 1977
100% (1)
Army Aviation Digest - Jun 1977
52 pages
Piping Basics
No ratings yet
Piping Basics
3 pages
Updated Tiago Accessories Price List 09 September 2017 PDF
No ratings yet
Updated Tiago Accessories Price List 09 September 2017 PDF
2 pages
08030-B Daniel Senior Model 2000 Orifice Fittings (3 Inch-600)
No ratings yet
08030-B Daniel Senior Model 2000 Orifice Fittings (3 Inch-600)
84 pages
Research Plan
No ratings yet
Research Plan
3 pages
Guiding For Hospital
100% (1)
Guiding For Hospital
14 pages
Redux Async - Course Introduction: Let Us First Try To Understand The Asynchronous Behaviour!
No ratings yet
Redux Async - Course Introduction: Let Us First Try To Understand The Asynchronous Behaviour!
7 pages
Holistic Exam-2006-1 PDF
No ratings yet
Holistic Exam-2006-1 PDF
9 pages
Printek Factsheet Mix RC1536L English Without Printmark
No ratings yet
Printek Factsheet Mix RC1536L English Without Printmark
2 pages
U588SP10140E
No ratings yet
U588SP10140E
13 pages
8 - Lookup Functions - V1
No ratings yet
8 - Lookup Functions - V1
8 pages