0% found this document useful (0 votes)

51 views

Uob Python Lecture2p

The document discusses data analysis in Python. It covers interacting with external data sources, preparing data through cleaning and transforming, modeling and computation, and presenting results. Specific techniques covered include loading JSON data and counting timezones in a dataset. Pandas is introduced for working with tabular data and visualizing frequency counts of timezones using matplotlib.

Uploaded by

Selenia

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

51 views

Uob Python Lecture2p

Uploaded by

Selenia

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 22

The UOB Python Lectures:

Part 3 - Python for Data

Analysis
Hesham al-Ammal
University of Bahrain

Thursday, April 4, 13
Small Data
BIG Data

Thursday, April 4, 13
Data Scientist’s Tasks
Interacting with the outside Preparation
world Cleaning, munging, combining, normalizing,
Reading and writing with a variety of file reshaping, slicing and dicing, and
formats and databases. transforming data for analysis.

Modeling and computation Transformation

Connecting your data to statistical models, Applying mathematical and statistical
machine learning algorithms, or other operations to groups of data sets to derive
computational tools new data sets. For example, aggregating a
large table by group variables.

Presentation
Creating interactive or static graphical
visualizations or textual summaries

Thursday, April 4, 13
Example 1: .usa.gov data
from bit.ly
JSON: JavaScript Object Notation

Python has many JSON libraries

In [15]: path = 'ch02/
usagov_bitly_data2012-03-16-1331923249.txt'
In [16]: open(path).readline()

We’ll use list comprehension to put the data in

a dictionary
import json
path = 'usagov_bitly_data2012-03-16-1331923249.txt'
records = [json.loads(line) for line in open(path)]
record[0]

Thursday, April 4, 13
In [19]: records[0]['tz'] Unicode strings and notice how
Out[19]: u'America/New_York' dictionaries work

In [20]: print records[0]['tz']

America/New_York

Counting timezones in Python

Let’s start by using Pyhton only and list comprehension
In [6]: time_zones = [rec['tz'] for rec in records]
---------------------------------------------------------------------------
KeyError Traceback (most recent call last)
<ipython-input-6-db4fbd348da9> in <module>()
----> 1 time_zones = [rec['tz'] for rec in records]

KeyError: 'tz'
You’ll get an error because not all
records have time zones
Thursday, April 4, 13
Counting timezones in Python
Solve the problem of missing tz by using an if
In [26]: time_zones = [rec['tz'] for rec in records if 'tz' in rec]
In [27]: time_zones[:10]
Out[27]:
Define a function to def get_counts(sequence):
[u'America/New_York',
count occurrences in a counts = {}
u'America/Denver',
sequence using a for x in sequence:
u'America/New_York',
if x in counts:
u'America/Sao_Paulo', dictionary
counts[x] += 1
u'America/New_York',
else:
u'America/New_York',
counts[x] = 1
u'Europe/Warsaw',
return counts
u'',
u'',
u''] Then just pass the time In [31]: counts = get_counts(time_zones)
zones list In [32]: counts['America/New_York']
Out[32]: 1251
In [33]: len(time_zones)
Out[33]: 3440

Thursday, April 4, 13
Finding the top 10 timezones
We have to manipulate the dictionary by sorting
def top_counts(count_dict, n=10):
value_key_pairs = [(count, tz) for tz, count in
count_dict.items()]
value_key_pairs.sort()
return value_key_pairs[-n:]

In [35]: top_counts(counts)
Out[35]:
[(33, u'America/Sao_Paulo'),
(35, u'Europe/Madrid'),
(36, u'Pacific/Honolulu'),
(37, u'Asia/Tokyo'),
Then we will have (74, u'Europe/London'),
(191, u'America/Denver'),
(382, u'America/Los_Angeles'),
(400, u'America/Chicago'),
(521, u''),
(1251, u'America/New_York')]

Thursday, April 4, 13
Let’s do the same thing
in pandas
In [289]: from pandas import DataFrame, Series In [293]: frame['tz'][:10]
In [290]: import pandas as pd Out[293]:
In [291]: frame = DataFrame(records) 0 America/New_York
In [292]: frame 1 America/Denver
2 America/New_York
3 America/Sao_Paulo
4 America/New_York
5 America/New_York
6 Europe/Warsaw
7
8
9
Name: tz

Thursday, April 4, 13
What is pandas?

pandas : Python Data Analysis Library

an open source, BSD-licensed library providing high-
performance, easy-to-use data structures and data analysis
tools for the Python programming language.

Features:
Effcient Dataframes data structure

Tools for data reading, munging, cleaning, etc.

Thursday, April 4, 13
To get the counts

In [294]: tz_counts = frame['tz'].value_counts()

In [295]: tz_counts[:10]
Out[295]:
America/New_York 1251
521
America/Chicago 400
America/Los_Angeles 382 To clean missing values
America/Denver 191
Europe/London 74 In [296]: clean_tz = frame['tz'].fillna('Missing')
Asia/Tokyo 37 In [297]: clean_tz[clean_tz == ''] = 'Unknown'
Pacific/Honolulu 36 In [298]: tz_counts = clean_tz.value_counts()
Europe/Madrid 35 In [299]: tz_counts[:10]
America/Sao_Paulo 33 Out[299]:
America/New_York 1251
Unknown 521
America/Chicago 400
America/Los_Angeles 382
America/Denver 191
Missing 120 Remember “data
cleaning”

Thursday, April 4, 13
To plot the results (presentation)

In [301]: tz_counts[:10].plot(kind='barh', rot=0)

import matplotlib.pyplot as plt

plt.show

Thursday, April 4, 13
Example 2: Movie Lens
1M Dataset

GroupLens Research (http://

www.grouplens.org/node/73)

Ratings for movies 1990s+2000s

Three tables: 1 million ratings, 6000 users,

4000 movies

Thursday, April 4, 13
Interacting with the outside Preparation
world Cleaning, munging, combining, normalizing,
Reading and writing with a variety of file reshaping, slicing and dicing, and
formats and databases. transforming data for analysis.

Extract the data from a zip file and load it into

pansdas DataFrames

import pandas as pd

unames = ['user_id', 'gender', 'age', 'occupation', 'zip']

users = pd.read_table('ml-1m/users.dat', sep='::', header=None,names=unames)

rnames = ['user_id', 'movie_id', 'rating', 'timestamp']

ratings = pd.read_table('ml-1m/ratings.dat', sep='::', header=None,names=rnames)

mnames = ['movie_id', 'title', 'genres']

movies = pd.read_table('ml-1m/movies.dat', sep='::', header=None,names=mnames)

Thursday, April 4, 13
Verify
Preparation
Cleaning, munging, combining, normalizing,
reshaping, slicing and dicing, and
transforming data for analysis.

In [334]: users[:5]

In [335]: ratings[:5]

In [336]: movies[:5]

Thursday, April 4, 13
Merge Preparation
Cleaning, munging, combining, normalizing,
reshaping, slicing and dicing, and
transforming data for analysis.

Using pandas’s merge function, we first

merge ratings with users then merging that
result with the movies data. pandas infers
which columns to use as the merge (or join)
keys based on overlapping names

Thursday, April 4, 13
Merge results
In [338]: data = pd.merge(pd.merge(ratings, users), movies)
In [339]: data
Out[339]:
<class 'pandas.core.frame.DataFrame'>
Int64Index: 1000209 entries, 0 to 1000208
Data columns:
user_id 1000209 non-null values
movie_id 1000209 non-null values
rating 1000209 non-null values
timestamp 1000209 non-null values
gender 1000209 non-null values
age 1000209 non-null values
occupation 1000209 non-null values
zip 1000209 non-null values
title 1000209 non-null values
genres 1000209 non-null values
dtypes: int64(6), object(4)

Thursday, April 4, 13
Example 3: US Baby
Names 1880-2010
United States Social Security Administration
(SSA) http://www.ssa.gov/oact/babynames/
limits.html

Visualize the proportion of babies given a

particular name

Determine the most popular names in each

year or the names with largest increases
or decreases

Thursday, April 4, 13
Thursday, April 4, 13
Thursday, April 4, 13
Thursday, April 4, 13
Thursday, April 4, 13
Lets do some more
investigations

names[names.name=='Mohammad']

names[names.name=='Fatima']

Thursday, April 4, 13

Xtream IPTV Activation Code 2025
72% (64)
Xtream IPTV Activation Code 2025
18 pages
The Kama Sutra in 200 Positions
84% (114)
The Kama Sutra in 200 Positions
215 pages
Jouissance Club Livre
100% (5)
Jouissance Club Livre
258 pages
The Complete French Conjugation Course - Cover
100% (6)
The Complete French Conjugation Course - Cover
447 pages
DUNOD DCG 2 Droit Des Sociétés
94% (16)
DUNOD DCG 2 Droit Des Sociétés
497 pages
Vocabulaire Progressif Du Français Corrigés
100% (11)
Vocabulaire Progressif Du Français Corrigés
65 pages
n8n_Tips_and_Tricks
No ratings yet
n8n_Tips_and_Tricks
7 pages
200 Common French Verbs
80% (10)
200 Common French Verbs
3 pages
Complete French (Learn French With Teach Yourself)
92% (65)
Complete French (Learn French With Teach Yourself)
509 pages
Collins Easy Learning French Grammar (Gnv64)
97% (58)
Collins Easy Learning French Grammar (Gnv64)
162 pages
Python Cheat Sheet 2.0
100% (1)
Python Cheat Sheet 2.0
10 pages
Easy French Step-by-Step PDF
100% (23)
Easy French Step-by-Step PDF
399 pages
Cisco Certified DevNet Associate DEVASC 200 901 Official Cert Guide
No ratings yet
Cisco Certified DevNet Associate DEVASC 200 901 Official Cert Guide
678 pages
Colloquial French - The Complete Course For Beginners (Colloquial Series) PDF
100% (12)
Colloquial French - The Complete Course For Beginners (Colloquial Series) PDF
287 pages
The Perfect French Self Study Guide
100% (5)
The Perfect French Self Study Guide
22 pages
Advanced French Grammar PDF
97% (35)
Advanced French Grammar PDF
717 pages
Vocabulaire Progressif Du Francais Debutant Complet 2015
97% (33)
Vocabulaire Progressif Du Francais Debutant Complet 2015
114 pages
Le Petit Prince
100% (16)
Le Petit Prince
57 pages
French Grammar Basic
60% (10)
French Grammar Basic
16 pages
Short Stories FR Intermediate PDF
100% (7)
Short Stories FR Intermediate PDF
185 pages
365 Days of French Expressions Without Audio
100% (3)
365 Days of French Expressions Without Audio
237 pages
French Made Simple
93% (14)
French Made Simple
196 pages
French Foundations Master The Basics in Two Weeks (Olly Richards)
100% (7)
French Foundations Master The Basics in Two Weeks (Olly Richards)
155 pages
S1 CS - U4 Data Ranges - Frequencies - Shifting
No ratings yet
S1 CS - U4 Data Ranges - Frequencies - Shifting
24 pages
Data Aggregation
No ratings yet
Data Aggregation
68 pages
Python Cheat Sheet: Pandas - Numpy - Sklearn Matplotlib - Seaborn BS4 - Selenium - Scrapy
100% (3)
Python Cheat Sheet: Pandas - Numpy - Sklearn Matplotlib - Seaborn BS4 - Selenium - Scrapy
9 pages
French Workbook
100% (10)
French Workbook
288 pages
Infinitive: Simple Past
100% (14)
Infinitive: Simple Past
4 pages
Le Français en Images
91% (11)
Le Français en Images
86 pages
233 Complete French Grammer - Sample
82% (11)
233 Complete French Grammer - Sample
20 pages
A Definitive Guide To French Verbs
86% (7)
A Definitive Guide To French Verbs
106 pages
ZoodMall Merchant API 2.0.16-En
No ratings yet
ZoodMall Merchant API 2.0.16-En
22 pages
CH 3 2
No ratings yet
CH 3 2
17 pages
Python Cheat Sheet For Excel Users
100% (2)
Python Cheat Sheet For Excel Users
5 pages
MLStackCafe2
No ratings yet
MLStackCafe2
11 pages
Python Cheat Sheet: Pandas - Numpy - Sklearn Matplotlib - Seaborn BS4 - Selenium - Scrapy
100% (4)
Python Cheat Sheet: Pandas - Numpy - Sklearn Matplotlib - Seaborn BS4 - Selenium - Scrapy
11 pages
41b Data Wrangling, Grouping and Aggregation
No ratings yet
41b Data Wrangling, Grouping and Aggregation
31 pages
Chapter 3
No ratings yet
Chapter 3
47 pages
Chapter2 - Data Wrangling
No ratings yet
Chapter2 - Data Wrangling
48 pages
UNIT_IV (1)
No ratings yet
UNIT_IV (1)
63 pages
Python Cheat Sheet For Excel Users
No ratings yet
Python Cheat Sheet For Excel Users
5 pages
Data Cleaning and Exploratory Data Analysis With Pandas On Trending Youtube Video Statistics
No ratings yet
Data Cleaning and Exploratory Data Analysis With Pandas On Trending Youtube Video Statistics
5 pages
Python For Exploratory Data Analysis
No ratings yet
Python For Exploratory Data Analysis
12 pages
Lec 05-DSFa23
No ratings yet
Lec 05-DSFa23
65 pages
Cleaning Data in Python
No ratings yet
Cleaning Data in Python
24 pages
Pandas
No ratings yet
Pandas
94 pages
Lesson - 3 - 1 Data Wrangling
No ratings yet
Lesson - 3 - 1 Data Wrangling
29 pages
Python For Data Science Cheat Sheet 2.0
No ratings yet
Python For Data Science Cheat Sheet 2.0
11 pages
Pythonic Data Cleaning With Numpy and Pandas
No ratings yet
Pythonic Data Cleaning With Numpy and Pandas
11 pages
Python For Data Science Cheat Sheet 2.0
100% (1)
Python For Data Science Cheat Sheet 2.0
11 pages
Lec 05-DSFa23 data science
No ratings yet
Lec 05-DSFa23 data science
65 pages
Data Preprocessing
No ratings yet
Data Preprocessing
84 pages
Python For Data Analysis
67% (3)
Python For Data Analysis
39 pages
Dev Lab Manual Org
No ratings yet
Dev Lab Manual Org
28 pages
Commands SQL, Python (BASICS)
No ratings yet
Commands SQL, Python (BASICS)
7 pages
CSE445 NSU Week_3
No ratings yet
CSE445 NSU Week_3
48 pages
Importing Data Python Cheat Sheet PDF
No ratings yet
Importing Data Python Cheat Sheet PDF
1 page
Data Science With Python - Lesson 07 - Data Manipulation With Python - Pandas
No ratings yet
Data Science With Python - Lesson 07 - Data Manipulation With Python - Pandas
72 pages
Data Wrangling With Python and Pandas
No ratings yet
Data Wrangling With Python and Pandas
7 pages
Cleaning Data in Python
No ratings yet
Cleaning Data in Python
26 pages
Chapter 4
No ratings yet
Chapter 4
58 pages
Effective Pandas Sampleocr
No ratings yet
Effective Pandas Sampleocr
13 pages
lecture-week2
No ratings yet
lecture-week2
72 pages
Cleaning Data in Python
No ratings yet
Cleaning Data in Python
47 pages
Pandas PDF(2)
No ratings yet
Pandas PDF(2)
25 pages
Lab-3 Pandas Library
No ratings yet
Lab-3 Pandas Library
14 pages
04 Introduction To Python-1
No ratings yet
04 Introduction To Python-1
29 pages
Pandas Course Slides
No ratings yet
Pandas Course Slides
90 pages
Comparing Strings: Adel Nehme
No ratings yet
Comparing Strings: Adel Nehme
58 pages
01-Numpy & Pandas
No ratings yet
01-Numpy & Pandas
69 pages
Data Analysis Using Python Day_1 to Day_4
No ratings yet
Data Analysis Using Python Day_1 to Day_4
30 pages
Pandas Library Documentation
No ratings yet
Pandas Library Documentation
16 pages
Pandas DataFrame Notes
No ratings yet
Pandas DataFrame Notes
13 pages
Experiment No: 1 Introduction To Data Analytics and Python Fundamentals Page-1/11
No ratings yet
Experiment No: 1 Introduction To Data Analytics and Python Fundamentals Page-1/11
8 pages
Python Cheat Sheet For Beginners
No ratings yet
Python Cheat Sheet For Beginners
1 page
01 Introduction to Python
No ratings yet
01 Introduction to Python
36 pages
Cheat Sheet Template
No ratings yet
Cheat Sheet Template
3 pages
PythonForMachineLearning
No ratings yet
PythonForMachineLearning
66 pages
Python Notes by Prof T
No ratings yet
Python Notes by Prof T
10 pages
Python CSBS Bhavya Lab Manual
No ratings yet
Python CSBS Bhavya Lab Manual
14 pages
Q-Step WS 06112019 Data Analysis and Visualisation With Python
No ratings yet
Q-Step WS 06112019 Data Analysis and Visualisation With Python
76 pages
3rd Semester DDM AI DAA DEV Print Pages For Spiral Record 25-1-24 - Removed
No ratings yet
3rd Semester DDM AI DAA DEV Print Pages For Spiral Record 25-1-24 - Removed
28 pages
DAV EXP 1 t12 31
No ratings yet
DAV EXP 1 t12 31
39 pages
Hands On Data Cleaning With Pandas and NumPy
No ratings yet
Hands On Data Cleaning With Pandas and NumPy
20 pages
Pandas
No ratings yet
Pandas
13 pages
DataFrame.docx
No ratings yet
DataFrame.docx
95 pages
Data Science Programming In Python
From Everand
Data Science Programming In Python
Anita Raichand
No ratings yet
Python for Data Science: Data Science Mastery by Nikhil Khan, #1
From Everand
Python for Data Science: Data Science Mastery by Nikhil Khan, #1
Nikhil Khan
No ratings yet
Packet Tracer Activities
No ratings yet
Packet Tracer Activities
8 pages
Cisco Packet Tracer Software
No ratings yet
Cisco Packet Tracer Software
1 page
Windows Admin Center
No ratings yet
Windows Admin Center
380 pages
The Eso-Pic Package
No ratings yet
The Eso-Pic Package
13 pages
How To Tikz?: An Overview
No ratings yet
How To Tikz?: An Overview
160 pages
C'est-A-Dire - Advanced French Conversation PDF
100% (10)
C'est-A-Dire - Advanced French Conversation PDF
316 pages
Colloquial French Grammar
95% (19)
Colloquial French Grammar
257 pages
Language Hacking French (Learn How To Speak French Book)
100% (7)
Language Hacking French (Learn How To Speak French Book)
622 pages
French Grammar
100% (33)
French Grammar
368 pages
Easy French - 2 Books in 1 French Language + Short Stories For Beginners. A Complete Step-By-step Guide To Learn and Speak French Quick and Easy Starting From Zero
100% (3)
Easy French - 2 Books in 1 French Language + Short Stories For Beginners. A Complete Step-By-step Guide To Learn and Speak French Quick and Easy Starting From Zero
230 pages
Gagan +Java+Full+Stack+Developer
No ratings yet
Gagan +Java+Full+Stack+Developer
5 pages
18csmp68 Lab Manual
No ratings yet
18csmp68 Lab Manual
40 pages
Server API v2
No ratings yet
Server API v2
23 pages
Introducing Phyton Second Edition
No ratings yet
Introducing Phyton Second Edition
8 pages
RDBMS To MongoDB Migration
No ratings yet
RDBMS To MongoDB Migration
19 pages
Centera To ECS 2.2.1 Native Migration (Transformation) : Vasily Pantyukhin
No ratings yet
Centera To ECS 2.2.1 Native Migration (Transformation) : Vasily Pantyukhin
28 pages
Joy API Documentation
No ratings yet
Joy API Documentation
17 pages
SC8131 SC8132 Integration Guide 2.11
No ratings yet
SC8131 SC8132 Integration Guide 2.11
87 pages
Integrating A Web Service Into An Application Is A Common Scenario
No ratings yet
Integrating A Web Service Into An Application Is A Common Scenario
7 pages
Solo Project Instructions
No ratings yet
Solo Project Instructions
21 pages
VD Final Report Merged With PMMS
No ratings yet
VD Final Report Merged With PMMS
56 pages
Visual Flow Creator en
No ratings yet
Visual Flow Creator en
158 pages
Working With Files: Loop Xpath Query (XML Files) Loop Json Query (Json Files)
No ratings yet
Working With Files: Loop Xpath Query (XML Files) Loop Json Query (Json Files)
3 pages
Download full R Data Analysis Cookbook 1st Edition Viswa Viswanathan ebook all chapters
100% (10)
Download full R Data Analysis Cookbook 1st Edition Viswa Viswanathan ebook all chapters
85 pages
CS368 Web Technologies
No ratings yet
CS368 Web Technologies
3 pages
3GPP TS 32.291
No ratings yet
3GPP TS 32.291
88 pages
Business SMS API 3.0
No ratings yet
Business SMS API 3.0
13 pages
Secure Web Development Using OWASP Guideline
No ratings yet
Secure Web Development Using OWASP Guideline
10 pages
OWASP-L1-Checklist
No ratings yet
OWASP-L1-Checklist
12 pages
Python Jumpstart
No ratings yet
Python Jumpstart
25 pages
Dynamic Fields: Title Author Keywords Body Catchall Solrconfig - XML Catchall
No ratings yet
Dynamic Fields: Title Author Keywords Body Catchall Solrconfig - XML Catchall
10 pages
SIT722-3.1 Task
No ratings yet
SIT722-3.1 Task
6 pages