Fonctions Pandas

Télécharger au format pptx, pdf ou txt
Télécharger au format pptx, pdf ou txt
Vous êtes sur la page 1sur 44

Présentation des fonctions de la

bibliothèque PANDAS
HN3 DATA-SCIENCE

Fait et présenté par :


NANKENG DAMESSE
NFONYELE FRANZ
DONGMO CHELSIE

ANNEE ACADEMIQUE: 2022-2023 Superviseur: Monsieur ALAIN WANDJI


IMPORTATION DES DONNEES
01

EXPLORATION DES DONNEES


02

NETTOYAGE DES DONNEES


03

FILTRAGE DES DONNEES

Sommaire 04
Origine Définition
Le nom « Pandas » est en fait la
Bibliothèque écrite pour le
contraction du terme « Panel
langage python permettant la
Data » désignant les ensembles
manipulation été l’analyse des
de données incluant des
données
observations sur de multiples
périodes temporelles.

Manipulation Type
Pandas manipule les données Qualitatif et quantitatif
sous forme de data frame .
pd.read_csv()

1-FONCTIONS D’IMPORTATION
Lire un fichier d’extension
pd.read_csv() CSV
lire les données sous formes
pd.read_table() de fichier texte comme TSV
lire un fichier d’extension
pd.read_excel() xlsx
lire les données d’une table
pd.read_sql[(query,connection_objet)
SQL/base de données
lire les données d’un fichier
pd.read_json(json_string) json
Convertir le dictionnaire en
pd.read_DataFrame(dict) dataframe
récapitulatifs
Import pandas as pd
 pd.read_csv() = lire un fichier CSV
pd.read_table() = lire les données sous formes de fichier
texte comme TSV
pd.read_excel() = lire les données sous formes de fichier
Excel;
pd.read_sql[(query,connection_objet) = lire les données du
table SQL/base de données
pd.read_json(json_string) = lire les données d un fichier
json
pd.read_DataFrame(dict) = depuis un dictionnaire, les
données sont sous formes de ligne et de colonnes
pd.read_csv()

2-FONCTIONS D’EXPLORATION
 donne le type de donnée
df.info()
Donne une vue statistique
df.describe() d’ensemble
Donne les n premières ligne
df.head(n) s du dataframe
Donne les n dernières lignes
df.tail() du dataframe
Donne la moyenne
df.mean()
Donne la corrélation entre
df.corr() les variables
Donne la valeur minimale
df.min() ,df.max() et la valeur maximale des
variables
Affiche le nombre de
df.count() valeurs non nulles
Affiche une colonne
df.[col_name] particulière
Faire des sélections sur des
df.query(condition) colonnes
df.loc[(df[‘cond1']) & (df[‘cond2'])] Affiche une colonne
particulière
RECAPITULATIFS

 df.shape() : donne le nombre de ligne et de colonne du dataframe


 df.info() :donne le type de donnée
 df.describe() :donne une vue statistique d’ensemble
 df.head(n): afficher les n premiers éléments du dataframe
 df.tail() affiche les n derniers éléments du dataframe
 df.mean() : donne la moyenne de chaque colonnes
 df.std() : retourne une division standard de chaque colonnes
 df.corr() : vérifier la corrélation entre les variables
 df.min() :valeurs minimale de chaque colonnes
 df.max(): valeurs maximale de chaque colonnes
 df.count() :affiche le nombre de valeurs non nulles
 df[col_name] : affiche une colonne particulière
pd.read_csv()

3-FONCTIONS DE NETTOYAGE
Supprimer une colonne
df=df.drop(columns=nom_col) particulière
Affiche les valeurs
df.isnull(axis=0) manquantes
Supprimer les valeurs
df.dropna(condition) manquantes
df=nom.rename(columns={old_name:new_name})
Permet de renommer
les noms de certaines
colonnes
Remplacer toutes les
df.fillna() valeurs manquantes
Remplacer toutes les
G.df.fillna(G.mean()) valeurs nulles par la
moyenne d’une colonne
précise
Convertir les données a un
df.astype(type) type quelconque
Remplacer les valeurs par
df.replace( ancien, nouveau) des valeurs quelconques
Création aléatoire des
df.(np.random.rand(n,m)) valeurs
Permet de joindre plusieurs
df. = pd.concat([col_name], axis=1) colonnes en mentionnant
leur noms
Jointure avec même
df.append() nombres de colonnes
Jointure par rapport aux
df.concat([df1, df2], axis=1) lignes
pd.read_csv()

4-FONCTIONS DE FILTRAGE
Permet de faire des
df.[ df[col]restriction) restrictions sur une colonne
précise
Classer les valeurs selon
df.sort_values(col1) une colonne précise
Faire un tri selon une
df.sort_values(‘col', ascendant=False)
direction ascendante
Filtrage des valeurs de la
df.sort_values(['Age','Pclass'],
colonne Age de façon
ascending=[True,False]) ascendante et de la colonne
Pclass de façon descendante
Création d’une nouvelle
df.assign(col_name = function) colonne
THANK YOU

Vous aimerez peut-être aussi