TP-4-Analyse-Exploratoire-de-Données-AED
TP-4-Analyse-Exploratoire-de-Données-AED
TP-4-Analyse-Exploratoire-de-Données-AED
Objectifs du TP
• Indexing : sélectionner des valeurs d'un dataframe
• Ajout, suppression et modification sur un dataframe
• Nettoyage et préparation des données
• Manipulation avancée des données avec Pandas
✓ Utiliser index_col (Row ID) pour définir la colonne qui devient l'index du
Dataframe.
1. Importer le fichier catdata.csv est le nom de l'objet crée, de type DataFrame et afficher
les premières lignes du jeu de donnée
➔(Le DataFrame catdata : Il s'agit d'un jeu de données où les individus observés sont
des chats et les critères d'observation sont la couleur du pelage, la robe, le sexe, le poids,
l'âge et le type de nourriture)
Page 1 sur 5
2. Afficher l’énumération des lignes et colonnes avec index et columns
Notes :
✓ Ici seule la description statistique des variables numériques ("weight" et
"age") est donnée.
✓ On peut ajouter l'argument include='all' pour avoir la description de toutes les
données (numériques et catégorielles).
✓ Certains indicateurs statistiques ne sont valables que pour les variables
numériques (moyenne, min, max, quartiles), et inversement pour les non-
numériques (unique, top, freq), d'où les NaN (= Not a Number) dans certaines
situations
Page 2 sur 5
IV. Croisement des variables
Tout comme on peut faire des tableaux croisés dynamiques avec Excel, il est possible avec
Pandas de procéder à des croisements de données et effectuer des calculs récapitulatifs.
7. Créer un crosstab simple pour obtenir les fréquences selon le sexe et le type de robe.
9. Créer une Series « weightPound » qui correspond au poids en kilo des chats converti
en livres (1 kilo = 2,20462 livres)
10. Créer une Series « weightLog » qui correspond au logarithme du poids des chats.
VI. Concaténation
La fonction concat permet de concaténer ensemble des Series ou DataFrames le long d'un axe
(axis = 0 : ligne ou axis = 1 : colonne).
11. Créer un nouveau DataFrame catnew issu de la concaténation du DataFrame cat et des
deux Series créées auparavant : weightLog et weightPound ⇒⇒ on a ajouté 2
nouvelles colonnes (axis=1) au DataFrame original.
12. Renommer les noms des colonnes (cependant on remarque que les deux Series des poids
ont le même nom).
2. Ajouter une colonne « source » dans le dataframe avec le contenu « USGS API »
Page 3 sur 5
3. Ajouter la colonne 'mag_negative' qui prend comme valeur true ou false dont le
cas où la colonne 'mag' contienne des valeurs négatives.
Exp :
✓ 'CA'➔ 'California
✓ 'NV'➔ 'Nevada'
✓ 'MX'➔ 'Mexico'
8. Faire une copie du Dataframe à l’aide de la fonction copy() et modifier les valeurs
d'une colonne
9. Supprimer une colonne au choix en utilisant la méthode del et vérifier si elle existe
encore
11. Supprimer des lignes en passant une liste d'indices à la méthode drop
Page 4 sur 5
2. Utiliser la méthode isna() pour trouver les valeurs nuls et la méthode sum() pour
compter le nombre de valeurs par colonnes
3. Utiliser la méthode notna() pour supprimer une ligne lorsqu'une colonne spécifique
contient NaN
• remplacer l'ensemble des NaN par une certaine valeur(exp : Remplacer tous
les NaN par 0)
Page 5 sur 5