Chapitre_2 (1) (2)
Chapitre_2 (1) (2)
Chapitre_2 (1) (2)
Pour utiliser Pandas, il est nécessaire de l’installer et de l’importer dans vos projets
Python. Elle est compatible avec la majorité des environnements modernes, tels que
Installation :
Importation :
Pandas repose sur deux structures principales pour la manipulation des données : Series et
DataFrames.
1. Series :
> Une structure unidimensionnelle pour gérer une liste ou une colonne avec un index.
> Chaque élément est accessible via un index, qui peut être numérique ou étiqueté.
> Idéal pour manipuler une seule colonne d’un tableau ou une série temporelle.
2. DataFrames :
> Une structure bidimensionnelle, comme une table SQL ou une feuille Excel.
> Permet de manipuler des données avec des colonnes de types variés.
> Étiqueté à la fois par des lignes (index) et des colonnes (noms).
Avantages par rapport à NumPy :
> Les index permettent un accès direct et plus intuitif aux données.
> Gère efficacement les valeurs manquantes, contrairement à NumPy.
> Peut manipuler des données hétérogènes, par exemple des colonnes numériques et
textuelles dans le même tableau.
Pandas permet d'importer et d'exporter des données à partir de divers formats, ce qui
simplifie les interactions avec des fichiers ou des bases de données. Ces fonctionnalités
sont essentielles pour les projets d'analyse de données.
Lecture de fichiers :
> CSV (Comma-Separated Values) :Lecture rapide des fichiers CSV, le format le plus
courant pour les données tabulaires.
+ df = pd.read_csv("fichier.csv")
> Excel :Lecture de fichiers Excel, y compris des feuilles spécifiques.
+ df = pd.read_excel("fichier.xlsx", sheet_name="Feuille1")
> JSON :Lecture des fichiers structurés au format JSON.
+ df = pd.read_json("fichier.json")
Écriture de fichiers :
> Exportation en CSV :Sauvegarde facile des données en CSV.
+ df.to_csv("export.csv", index=False)
> Exportation en Excel :Enregistrement des données avec ou sans index.
+ df.to_excel("export.xlsx", index=False)
Une fois les données importées dans un DataFrame, l’étape suivante consiste à les explorer
pour comprendre leur structure, identifier les problèmes potentiels, et extraire des
informations préliminaires.
Fonctions essentielles :
> head(n) :
+ Affichent respectivement les n premières ou dernières lignes du DataFrame.
+ Par défaut, n = 5.
> info() : Affiche un résumé des colonnes, des types de données, et du nombre de valeurs
manquantes.
> describe() :Fournit des statistiques descriptives (moyenne, min, max, etc.) pour les
colonnes numériques.
> shape et size :Dimensions (lignes, colonnes) et taille totale du DataFrame.
Pourquoi explorer ?
> Ces outils permettent de repérer les valeurs nulles, de vérifier les types de colonnes, et
d’identifier les distributions pour les colonnes numériques.
Pandas propose des méthodes puissantes pour accéder et sélectionner des données dans
un DataFrame ou une Series. Ces techniques sont essentielles pour extraire les informations
pertinentes.
> Sélection d’une colonne :df["Nom"] Retourne une Series contenant les données de la
colonne "Nom".
> Par étiquette (loc) : Sélectionner la ligne avec l’étiquette L1 : df.loc[" L1 "]
Filtrage conditionnel :
> Vous pouvez sélectionner des lignes répondant à une condition : df[df["Âge"] > 30]. Cela
retourne un sous-ensemble des lignes où la colonne Âge est supérieure à 30.
> df.groupby("Ville")["Ventes"].sum()
Pandas permet de modifier les données d’un DataFrame de manière flexible, que ce soit
pour ajouter ou supprimer des colonnes, ou pour mettre à jour des valeurs spécifiques.
Ajouter une colonne :Ajoutez une nouvelle colonne calculée à partir d’autres colonnes:
Supprimer une colonne :Utilisez drop pour supprimer une ou plusieurs colonnes :
> df = df.drop(columns=["Colonne1"])
> df = df.reset_index(drop=True)
Les données réelles contiennent souvent des valeurs manquantes (NaN). Pandas offre
des outils efficaces pour détecter et traiter ces valeurs.
> isnull() : Renvoie un DataFrame booléen indiquant où les valeurs sont manquantes.
> df.fillna(0)
> df["Colonne"].fillna(df["Colonne"].mean())
Supprimer les valeurs manquantes :Supprimez les lignes contenant des valeurs
manquantes :
> df.dropna()
2. Fusion (merge) :Effectue des jointures similaires à SQL sur une ou plusieurs
colonnes communes :
Pandas propose des outils intégrés pour calculer des statistiques descriptives sur les
colonnes numériques.
Mesures courantes :
Pandas propose des outils puissants pour gérer et analyser les données temporelles,
ce qui est particulièrement utile pour les séries chronologiques (ventes, prévisions,
etc.).
df.resample("M", on="Date").sum()
Pandas offre des outils intégrés pour manipuler et analyser les données textuelles, ce
qui est essentiel pour les colonnes contenant des noms, des adresses ou des
catégories.
Pourquoi manipuler les chaînes ?
> Normaliser les données avant l’analyse.
> Extraire des informations spécifiques à partir de textes bruts.