0% ont trouvé ce document utile (0 vote)
3 vues12 pages

Recherche Plus Images

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1/ 12

2.

2 Prétraitement des données


Le prétraitement des données joue un rôle crucial dans la préparation des tweets
pour l'analyse des sentiments. Cette étape comprend plusieurs sous-processus
visant à nettoyer, normaliser et structurer les données de manière à ce qu'elles
puissent être efficacement utilisées par les algorithmes de machine learning.
Nettoyage des Données
Suppression des URLs : Les URLs présentes dans les tweets sont souvent des
liens vers des ressources externes et ne contribuent pas à l'analyse des
sentiments. Par conséquent, elles sont supprimées pour réduire le bruit dans les
données.
Suppression des Caractères Spéciaux : Les caractères spéciaux tels que les
hashtags (#), les mentions (@), les symboles de ponctuation, etc., sont éliminés car
ils n'apportent généralement pas d'informations significatives pour l'analyse des
sentiments.
Suppression des Stop Words : Les mots vides, tels que "le", "la", "et", "de", etc.,
sont supprimés car ils sont très fréquents dans le langage naturel mais n'apportent
pas de valeur ajoutée à l'analyse des sentiments.
Figure: representation du cycle de nettoyage des données
Normalisation
Conversion en Minuscules : Tous les caractères des tweets sont convertis en
minuscules pour garantir la cohérence et éviter les duplications dues à la casse.
Correction Orthographique : Des algorithmes de correction orthographique sont
parfois utilisés pour corriger les fautes d'orthographe courantes dans les tweets,
ce qui peut améliorer la qualité des données et la précision de l'analyse.
Tokenisation
Division du Texte en Mots : Le texte des tweets est divisé en mots individuels ou
tokens. Cette étape permet de segmenter le texte en unités plus petites, ce qui
facilite l'analyse ultérieure. Par exemple, la phrase "Université Mohammed V" serait
tokenisée en ["université", "mohammed", "v"].

Figure : Principe du tokenization


Stemming et Lemmatisation
Stemming : Le stemming est le processus de réduction des mots à leur racine ou à
leur forme de base, en supprimant les suffixes et les préfixes. Par exemple, le mot
"étudiants" pourrait être réduit à "étudiant".
Lemmatisation : La lemmatisation est similaire au stemming mais elle tient compte
du contexte et vise à réduire les mots à leur forme canonique ou lemme. Par
exemple, "étudiants" et "étudiant" seraient tous deux réduits à "étudiant".
En effectuant ces opérations de prétraitement, les données brutes des tweets sont
transformées en un format plus structuré et normalisé, ce qui facilite grandement
l'analyse ultérieure des sentiments. Ces étapes permettent de réduire le bruit dans
les données, d'améliorer la cohérence et la qualité des informations extraites, et de
préparer les données de manière optimale pour l'application des algorithmes de
machine learning.

Figure: Principe de stemming & lemmatization

2.3 Extraction des caractéristiques


L'extraction des caractéristiques est une étape cruciale dans le processus
d'analyse des sentiments sur Twitter, car elle consiste à convertir le texte brut des
tweets en une représentation numérique qui peut être utilisée par les algorithmes
de machine learning pour la classification des sentiments. Deux techniques
principales sont couramment utilisées à cette fin :

TF-IDF (Term Frequency-Inverse Document Frequency)


La technique TF-IDF est largement utilisée pour représenter numériquement les
documents textuels, en mettant l'accent sur l'importance relative des mots dans un
document par rapport à l'ensemble du corpus. Voici les étapes clés de la méthode
TF-IDF :
Fréquence de Terme (TF) : La fréquence de terme évalue le nombre de fois qu'un
terme particulier apparaît dans un document. Elle est calculée en divisant le
nombre d'occurrences du terme par le nombre total de termes dans le document.
Cela permet de mesurer l'importance du terme dans le document spécifique.
Fréquence Inverse de Document (IDF) : La fréquence inverse de document évalue
l'importance du terme dans l'ensemble du corpus. Elle est calculée en prenant le
logarithme du rapport entre le nombre total de documents dans le corpus et le
nombre de documents contenant le terme spécifique. Cela permet de réduire le
poids des termes qui apparaissent fréquemment dans le corpus.
TF-IDF : Le produit de la fréquence de terme (TF) et de la fréquence inverse de
document (IDF) pour chaque terme donne un score qui pondère les termes
fréquents dans un document mais rares dans l'ensemble du corpus. Ainsi, les
termes qui sont fréquents dans un document mais peu fréquents dans l'ensemble
du corpus auront des valeurs TF-IDF plus élevées, ce qui les rendra plus
représentatifs de ce document.

Figure : Principe de TF-IDF


Count Vectorizer
Le Count Vectorizer est une méthode simple mais efficace pour représenter les
documents textuels sous forme de vecteurs de comptage de mots. Voici comment
fonctionne cette méthode :
Matrice de Comptage : Chaque document est représenté par un vecteur où
chaque élément correspond au nombre d'occurrences d'un mot spécifique dans
ce document. Ainsi, chaque document est représenté par un vecteur de dimension
égale au nombre total de mots uniques dans l'ensemble du corpus.
Comptage des Mots : Pour chaque document, le Count Vectorizer compte le
nombre d'occurrences de chaque mot unique et remplit la matrice de comptage en
conséquence. Cette représentation permet de capturer la distribution des mots
dans chaque document.

Figure: Principe du Count Vectorizer


En résumé, l'extraction des caractéristiques à l'aide de TF-IDF et du Count
Vectorizer permet de transformer le texte brut des tweets en une représentation
numérique qui peut être utilisée comme entrée pour les algorithmes de machine
learning. Ces techniques permettent de conserver l'information essentielle
contenue dans les tweets tout en la rendant exploitable par les modèles de
classification des sentiments.
2.4 Modélisation et classification
La modélisation et la classification des sentiments sur Twitter impliquent
l'évaluation de plusieurs algorithmes de machine learning afin de déterminer celui
qui est le plus approprié pour prédire le sentiment (positif, négatif ou neutre)
associé à un tweet donné. Voici une présentation détaillée des algorithmes évalués
:
Random Forest (RF)
Principe : Le Random Forest est un ensemble d'arbres de décision, où chaque
arbre est entraîné sur un sous-ensemble aléatoire du jeu de données.
Construction : Chaque arbre est construit sur un échantillon bootstrap du jeu de
données, et un sous-ensemble aléatoire des caractéristiques est utilisé pour
chaque division.
Prédiction : La prédiction finale est obtenue par un vote majoritaire des prédictions
de chaque arbre, ce qui permet d'améliorer la robustesse et la généralisation du
modèle.

Figure : Principe du Random Forest


Multinomial Naive Bayes (MNB)
Principe : Le Multinomial Naive Bayes est basé sur le théorème de Bayes et
suppose l'indépendance conditionnelle des caractéristiques.
Probabilité Conditionnelle : Pour chaque classe cc et chaque mot tt, le MNB
calcule la probabilité conditionnelle P(t∣c)P(t∣c) d'observer le mot tt sachant que le
tweet appartient à la classe cc.
Formule de Prédiction : La classe cc maximisant la probabilité P(c∣d)P(c∣d) est
sélectionnée, où dd représente le tweet, en utilisant la formule de Bayes.
Figure : Principe du Multinomial Naive Bayes (MNB)
Régression Logistique (LR)
Principe : La Régression Logistique est un modèle de classification binaire qui
utilise une fonction sigmoïde pour modéliser la probabilité qu'un échantillon
appartienne à une classe spécifique.

Figure : Principe de Régression Logistique (LR)


Fonction Sigmoïde : La fonction sigmoïde est utilisée pour transformer la sortie
linéaire en une probabilité entre 0 et 1.
Prédiction : La probabilité que le tweet appartienne à la classe positive est calculée
à l'aide de la fonction sigmoïde, et une décision est prise en fonction de ce seuil de
probabilité.

Arbre de Décision (DT)


Principe : L'Arbre de Décision est une structure arborescente où les décisions sont
prises en suivant les nœuds de l'arbre basés sur les caractéristiques des données.
Critère de Division : L'Arbre de Décision utilise des métriques telles que l'entropie
ou le critère de Gini pour décider des points de division optimaux lors de la
construction de l’arbre.

figure: Arbre de Décision (DT)


Support Vector Classifier (SVC)
Principe : Le Support Vector Classifier est un algorithme de classification qui
cherche à séparer les classes par un hyperplan optimal dans un espace de
dimension élevée.
Marges Maximales : Le SVC cherche à maximiser la marge entre les points de
données de différentes classes, ce qui permet de construire un modèle robuste et
généralisable.

Figure: Principe de Support Vector Classifier (SVC)

Extreme Gradient Boosting (XGBoost)


Principe : Le XGBoost est une technique de boosting qui combine de nombreux
arbres de décision faibles pour former un modèle puissant et robuste.
Optimisation : Le XGBoost utilise la descente de gradient pour minimiser la
fonction de perte, ce qui permet d'ajuster progressivement les prédictions du
modèle pour minimiser l'erreur.
En évaluant ces différents algorithmes, il est possible de déterminer celui qui offre
les meilleures performances en termes de prédiction des sentiments sur Twitter.
Ces algorithmes présentent des avantages et des inconvénients différents en
Figure : Extreme Gradient Boosting (XGBoost)

fonction des caractéristiques des données et des objectifs spécifiques de l'analyse


des sentiments.
2.5 Évaluation des modèles

L'évaluation des modèles est une étape cruciale dans le processus d'analyse des
sentiments sur Twitter, car elle permet de mesurer la performance et la fiabilité des
algorithmes de classification. Plusieurs métriques standard sont utilisées pour
évaluer les modèles et s'assurer de leur robustesse. Voici les principales métriques
utilisées dans cette étude :

Précision (Accuracy)
La précision est une mesure globale de l'exactitude du modèle, calculée en
divisant le nombre de prédictions correctes par le nombre total d'échantillons. Elle
est définie comme suit :

Accuracy=TP+TNTP+TN+FP+FNAccuracy=TP+TN+FP+FNTP+TN

où TPTP représente les vrais positifs, TNTN les vrais négatifs, FPFP les faux
positifs et FNFN les faux négatifs.

Précision (Precision)
La précision mesure la qualité des prédictions positives du modèle, c'est-à-dire sa
capacité à identifier correctement les vrais positifs parmi toutes les prédictions
positives. Elle est calculée comme suit :

Precision=TPTP+FPPrecision=TP+FPTP
Rappel (Recall)
Le rappel mesure la capacité du modèle à identifier correctement tous les cas
positifs, c'est-à-dire le nombre de vrais positifs identifiés parmi tous les cas positifs
réels. Il est calculé comme suit :

Recall=TPTP+FNRecall=TP+FNTP

Score F1 (F1-score)
Le score F1 est une mesure qui combine à la fois la précision et le rappel en une
seule valeur, offrant ainsi une évaluation globale de la performance du modèle. Il
est calculé comme suit :

F1-score=2×Precision×RecallPrecision+RecallF1-
score=Precision+Recall2×Precision×Recall

En évaluant les modèles à l'aide de ces métriques, il est possible de déterminer


celui qui offre les meilleures performances en termes de prédiction des sentiments
sur Twitter. Ces métriques permettent de prendre en compte à la fois la précision et
le rappel du modèle, offrant ainsi une évaluation complète de sa performance.

2.6 Conclusion

L'analyse des sentiments sur Twitter appliquée aux universités publiques


marocaines offre un aperçu précieux des perceptions et des opinions des
utilisateurs concernant ces institutions. Cette étude a mis en œuvre une
méthodologie rigoureuse, combinant des techniques avancées de collecte de
données, de prétraitement, de modélisation et d'évaluation, pour produire des
résultats fiables et exploitables.

Points Clés
• Collecte des Données : L'utilisation de Twint pour la collecte historique et de
l'API de Streaming de Twitter avec Kafka pour la collecte en temps réel a
permis de constituer un ensemble de données complet et actuel, offrant ainsi
une base solide pour l'analyse des sentiments.
• Prétraitement des Données : Les techniques de nettoyage, de
normalisation, de tokenisation et de lemmatisation ont été appliquées pour
préparer les tweets à l'analyse, garantissant ainsi la qualité et la pertinence
des informations extraites.
• Extraction des Caractéristiques : L'utilisation de TF-IDF et du Count
Vectorizer a permis de transformer le texte brut des tweets en une
représentation numérique exploitable par les algorithmes de machine
learning.
• Modélisation et Classification : L'évaluation de plusieurs algorithmes de
machine learning, tels que le Random Forest, le Multinomial Naive Bayes, la
Régression Logistique, etc., a permis de déterminer celui qui offre les
meilleures performances pour la prédiction des sentiments.
• Pipeline en Temps Réel : La mise en place d'un pipeline de traitement en
temps réel avec Spark Streaming et Kafka a permis d'analyser les tweets en
temps réel, offrant ainsi des insights instantanés sur les tendances et les
opinions des utilisateurs.
• Visualisation des Résultats : Le développement de tableaux de bord
dynamiques avec des outils comme Grafana ou Kibana a permis une analyse
intuitive et en temps réel des résultats de l'analyse des sentiments, facilitant
ainsi la prise de décision et la planification stratégique.
En intégrant ces différentes étapes dans un processus cohérent, cette étude a
démontré l'efficacité et la pertinence de l'analyse des sentiments sur Twitter pour
comprendre les perceptions et les opinions des utilisateurs à l'égard des
universités publiques marocaines. Les insights générés peuvent être utilisés par les
institutions concernées pour améliorer leur réputation en ligne, identifier les
domaines à problèmes et prendre des décisions éclairées pour répondre aux
besoins de leur public.

Vous aimerez peut-être aussi