Recherche Plus Images
Recherche Plus Images
Recherche Plus Images
L'évaluation des modèles est une étape cruciale dans le processus d'analyse des
sentiments sur Twitter, car elle permet de mesurer la performance et la fiabilité des
algorithmes de classification. Plusieurs métriques standard sont utilisées pour
évaluer les modèles et s'assurer de leur robustesse. Voici les principales métriques
utilisées dans cette étude :
Précision (Accuracy)
La précision est une mesure globale de l'exactitude du modèle, calculée en
divisant le nombre de prédictions correctes par le nombre total d'échantillons. Elle
est définie comme suit :
Accuracy=TP+TNTP+TN+FP+FNAccuracy=TP+TN+FP+FNTP+TN
où TPTP représente les vrais positifs, TNTN les vrais négatifs, FPFP les faux
positifs et FNFN les faux négatifs.
Précision (Precision)
La précision mesure la qualité des prédictions positives du modèle, c'est-à-dire sa
capacité à identifier correctement les vrais positifs parmi toutes les prédictions
positives. Elle est calculée comme suit :
Precision=TPTP+FPPrecision=TP+FPTP
Rappel (Recall)
Le rappel mesure la capacité du modèle à identifier correctement tous les cas
positifs, c'est-à-dire le nombre de vrais positifs identifiés parmi tous les cas positifs
réels. Il est calculé comme suit :
Recall=TPTP+FNRecall=TP+FNTP
Score F1 (F1-score)
Le score F1 est une mesure qui combine à la fois la précision et le rappel en une
seule valeur, offrant ainsi une évaluation globale de la performance du modèle. Il
est calculé comme suit :
F1-score=2×Precision×RecallPrecision+RecallF1-
score=Precision+Recall2×Precision×Recall
2.6 Conclusion
Points Clés
• Collecte des Données : L'utilisation de Twint pour la collecte historique et de
l'API de Streaming de Twitter avec Kafka pour la collecte en temps réel a
permis de constituer un ensemble de données complet et actuel, offrant ainsi
une base solide pour l'analyse des sentiments.
• Prétraitement des Données : Les techniques de nettoyage, de
normalisation, de tokenisation et de lemmatisation ont été appliquées pour
préparer les tweets à l'analyse, garantissant ainsi la qualité et la pertinence
des informations extraites.
• Extraction des Caractéristiques : L'utilisation de TF-IDF et du Count
Vectorizer a permis de transformer le texte brut des tweets en une
représentation numérique exploitable par les algorithmes de machine
learning.
• Modélisation et Classification : L'évaluation de plusieurs algorithmes de
machine learning, tels que le Random Forest, le Multinomial Naive Bayes, la
Régression Logistique, etc., a permis de déterminer celui qui offre les
meilleures performances pour la prédiction des sentiments.
• Pipeline en Temps Réel : La mise en place d'un pipeline de traitement en
temps réel avec Spark Streaming et Kafka a permis d'analyser les tweets en
temps réel, offrant ainsi des insights instantanés sur les tendances et les
opinions des utilisateurs.
• Visualisation des Résultats : Le développement de tableaux de bord
dynamiques avec des outils comme Grafana ou Kibana a permis une analyse
intuitive et en temps réel des résultats de l'analyse des sentiments, facilitant
ainsi la prise de décision et la planification stratégique.
En intégrant ces différentes étapes dans un processus cohérent, cette étude a
démontré l'efficacité et la pertinence de l'analyse des sentiments sur Twitter pour
comprendre les perceptions et les opinions des utilisateurs à l'égard des
universités publiques marocaines. Les insights générés peuvent être utilisés par les
institutions concernées pour améliorer leur réputation en ligne, identifier les
domaines à problèmes et prendre des décisions éclairées pour répondre aux
besoins de leur public.