0% ont trouvé ce document utile (0 vote)
43 vues9 pages

R Pour Big Data

Exercice de manipulation de données avec langage R

Transféré par

Ibrahim Diarrassouba
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
43 vues9 pages

R Pour Big Data

Exercice de manipulation de données avec langage R

Transféré par

Ibrahim Diarrassouba
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
Vous êtes sur la page 1/ 9

TP

Manipulation de données avec R


KPO Louagbeu Loua
Enseignant-Chercheur à l’INP-HB
Département de Formation et de Recherche Mathématiques et Informatique
ING STIC 2 INFO
Juin 2022
Dans ce TP, notre objectif est de manipuler les données stockées dans un fichier xlsx

1. Placer le fichier Excel dans un dossier data_R à la racine de la partition du


disque C
2. Vider le contenu de la mémoire RAM
3. charger la librairie xlsx
4. lister les fonctions de la librairie
5. changement du répertoire courant
6. charger les données
7. Donner la description des variables de l'ensemble de données
8. lister le contenu de la mémoire
9. Accéder à la variable 'age’
10. Donner le type de la variable ‘age’
11. longueur de 'age' -> nombre d'observations
12. accès par indices - plage de valeurs (plage de 1 à 10
13. accès par indices - qqs valeurs dispersées : les indices 2, 5 et 8
14. Statistiques descriptives – moyenne des âges 2
Dans ce TP, notre objectif est de manipuler les données stockées dans un fichier xlsx

15. Statistique descriptives – quantiles


quantile(heart.full$age,probs=c(0.1,0.5,0.9))
16. stat.descriptives sur une partie des valeurs. La moyenne des 10 premiers âges
17. Le type de 'sexe’
18. Transformer le type de sexe en facteur si ce n’est pas le cas
19. La fréquence des sexes
20. data.frame ~ matrice -> accès indicé. Transformer votre dataframe en matrice m
21. Nombre de ligne et de colonne de m
22. Tester ces scripts et dire ce qu’elles réalisent
m[1,1]
m[1:5,2:4]
m[c(2,5,8),2:4]
m[2:4,c(1,3,6)]
m[1,]
m[5:6,c("age","angine")] 3
Dans ce TP, notre objectif est de manipuler les données stockées dans un fichier xlsx

23. data.frame ~ matrice -> restrictions. Ceux dont les ages sont inférieurs à 30
24. Donner la liste (age, sexe et cœur) des individus masculin dont l’âge est
inférieur ou égal à 34
25. Donner la liste (age, sexe) des individus dont l’âge est inférieur ou égal à 34 ou
ou supérieur ou égal à 76
26. Soit a la liste (angine, cœur) des individus masculin âgés de 45 ans au plus.
27. Nombre de ligne et colonne de a
28. La fréquence de a
29. K est un tableau croisé d’angine et de cœur issu de a
30. E est un croisement d’angine et de cœur à partir de la m
31. Donner le nombre d’angine positif
32. proportion de malades parmi les angine=oui
33. Donner l’âge moyen selon le sexe dans m
34. age moyen selon le sexe et l'occurence de l'angine noté b
4
Dans ce TP, notre objectif est de manipuler les données stockées dans un fichier xlsx

35. écart entre la plus petite et la plus grande moyenne de m (rep: 3.135563)
36. écart entre min et max dans chaque sous-groupe de m (rep : feminin 42 ;
masculin 48)

Tris des vecteurs et tableaux


37. afficher les 6 premières valeurs de age dans m
38. age2 est un nouveau vecteur des valeurs triées
39. trier un data frame selon une ou plusieurs variables. Créer des index selon l’âge
40. Trier selon un critère. Critère de l’âge
41. Trier selon plusieurs critères. Critère age et tauxmax

5
Dans ce TP, notre objectif est de manipuler les données stockées dans un fichier xlsx

Graphisme

42. graphiques 1D – distributions


hist(m$tauxmax)
plot(density(m$tauxmax))
43. graphiques pour comparaisons
library(sm)
sm.density.compare(m$tauxmax,m$coeurn)
44.comparaisons avec boxplot
boxplot(m$tauxmax)
boxplot(m$tauxmax ~ m$coeur)
45. graphiques 2D
plot(m$age,m$tauxmax)
plot(m$age,m$tauxmax,pch=21,bg=c("green","red")[unclass(m$coeur)])
6
Dans ce TP, notre objectif est de manipuler les données stockées dans un fichier xlsx

Graphisme

46. lister les variables du data frame


colnames(m)
47.graphique nuage de points
plot(m$age,m$tauxmax,pch=21,bg=c("green","red")[unclass(m$coeur)])
48. création de la variable tauxnet
tauxnet <- m$taux*log(m$age)
49. graphique nuage de points
plot(m$age,tauxnet,pch=21,bg=c("green","red")[unclass(m$coeur)])
50. ajouter la nouvelle variable au data frame "m"
m <- cbind(m,tauxnet)
51.lister les variables
colnames(m)
7
Dans ce TP, notre objectif est de manipuler les données stockées dans un fichier xlsx

52. sauvegarde des données dans un fichier XLSX

write.xlsx(m,file="heart-output.xlsx",row.names=F)

8
ABANA

Vous aimerez peut-être aussi