Téléchargez comme PDF, TXT ou lisez en ligne sur Scribd
Télécharger au format pdf ou txt
Vous êtes sur la page 1/ 2
CEDoc RISI
Travaux pratiques sous R
Analyse de Régression Linéaire
1. Charger le fichier de données « Cars.csv » : Environnement – Import Dataset – From
Text (readr). L’étude consiste à chercher le lien entre les variables « mileage » kilométrage, « lh labor hours » heures de travail et « lc labor cost » coût de travail. 2. Tracer le nuage de points entre les trois variables deux à deux par la fonction scatter : scatter.smooth(x=Cars$lh, y=Cars$lc, main="LaborCost ~ LaborHours"). On peut aussi utiliser la fonction pairs pour avoir une vision globale. Interpréter. 3. Vérifier s’il y a des points abberants (outliers) en utilisant les boites à moustaches des trois variables. 4. Tracer les diagrammes de densité des trois variables. Interpréter. plot(density(Cars$lh), main="Labor Hours Plot: lh", ylab="Frequency") polygon(density(Cars$lh), col="red") 5. Calculer la corrélation entre les variables deux à deux. Interpréter les résultats. 6. Créer deux jeux de données, un premier pour le traitement et un second pour le test : trainingRowIndex <- sample(1:nrow(Cars), 0.8*nrow(Cars)) trainingData <- Cars[trainingRowIndex, ] testData <- Cars[-trainingRowIndex, ] 7. Extraire le modèle de régression linéaire simple entre la variable lc et la variable lh en utilisant la fonction lm : Sregression = lm(lc ~ lh, data=trainingData). Interpréter les résultats en se basant sur l’output de la fonction summary et de la fonction confint()qui génère les intervalles de confiance pour les paramètres du modèle. La fonction residuals() permet d’avoir les résidus du modèle. 8. Extraire le modèle de régression linéaire multiple entre la variable lc et les variables mileage et lh en utilisant la fonction lm : Mregression = lm(lc ~ Mileage + lh, data=trainingData). Interpréter les résultats. 9. Prédire les coûts de travail du jeux de données testData : lcPred <- predict(Sregression, testData). 10. Créer un data frame contenant les valeurs réelles et prédites, visualiser le puis calculer la corrélation entre eux. CEDoc RISI
11. Calculer la précision MinMaxAccuracy et l’erreur MeanAbsolutePercentageError
(MAPE) du modèle. 12. Prédire le coût de travail pour 15 heures de travail en utilisant la fonction predict et l’interval de confiance comme paramètre : predict(Sregression, data.frame(lh=15),interval = 'confidence') 13. Comment effectuer une cross-validation ?