ENSIA 2 - Statistique Inferentielle2

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 56

Statistique inférentielle

Prof. REMITA Mohamed Riad

National School of Arti…cial Intelligence.

2023-2024

REMITA (National School of Arti…cial Intelligence.) 2ème année ENSIA 04/02/2024 1 / 56


Introduction

L’inférence statistique consiste à induire les caractéristiques inconnues


d’une population à partir d’un échantillon issu de cette population. Les
caractéristiques de l’échantillon, une fois connues, re‡ètent avec une
certaine marge d’erreur possible celles de la population.

REMITA (National School of Arti…cial Intelligence.) 2ème année ENSIA 04/02/2024 2 / 56


Statistique inférentielle

1 Echantillonnage
2 Estimation
a. Ponctuelle
b. Par intervalle de con…ance
3 Tests d’hypothèses
a. Paramètriques
b. Non paramètriques

REMITA (National School of Arti…cial Intelligence.) 2ème année ENSIA 04/02/2024 3 / 56


1. Echantillonnage (Sampling)

REMITA (National School of Arti…cial Intelligence.) 2ème année ENSIA 04/02/2024 4 / 56


Introduction

La notion d échantillonnage est associée à un sous-ensemble (de taille n)


d’individus tiré d’une population. A chaque individu tiré on associe une
valeur et on note par (x1 , , xn ) l’ensemble des valeurs obtenues.
Nous avons deux problèmes qui se posent à nous :
- Connaissant la valeur d’un paramàtre (moyenne, variance,
...), on cherche des informations sur la valeur qui peut être
prise par ce paramètre. C’est le problème d’échantillonnage.
- On connaît la valeur d’un paramètre dans un échantillon et
on cherche des informations sur ce paramètre dans la
population. C’est un problème d’estimation.
Alors, prendre un échantillon aléatoire de taille n consiste à considérer n
réalisations d’une v.a. X ou encore considérer n variables aléatoires
X1 , , Xn indépendantes de même loi que X .

REMITA (National School of Arti…cial Intelligence.) 2ème année ENSIA 04/02/2024 5 / 56


Dé…nitions

De…nition
Soit X une v.a. sur un espace Ω. Un échantillon de X de taille n est un
n uplet (X1 , , Xn ) de v.a. indépendantes de même loi que X qui sera
appelée loi mère. Une réalisation de cet échantillon est un n uplet
(x1 , , xn ) ou Xi (ω ) = xi .

De…nition
On appelle statistique sur un n échantillon une fonction de (X1 , , Xn ) .

REMITA (National School of Arti…cial Intelligence.) 2ème année ENSIA 04/02/2024 6 / 56


Moyenne empirique

De…nition
La moyenne de l’échantillon ou moyenne empirique est la statistique notée
X dé…nie par
1 n
X = ∑ Xi .
n i =1

Remarque
Pour une réalisation (X1 , , Xn ) , la statistique X prendra la valeur
1 n
x = n ∑i 1 xi (c’est la moyenne arithmétique telle que nous connaissons).
Pour une autre réalisation, dans les mêmes conditions, un deuxième
échantillon donnera pour réalisation (x10 , , xn0 ) et X prendra la valeur
x 0 = n1 ∑ni 1 xi0 .

REMITA (National School of Arti…cial Intelligence.) 2ème année ENSIA 04/02/2024 7 / 56


Moyenne empirique
Proposition
Soit X une v.a. de moyenne µ et d’écart-type σ. On a

σ2
E X = µ, Var X = .
n

De plus, par le théorème central limite, X converge en loi vers N µ, pσn


lorsque n tend vers l’in…ni.

Remarque
La variance de X est calculée pour le cas d’un échantillon de v.a. i.i.d.
(échantillon tiré avec remise d’une population …nie ou échantillon tiré avec
ou sans remise d’une population in…nie).
Si l’échantillon est tiré sans remise d’une population …nie (tirage
exhaustif), les v.a. ne sont plus indépendantes. Dans ce cas on aura
2
Var X = σn N n N n
N 1 , et N 1 s’appelle facteur d’exhaustivité.

REMITA (National School of Arti…cial Intelligence.) 2ème année ENSIA 04/02/2024 8 / 56


Variance empirique

De…nition
e 2 dé…nie par
On appelle Variance empirique, la statistique notée S
n
e 2 = 1 ∑ Xi
S X
2
.
n i =1

Proposition
Soit X une v.a. d’écart-type σ et de moment centré d’ordre 4, µ4 . On a
h i
e2 = n
E S
1 e2 = n
σ2 , Var S
1
(n 1) µ4 (n 3) σ 4 .
n n3

REMITA (National School of Arti…cial Intelligence.) 2ème année ENSIA 04/02/2024 9 / 56


Distribution des fréquences
Soit (Xi )i =1, ,n un échantillon aléatoire de taille n ayant une loi de
Bernoulli de paramètre p comme loi mère. Alors,
X1 + + Xn
F =
n
est la fréquence de la valeur 1 dans l échantillon et nF suit une loi
binomiale de paramètres n et p. Ainsi
pq
E [F ] = p, Var (F ) = .
n

Proposition
Si le tirage est e¤ectué sans remise on aura
pq N n
Var (F ) = .
n N 1

REMITA (National School of Arti…cial Intelligence.) 2ème année ENSIA 04/02/2024 10 / 56


Méthodes d’échantillonnage

L’échantillonnage est utilisé pour plusieurs raisons ;


- On ne peut observer qu’une partie de la population quand
elle est in…nie.
- L’échantillon est moins couteux qu’un recensement.
- On ne peut pas faire autrement.
On distingue plusieurs méthodes pour choisir un échantillon.

REMITA (National School of Arti…cial Intelligence.) 2ème année ENSIA 04/02/2024 11 / 56


Echantillons aléatoires

1. Méthode élémentaire
Dans une population de taille N ou chaque individu a un probabilité
1
N d’être choisi, on procède au tirage au hasard de n individu. Les
tirages sont e¤ectués en générant n nombre au hasard.

Avantages : Simple et l’échantillon représente bien la population.

Inconvénients : Il faut posséder une bonne base de sondage (une liste


complète et à jour de tous les individus de la population, sans
répétition), peut être long à e¤ectuer quand on génère un grand
échantillon.

REMITA (National School of Arti…cial Intelligence.) 2ème année ENSIA 04/02/2024 12 / 56


Echantillons aléatoires

2. Tirage systématique
Il consiste à tirer un individu tous les k = Nn individus rencontrés.
Seul le premier individu est selectionné en générant un nombre entre 1
et N au hasard

Avantages : Sélection d’un seul nombre aléatoire, rapide, bonne


répartition de l’échantillon dans la base de sondage.

Inconvénients : Il faut posséder une bonne base de sondage.

REMITA (National School of Arti…cial Intelligence.) 2ème année ENSIA 04/02/2024 13 / 56


Echantillons aléatoires

3. Echantillon strati…é
On tire les individus dans des groupes homogènes de la population
que nous appelons strates.

Avantages : L’échantillon représente bien chacune des caractéristiques


de la population.

Inconvénients : Il faut connaître chacune des caractéristiquues de la


population, peut être di¢ cile à rejoindre des individus faisant partie
d’une petite strate de la population, souvent couteux.

REMITA (National School of Arti…cial Intelligence.) 2ème année ENSIA 04/02/2024 14 / 56


Echantillons aléatoires

4. Echantillonnage par grappes


On subdivise la population en grappes hétérogènes de tailles
semblables. On décide de la taille n de l’échatillon puis on détermine
le nombre de grappes qu’il faudra. En…n, on choisi le nombre de
grappes voulues par échantillonnage aléatoire simple.

Avantages : Réduit les déplacements et les coûts lorsque la


population est répartie sur un grand territoire.

Inconvénients : Si les grappes sont ho;ogènes, l’échantillon produit ne


représentera pas bien la population.

REMITA (National School of Arti…cial Intelligence.) 2ème année ENSIA 04/02/2024 15 / 56


Echantillonnage empirique
Il est caractérisé par une ressemblance la plus possible de la population qui
est due à la connaissance préalable de la constitution de la population.
Nous avons par exemple :
Echantillonnage à l’aveuglette : la sélection des individus se fait de
façon tout à fait arbitraire (non aléatoire).
Echantillon volontaire : la sélection des individus se fait en appelant des
volontaires.
Echantillonnage par quotas : elle se base sur la constitution d’un
échantillon de taille n dans lequel les proportions des individus sont égales
à celles de la population. Le choix des individus de l’échantillon n’est pas
fait au hasard.
Echantillonnage boule de neige : On choisi d’abords arbitrairement un
petit groupe d’individus ayant les caractéristiques recherchées pour l’étude.
Par la suite, on leur demande de sélectionner d’autres personnes de leur
entourage qui présentent les mêmes caractéristiques. Ces personnes
devront elles aussi en sélectionner d’autres de la même manière et ainsi de
suite jusqu’à ce que l’échantillon compte le nombre d’individus voulu.
REMITA (National School of Arti…cial Intelligence.) 2ème année ENSIA 04/02/2024 16 / 56
Estimation
Cette fois il s’agit d’estimer certaines caractéristiques statistiques de la loi
(moyenne, variance, fonction de répartition) au travers d’une série
d’observations x1 , x2 , xn . C’est la problématique inverse de
l’échantillonnage.
À partir des caractéristiques d’un échantillon, que peut-on déduire
des caractéristiques de la population dont il est issu ?
L’estimation consiste à donner des valeurs approximatives aux paramètres
d’une population à l’aide d’un échantillon de n observations issues de cette
population. On peut se tromper sur la valeur exacte, mais on donne la
“meilleure valeur” possible que l’on peut supposer.
Les problèmes d’estimation se divisent en deux catégories :
- L’estimation ponctuelle : à partir de l’information fournie par
l’échantillon, donne une valeur unique du paramètre.
- L’estimation par intervalle de con…ance : consiste à
construire un intervalle à l’intérieur duquel le paramètre se
trouve avec une probabilité donnée.
REMITA (National School of Arti…cial Intelligence.) 2ème année ENSIA 04/02/2024 17 / 56
Estimation ponctuelle

On souhaite estimer un paramètre θ d’une population (cela peut être sa


moyenne, son écart-type, une proportion p). Un estimateur de θ est
une statistique T dont la réalisation est envisagée comme une valeur du
paramètre θ. On parle d’estimation de θ associée à cet estimateur la
valeur observée lors de l’expérience, c’est-à-dire la valeur prise par la
fonction au point observé (x1 , x2 , xn ).

REMITA (National School of Arti…cial Intelligence.) 2ème année ENSIA 04/02/2024 18 / 56


Estimation ponctuelle
Qualité d’un estimateur

De…nition
On appelle biais de T pour θ la valeur

bθ (T ) = E [ T ] θ.

Un estimateur T est dit sans biais si E [T ] = θ.

De…nition
Un estimateur T est dit convergent si E [T ] tend vers θ lorsque n tend
vers l’in…ni. Il sera dit consistant si T converge en probabilité vers θ
lorsque n tend vers l’in…ni.

Theorem
Si T est convergent et de variance tendant vers 0 lorsque n tend vers
l’in…ni alors T est consistant.
REMITA (National School of Arti…cial Intelligence.) 2ème année ENSIA 04/02/2024 19 / 56
Estimation ponctuelle
Qualité d’un estimateur

La qualité d’un estimateur se mesure également hpar l’erreur


i quadratique
2
moyenne (ou risque quadratique) dé…nie par E (T θ ) .

Theorem
Soit T un estimateur du paramètre θ à étudier. On a :
h i
E (T θ )2 = Var (T ) + [T θ ]2 .

Remarque
Entre deux estimateurs sans biais, le meilleur sera celui dont la variance est
minimale. On dira que celui qui a la variance minimale est plus e¢ cace.

REMITA (National School of Arti…cial Intelligence.) 2ème année ENSIA 04/02/2024 20 / 56


Estimation ponctuelle
Quelques estimateurs classiques

X est un estimateur sans biais de la moyenne µ. Son estimation x est


la moyenne observée dans une réalisation de l échantillon.
e 2 est un estimateur consistant de σ2 (mais biaisé).
S
e 2 est un estimateur sans biais et consistant de σ2 . Son
S2 = n n 1 S
estimation est s 2 = n n 1 se2 où se2 est la variance observée dans une
réalisation de l échantillon.
Si la moyenne µ de X est connue, T = n1 ∑ni=1 (Xi µ)2 est un
meilleur estimateur de σ2 que S 2 .
Si p est la fréquence d’un caractère, F constitue un estimateur sans
biais et consistant de p. Son estimation est notée f .

REMITA (National School of Arti…cial Intelligence.) 2ème année ENSIA 04/02/2024 21 / 56


Estimation ponctuelle
Méthode du maximum de vraisemblance

On appelle vraisemblance de l’échantillon, notée L (x1 , , xn ) , la


distribution du vecteur aléatoire (X1 , , Xn ) . La méthode du maximum
de vraisemblance a pour but de choisir pour estimation de θ la valeur le
plus vraisemblable. La fonction de vraisemblance sera désignée par
L (x1 , , xn ; θ ) .
L’estimateur par la méthode du maximum de vraisemblance est donné par
le maximum de la fonction de vraisemblance
n
L (x1 , , xn ; θ ) = ∏ f ( xi ; θ )
i =1

où f (x, θ ) représente la distribution de la population.

REMITA (National School of Arti…cial Intelligence.) 2ème année ENSIA 04/02/2024 22 / 56


Estimation ponctuelle
Méthode du maximum de vraisemblance

Le maximum est recherché en annulant la dérivée de cette fonction


dL (x1 , , xn ; θ )
=0

ou en annulant la dérivée de son logarithme

d [ln L (x1 , , xn ; θ )]
= 0.

REMITA (National School of Arti…cial Intelligence.) 2ème année ENSIA 04/02/2024 23 / 56


Estimation ponctuelle
Méthode du maximum de vraisemblance

Example
Dans une population, on considère une v.a. X P (λ) . on veut estimer
λ.
Pour cela on tire un échantillon de taille n. Supposons n = 6 et la
réalisation est (0, 2, 2, 3, 1, 2) , trouver l’estimation de λ par cette
méthode.

Solution
On a P (X = x ) = e λ λx ; x 2 N. La fonction de vraisemblance s’écrit
x!

n x1 xn
θθ θθ
L (x1 , , xn ; θ ) = ∏ f ( xi ; θ ) = e x1 !
e
xn !
i =1
x 1 + +x n
nθ θ
= e .
x1 ! xn !

REMITA (National School of Arti…cial Intelligence.) 2ème année ENSIA 04/02/2024 24 / 56


Estimation ponctuelle
Méthode du maximum de vraisemblance

Solution
Comme
! !
n n
ln L (x1 , , xn ; θ ) = nθ + ∑ xi ln θ ln ∏ xi !
i =1 i =1

on a
d ∑ni=1 xi
ln L (x1 , , xn ; θ ) = n+ =0
dθ θ
1 n
=) eθ = ∑ xi .
n i =1

REMITA (National School of Arti…cial Intelligence.) 2ème année ENSIA 04/02/2024 25 / 56


Estimation ponctuelle
Méthode du maximum de vraisemblance

Solution
On peut véri…er que e θ représente bien le maximum. Alors, pour la
réalisation (0, 2, 2, 3, 1, 2) on a

1 n 10
θ = ∑ xi =
e = 1, 67.
n i =1 6

REMITA (National School of Arti…cial Intelligence.) 2ème année ENSIA 04/02/2024 26 / 56


Estimation ponctuelle
Méthode du maximum de vraisemblance

Example
On souhaite estimer les paramètres et d’une loi normale à partir d’un
n-échantillon.

Solution
(x µ )2
On a f (x, µ, σ) = p1 e 2σ2 . La fonction de vraisemblance s’écrit
σ 2π
( )
n 2
n
1 ∑ni=1 (xi µ)
L (x1 , , xn ; θ ) = ∏ f (xi ; µ, σ) = p
σ 2π
exp
2σ2
.
i =1

REMITA (National School of Arti…cial Intelligence.) 2ème année ENSIA 04/02/2024 27 / 56


Estimation par intervalle
Dé…nition

L’estimation ponctuelle donne à un paramêtre θ à estimer une valeur


unique qui donne une estimation légèrement di¤érente du paramètre à
estimer, même s’il est sans biais. Il serait interressant de construire un
intervalle [a, b ] dans lequel se trouve le parakètre θ se trouve avec une
probabilité donnée.
Pour déterminer cet intervalle, on se donne une niveau de con…ance noté
1 α. La valeur α mesure la probabilité que la valeur de θ ne se trouve
pas dans l intervalle [a, b ] . Nous calculerons les bornes de l’intervalle
appelées limites de con…ance de telle façon que P (a θ b ) = 1 α.
L’intervalle [a, b ] s’appelle intervalle de con…ance.

REMITA (National School of Arti…cial Intelligence.) 2ème année ENSIA 04/02/2024 28 / 56


Intervalle de con…ance d’une proportion

On suppose que le tirage se fait avec remise et que la taille de l’échantillon


n est grande (n 30) . Dans la population une proportion p d’individus
possède un certain caractère. On cherche un intervalle de con…ance
pour p à partir de la valeur fn : fréquence d’individus possédant le caratère
dans l’échantillon. On sait que la variable X = nFn suit une loi
binomiale B (n, p ) et comme n est grand on a qFp (1 pp ) N (0, 1) . On
n
a 0 1
F p
P @ u 2α q u 2α A = 1 α,
p (1 p )
n

REMITA (National School of Arti…cial Intelligence.) 2ème année ENSIA 04/02/2024 29 / 56


Intervalle de con…ance d’une proportion

d’où r r
p (1 p)
p (1 p )
fn u 2α p fn + u 2α
n n
nous remarquons que les bornes contiennent p qui est à estimer, il su¢ t
pour cela de remplacer p par fn et donc l’intervalle de con…ance s’écrit
alors r r
fn ( 1 fn ) fn ( 1 fn )
fn u 2α p fn + u 2α .
n n

REMITA (National School of Arti…cial Intelligence.) 2ème année ENSIA 04/02/2024 30 / 56


Intervalle de con…ance d’une moyenne

σ connu
Si la distribution de la v.a. X est normale ou si X suit une distribution
quelconque avec n grand (n 30), on peut a¢ rmer que X suit une
N µ, pσn . L’intervalle de con…ance est donné par
!
X µ
P u 2α u 2α = Φ u 2α Φ u 2α = 2Φ u 2α 1,

n

1 +(1 α)
c’est à dire Φ u 2α = 2 , où Φ est la fonction de répartition de la
loi N (0, 1) . h i
Alors l’intervalle de con…ance est X u 2α pσn ; X + u 2α pσn .

REMITA (National School of Arti…cial Intelligence.) 2ème année ENSIA 04/02/2024 31 / 56


Intervalle de con…ance d’une moyenne

1 +(1 0,005 )
Si on prend α = 0, 05 on a Φ u 2α = 2 = 0, 975. La table
donne u 2α = 1, 96. On obtient alors

σ σ
P X 1, 96 p µ X + 1, 96 p = 0, 95
n n

d’où l’intervalle de con…ance


σ σ
x 1, 96 p µ x + 1, 96 p
n n

REMITA (National School of Arti…cial Intelligence.) 2ème année ENSIA 04/02/2024 32 / 56


Intervalle de con…ance d’une moyenne

σ inconnu (population quelconque avec n grand ou population normale)

Dans la majorité des cas, lorsque dans une population µ est inconnu, σ
l’est aussi. Pour estimer le paramètre θ = µ la relation précédente n’est
X µ
plus valable. On utilise la v.a. T = pS
Tn 1 (Student à n 1
n 1
degrés de liberté). On obtient alors
!
X µ
P t 2α t 2α =1 α,
pS
n 1

où t 2α est lue dans la table de Student à n 1 degrés de liberté.

REMITA (National School of Arti…cial Intelligence.) 2ème année ENSIA 04/02/2024 33 / 56


Intervalle de con…ance d’une moyenne

On a alors l’intervalle de con…ance


s s
x t 2α p µ x + t 2α p .
n 1 n 1

Si n est grand (n 30) on peut remplacer t 2α par u 2α .


Si on
q considère la cas d’un tirage sans remise,
q l’écart-type de X est
σ N n s σ N n
N 1 et on remplace n 1 par n N 1 dans l’intervalle de
p p p
n
con…ance.

REMITA (National School of Arti…cial Intelligence.) 2ème année ENSIA 04/02/2024 34 / 56


Intervalle de con…ance d’une moyenne

Example
La taille moyenne d’un échantillon aléatoire de 40 personnes extrait d’une
population de 780 individus est de 1, 70m. L’écart-type pour toute la
population vaut 24cm. Trouver l’intervalle de con…ance pour la taille
moyenne de la population à 95%.

Example
500 étudiants se présentent à un examen. Un échantillon aléatoire de 38
notes donne une moyenne égale à 8, 65 et un écart-type égal à 2, 82.
Trouver l’intervalle de con…ance pour la moyenne des notes de la
population à 90%, 95% et 99%.

REMITA (National School of Arti…cial Intelligence.) 2ème année ENSIA 04/02/2024 35 / 56


Intervalle de con…ance d’une variance
2
On suppose que la distribution de la population est normale. On a nSσ2
2
suit une loi de χn 1 . Déterminons L’intervalle de con…ance à partir de
P s12 σ2 s22 = 1 α.
Considérons a et b les bornes de l’intervalle tel que
nS 2 2 nS 2
P a σ2
b = 1 α, on en déduit que s12 = nSb σ2 2
a = s2 .

Nous cherchons alors s12 et s22 tels que

nS 2 nS 2 α
P σ2 s12 = P σ2 =P b =
b σ2 2
et
nS 2 nS 2 α
P σ2 s12 = P σ2 =P a = ,
a σ2 2
les valeurs a et b seront déterminées par la lecture de la table du χ2 .

REMITA (National School of Arti…cial Intelligence.) 2ème année ENSIA 04/02/2024 36 / 56


Tests d’hypothèses
Un test est un mécanisme qui permet de prendre une décision entre
généralement deux hypothèses au vu des résultats obtenus à partir d’un
échantillon. Ces deux hypothèses sont notées H0 appelée hypothèse
nulle et H1 appelée hypothèse alternative, dont une seulement est vraie.
La décision aboutira à choisir H0 ou H1 . Nous avons alors 4 cas
possibles

Réalité H0 est vraie H0 est fausse


Décision
Accepter H0 Vrai positif (VP) Faux positif (FP)
Rejeter H0 Faux négatif (FN) Vrai négatif (VN)

Les cas VN et VP sont des ”bonnes décisions”. Par contre le cas FN


est nommé erreur de première espèce pour lequel on associe un risque
lié à la probabilité de rejeter H0 alors qu’elle est vraie noté α, et le cas
FP est nommé erreur de deuxième espèce pour lequel on associe un
risque lié à la probabilité d’accepter H0 alors qu’elle est fausse noté β.
REMITA (National School of Arti…cial Intelligence.) 2ème année ENSIA 04/02/2024 37 / 56
Tests d’hypothèses

Les probabilités correspondantes sont résumées dans le tableau suivant

Réalité H0 est vraie H0 est fausse


Décision
Accepter H0 1 α β
Rejeter H0 α 1 β

Souvent on prend α = 5% (ou si on veut être plus strict on prend 1%) et il


est habituel de prendre 20% pour β.
La probabilité α est appelée niveau ou seuil du test, alors que 1 β est
appelée puissance du test.

REMITA (National School of Arti…cial Intelligence.) 2ème année ENSIA 04/02/2024 38 / 56


Tests d’hypothèses
Démarches des tests d’hypothèses.

α étant …xé, il importe de choisir une variable de décision : variable qui


doit apporter le maximum d’informations sur le problème posé et dont la
loi sera di¤érente selon que H0 ou H1 est vraie. Il faut que sa loi loi soit
entièrement connue au moins si H0 est vraie.
On appelle région critique W l’ensemble des valeurs de la variable de
décision qui conduisent à écarter H0 au pro…t de H1 . La forme de
la région critique est déterminée par la nature de H1 , sa détermination
exacte est donnée par
P ( W / H0 ) = α.
La région d’acceptation est alors sont complémentaire W et l’on a donc

P W H0 = 1 α et P ( W / H1 ) = 1 β.

La construction d’un test n’est rien d’autre que la détermination de la


région critique.

REMITA (National School of Arti…cial Intelligence.) 2ème année ENSIA 04/02/2024 39 / 56


Tests d’hypothèses
Démarches des tests d’hypothèses.

Pour résumer la démarche d’un test est comme suit


1 Choix de H0 et H1 .
2 Détermination de la variable de décision.
3 Allure de la région critique en fonction de H1 .
4 Calcul de la région critique en fonction de α.
5 Calcul éventuelle de la puissance du test 1 β.
6 Calcul de valeur expérimentale de la variable de décision.
7 Conclusion : rejet ou acceptation de H0 .

REMITA (National School of Arti…cial Intelligence.) 2ème année ENSIA 04/02/2024 40 / 56


Tests d’hypothèses
Les grandes catégories de tests

Nous classons les tests selon les objectifs recherchés (Indépendance,


ajustement, conformité et homogénéité,...) et aussi selon leurs
propriétés mathématiques (paramétriques ou non, tests robustes ou test
libres).
Un test est dit paramétrique si son objet est de tester certaine hypothèse
relative à un ou plusieurs paramètres d’une v.a. de loi spéci…que ou non.
Ils se basent généralement sur l’existence d’une v.a. de référence X suivant
une loi normale. Si les résultats restent valables lorsque X n’est pas
normale on dit que le test est robuste.

REMITA (National School of Arti…cial Intelligence.) 2ème année ENSIA 04/02/2024 41 / 56


Tests d’hypothèses
Les grandes catégories de tests

Une catégorie particulièrement intéressante de tests robustes est la classe


des tests libres (Distribution free), ce sont des tests valables quelle que
soit la loi de la variable aléatoire étudiée, valables en particulier lorsque
l’on ignore tout de cette loi (cas très fréquent en pratique). Ces tests
sont bien souvent appelés tests non paramétriques.
Pour les tests paramétriques on distigue généralement des hypothèses
simples et des hypothèses composites:
Une hypothèse simple est du type H : θ = θ 0 ou θ 0 est une valeur
isolée du paramètre;
Une hypothèse composite est du type H : θ 2 A ou A est un intervalle
de R.
La plus part des hypothèses composites se ramènent aux cas θ 6= θ 0 (test
bilatéral) ou θ > θ 0 (test unilatéral 1) ou θ < θ 0 (test unilatéral 2) .

REMITA (National School of Arti…cial Intelligence.) 2ème année ENSIA 04/02/2024 42 / 56


Test d’indépendance
Test d’indépendance de deux variables qualitatives

Ce test permet de contrôler l’indépendance de deux caractères dans une


population donnée.
On dispose de deux v.a. X et Y , les valeurs possibles de X sont réparties
en l modalités ou classes (X1 , , Xl ), celles de Y sont réparties en k
modalités (Y1 , , Yk ) . On désire tester l’hypothèse H0 :”Les variables X
et Y sont indépendantes”.
Pour cela on contruit le tableau de contingence correspondant, puis on
calcule les e¤ectifs théoriques
ni n j
Cij = . Il faut que Cij 5 pour tout i, j.
n

REMITA (National School of Arti…cial Intelligence.) 2ème année ENSIA 04/02/2024 43 / 56


Test d’indépendance
Test d’indépendance de deux variables qualitatives

Sous l’hypothèse H0 , on a Cij = nij . On calcule la valeur de la variable

(nij Cij )2
∑ Cij
= χ2c χ2 (ν) où ν = (l 1) (k 1) .
i ,j

On cherche la valeur critique χ2α dans la table de la loi du Khi2 à ν degrés


de liberté.
Décision : si χ2c < χ2α , on accepte l’hypothèse H0 , sinon on la rejette.

REMITA (National School of Arti…cial Intelligence.) 2ème année ENSIA 04/02/2024 44 / 56


Test d’indépendance
Test d’indépendance de deux variables qualitatives

Example
On désire comparer l’e¢ cacité de deux médicaments ayant des prix
di¤érents, pour cela la sécurité sociale a e¤ectué une enquête sur les
guérisons obtenues. Les résultats sont résumés dans le tableau suivant :

Médicament Générique
Guéris 48 158
Non guéris 6 44

REMITA (National School of Arti…cial Intelligence.) 2ème année ENSIA 04/02/2024 45 / 56


Test d’indépendance
Test d’indépendance de deux variables quantitatives : test de corrélation nulle

Soit r le coe¢ cient de corrélation linéaire d’un échantillon composé de n


couples d’observations extrait de population gaussienne. On désire tester

H0 : ρ = 0 (corrélation nulle entre les populations)

au risque α.
Sous H0 la v.a. p
R n 2
T = p T (ν = n 2) .
1 R2

REMITA (National School of Arti…cial Intelligence.) 2ème année ENSIA 04/02/2024 46 / 56


Test d’indépendance
Test d’indépendance de deux variables quantitatives : test de corrélation nulle

On calculera p
r n 2
tc = p
1 r2
puis on déterminera tα ou t 2α de la table de la loi de students à ν = n 2
degrés de liberté et on adoptera la règle de décision suivante :
- Si H1i: ρ 6= 0 h(cas bilatéral) : rejet de H0 au risque α si
tc 2
/ t 2α ; t 2α ;
- Si H1 : ρ > 0 (cas unilatéral 1) : rejet de H0 au risque α si
tc > tα ;
- Si H1 : ρ < 0 (cas unilatéral 2) : rejet de H0 au risque α si
tc < tα .

REMITA (National School of Arti…cial Intelligence.) 2ème année ENSIA 04/02/2024 47 / 56


Test d’indépendance
Test d’indépendance de deux variables quantitatives : test de Spearman

On utilise le test pour des variables X et Y continues, dont les lois sont
quelconques.
Procédure:
- On range par ordre croissant, séparément, les valeurs
fx1 , , xn g et fy1 , , yn g .
- On remplace chaque valeur xi par son rang xi0 et chaque
valeur yi par son rang yi0 . S’il y’a des valeurs ex-aequo on
attribue à chacun un rang égal à la moyenne des rangs qu’ils
occupent.
2
6 ∑(xi0 yi0 )
- On calcule le nombre rS = 1 n (n 2 1 )
à partir des
couples des rangs.

REMITA (National School of Arti…cial Intelligence.) 2ème année ENSIA 04/02/2024 48 / 56


Test d’indépendance
Test d’indépendance de deux variables quantitatives : test de Spearman

Décision:
1 Si n 13.
Pour un risque α on détermine la valeur de rα telle P (jRS j > rα ) = α
lue dans la table de Spearman.
- Si jrS j > rα on rejette H0 avec un risque α de se
tromper.
2 Si n > 13. p
Dans ce cas si H0 est vraie, la statistique T = RpS n 2
suit
1 R s2
approximativement la loi de Student à n 2 ddl. La décision se fera à
l’aide la table du coe¢ cient de corrélation linéaire qui donne la valeur
de rα telle que P (jRS j > rα ) = α.

REMITA (National School of Arti…cial Intelligence.) 2ème année ENSIA 04/02/2024 49 / 56


Test d’indépendance
Test d’indépendance de deux variables quantitatives :

Example
Un traitement prolongé par un médicament (durée X en jours) peut
provoquer une diminution Y du nombre de plaquettes sanguines (dans
10 4 ml). On dispose des observations suivantes :

X 2 4 10 10 10 14 14 18 18 20
Y 25 20 10 25 25 10 15 5 15 5

La baisse du nombre de plaquettes est-il lié à la durée du traitement :


1 En supposant les populations gaussiennes ?
2 Sans rien connaître des populations ?

REMITA (National School of Arti…cial Intelligence.) 2ème année ENSIA 04/02/2024 50 / 56


Test de conformité à une loi théorique
Test de conformité (d’adéquation) du Khi2

Il s’agit de comparer une loi théorique à une distribution expérimentale.


On considère une v.a. X et on désire tester l’ajustement de sa loi notée L
à une loi connue L0 . On va alors tester

H0 : L = L0 contre H1 : L 6= L0 .

Pour cela on se donne dans la population n observations de la variable X


partagées en k classes. On désigne par Oi l’e¤ectif observé de la classe i.

Pour chaque classe l’e¤ectif théorique est dé…ni par

Ci = n P (X 2 classei /X L0 ) .

REMITA (National School of Arti…cial Intelligence.) 2ème année ENSIA 04/02/2024 51 / 56


Test de conformité à une loi théorique
Test de conformité (d’adéquation) du Khi2

On établit alors le tableau suivant en imposant que Ci 5

Classe 1 2 i k
E¤ectif observé O1 O2 Oi Ok
E¤ectif théorique C1 C2 Ci Ck

Sous l’hypothèse H0 la statistique K qui prend sur tout l’échantillon de


taille n la valeur
2
∑k (Oi Ci )
χ2c = i =1
Ci
suit la loi du χ2 à ν = k 1 r ddl. r est le nombre de paramètres de la
loi L0 qu’on a du estimer.
Décision : On compare la valeur χ2c à la valeur thérique χ2α (ν) .
On rejette H0 si χ2c > χ2α .

REMITA (National School of Arti…cial Intelligence.) 2ème année ENSIA 04/02/2024 52 / 56


Test de conformité à une loi théorique
Test de Kolmogorov-Smirnov

C’est un test non-paramétrique, car aucune contrainte n’est posée sur la


distribution de référence ni qu’elle soit connue sous forme analytique.
On considère un échantillon de taille n d observations d’une variable et un
fonction de répartition de référence F (x ) .
Le test de Kolmogorov consiste à tester l’hypothèse H0 selon laquelle
l’échantillon a été prélevé dans une population de fonction de répartition
F (x ) .
On calcule la statistique de Kolmogorov D dont la distribution est connue
sous H0 .
La statistique de Kolmogorov-Smirnov est

Dn = sup jFn (x ) F (x )j ,
x 2R

Décision : Si Dn > pcn , on rejette H0 , c étant une valeur tabulée


dépendant de n et de α.

REMITA (National School of Arti…cial Intelligence.) 2ème année ENSIA 04/02/2024 53 / 56


Test de conformité à une loi théorique
Example
En lançant 60 fois un dé, un joueur obtient les résultats suivants :

Faces 1 2 3 4 5 6
E¤ectifs 15 7 4 11 6 17

Le dé est-il truqué ?

Example
On réalise des essais de gre¤age sur 3000 échantillon comportant chacun 6
arbustes identiques sur lesquels on implante un gre¤on. On note X la v.a.
qui prend pour valeurs le nombre x de réussite dans chaque échantillon.

Nombre de réussites 0 1 2 3 4 5 6
Nombre d’échantillons 702 977 710 402 153 48 8

Est-ce que l’hypothèse que la v.a. X suit une loi de Poisson de paramètre
λ inconnu est acceptable au risque α = 0, 05?
REMITA (National School of Arti…cial Intelligence.) 2ème année ENSIA 04/02/2024 54 / 56
Test de conformité à une loi théorique
Test de normalité

C’est une méthode pour visualiser les chances qu’a une distribution d’être
gaussienne. Elle permet la lecture rapide de sa moyenne et de écart-type.

On commence par déterminer la moyenne x et la variance σ2 de la variable


X, et en considérant Z
une v.a. de loi normale centrée réduite, on a
X x xi x
P (X xi ) = P = P (Z yi ) = Φ (yi )
σ σ

où yi = xi σ x .
Pour chaque valeur de xi de la v.a. X , on peut calculer P (X xi ) puis en
déduire yi tel que Φ (yi ) = P (X xi ) .
Si la variable est gaussienne, les points de coordonnées (xi , yi ) sont alignés
sur la droite d’équation y = x σ x .

REMITA (National School of Arti…cial Intelligence.) 2ème année ENSIA 04/02/2024 55 / 56


Test de conformité à une loi théorique
Test de normalité

Example
On relève la taille de 300 individus et on obtient le tableau suivant :

Classes ]155, 160] ]160, 165] ]165, 170] ]170, 175]


E¤ectifs 3 6 33 105
Classes ]175, 180] ]180, 185] ]185, 190]
E¤ectifs 99 48 6

Tester la normalité de la distribution de la taille des individus.

REMITA (National School of Arti…cial Intelligence.) 2ème année ENSIA 04/02/2024 56 / 56

Vous aimerez peut-être aussi