Chap11 Evaluation
Chap11 Evaluation
Chap11 Evaluation
les SRI
1
Qu’est ce qui marche ?
BM25
Indexer
Statistique vs. linguistique
e
ab ilist
Pr ob n isme
Mots vid
n
exio
les pass
n
thésaurus Con
tf
hr ases
p s
ot²
es
ages
e m liens web
Vectoriel u pes d
Gro
Evaluer
2
Objectif
– Mais, ..
• Evaluation comparative entre approches
• Mesurer la performance relative de A par rapport à B
3
Critères d’évaluation
• Rappel
– La capacité d’un système à sélectionner tous
les documents pertinents de la collection
• Précision
– La capacité d’un système à sélectionner que
des documents pertinents
5
Précision et Rappel
relevant irrelevant
Collection
Sélection. & Non sélection. &
de documents document documents
pertinents sélectionnés Non Pert.
Non Pert.
6
Pourquoi deux facteurs ?
Collection documents
sélectionnés
de documents document
pertinents
7
Pertinent vs. Sélectionné
Collections
Sélectionné
Pertinent
8
Sélectionné vs. Pertinent
Sélectionné
Pertinent
9
Sélectionné vs. Pertinent
Pertinent
10
Sélectionné vs. Pertinent
Pertinent
11
Sélectionné vs. Pertinent
Sélectionné
Pertinent
12
Lien entre Rappel et Précision
1
Precision
13
Démarche d’évaluation
• Démarche Expérimentale
– par « benchmarking ».
– Evaluation effectuée sur des collections de tests
– Collection de test : un ensemble de documents,
un ensemble de requêtes et des pertinences
(réponses positives pour chaque requêtes)
14
Démarche expérimentale
• Evaluation à la Cranfield
15
Evaluation à la Cranfield
Documents de tests Requêtes de test
?
1 9
7 ?
3 6
4 5
Système à
évaluer
Liste 5 0,9
documents 0,8
9 0,7 Syst A
7 0,6
Précision
0,5
0,4
0,3
Evaluation 0,2
Liste de bonnes 0,1
réponses Précision 0
et rappel 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1
Rappel
? 1, 9
? 4
16
Test Collections
•
Collection Number Of Number Of Raw Size
Name Documents Queries (Mbytes)
CACM 3,204 64 1.5
CISI 1,460 112 1.3
CRAN 1,400 225 1.6
MED 1,033 30 1.1
TIME 425 83 1.5
• COLLECTION TREC
17
Calcul du rappel et la précision
18
Calcul du rappel et de la précision
19
Calcul du rappel et de la précision
Exemple
n doc # relevant
Le nombre total de documents
1 588 x pertinents est = 6
2 589 x
3 576
R=1/6=0.167; P=1/1=1
4 590 x
5 986
R=2/6=0.333; P=2/2=1
6 592 x
7 984 R=3/6=0.5; P=3/4=0.75
8 988
9 578 R=4/6=0.667; P=4/6=0.667
10 985
Il manque un
11 103
document pertinent.
12 591 On n’atteindra pas le
13 772 x R=5/6=0.833; p=5/13=0.38 100% de rappel
14 990
20
Calcul du rappel et de la précision
Exemple 2
Ra Pr Pr
0,07 1,00
1,20
0,13 0,50
1,00
0,20 0,75
0,27 0,67 0,80
0,40 0,67
0,40
0,47 0,64
0,53 0,67 0,20
21
Interpolation de la courbe
Rappel/Précision
• Interpoler une précision pour chaque point de
rappel :
– rj ∈{0.0, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1.0}
• La précision interpolée au point de rappel rj est
égale à la valeur maximale des précisions
obtenues aux points de rappel r, tel que r>=rj
Ra Pr Ra Pr
0,07 1,00 0,0
0,13 0,50 0,1
0,20 0,75 0,2
0,27 0,67 0,3
0,33 0,71 0,4
0,40 0,67 0,5
0,47 0,64 0,6
0,53 0,67 0,7
0,60 0,64 0,8
0,67 0,67 0,9
0,90 0,01 1
23
Précision moyenne
• On souhaite souvent avoir une valeur unique
– Par exemple pour les algorithmes d’apprentissage pour
contrôler l‘amélioration
• La précision moyenne est souvent utilisée en RI
• Plusieurs moyennes
– Précision moyenne non interpolée (PrecAvg) :
• Calculer la moyenne des précisions à chaque apparition d’un
document pertinent
24
Précision moyenne non interpolée
Exemple
n doc # relevant
Le nombre total de document
1 588 x pertinent est = 6
2 589 x
3 576
R=1/6=0.167; P=1/1=1
4 590 x
5 986
R=2/6=0.333; P=2/2=1
6 592 x
7 984 R=3/6=0.5; P=3/4=0.75
8 988
9 578 R=4/6=0.667; P=4/6=0.667
10 985
11 103 AP¨=AvgPrec=(1+1+0,75+0,667+0,38)/6
12 591
13 772 x R=5/6=0.833; p=5/13=0.38
14 990
25
Autres mesures de moyennes
• F-Mesure
– Mesure tenant compte à la fois du rappel et de
la précision.
– Introduite par van Rijbergen, 1979
– Moyenne harmonique entre R et P
2 PR 2
F= =1 1
P + R R+P
Autres mesures de moyennes
• β contrôle le compromis R, P:
– β = 1: même poids précision et recall (E=F).
– β > 1: préviligie la précision au rappel
– β < 1: plus d’importance au rappel.
Exemple de résultats renvoyés par le
Programme TREC_EVAL
Total number of documents over all queries
Retrieved: 1000
Relevant: 80
Rel_ret: 30
Interpolated Recall - Precision Averages:
at 0.00 0.4587
at 0.10 0.3275
at 0.20 0.2381
at 0.30 0.1828
at 0.40 0.1342
at 0.50 0.1197
at 0.60 0.0635
at 0.70 0.0493
at 0.80 0.0350
at 0.90 0.0221
at 1.00 0.0150
Average precision (non-interpolated) for all rel docs:
0.1311
28
R-P courbes sur l’ensemble des requêtes
30
Courbe des moyennes sur plusieurs requêtes
• Macro moyenne
– Calculer la précision moyenne à chaque point
de rappel pour l’ensemble des requêtes.
31
Exemple
Ens des
Requete1 Requete2 requêtes
R Pr R Pr R Pr
0 0,629 0 0,5017 0 0,56535
0,1 0,451 0,1 0,332 0,1 0,3915
0,2 0,393 0,2 0,248 0,2 0,3205
0,3 0,3243 0,3 0,171 0,3 0,24765
0,4 0,271 0,4 0,155 0,4 0,213
0,5 0,2424 0,5 0,125 0,5 0,1837
0,6 0,164 0,6 0,089 0,6 0,1265
0,7 0,134 0,7 0,056 0,7 0,095
0,8 0,09 0,8 0,032 0,8 0,061
0,9 0,04 0,9 0,027 0,9 0,0335
1 0,031 1 0,02 1 0,0255
AvrPrec 0,2329 AvrPrec 0,1443 AvrPrec 0,1886
32
Exemple
0,7
0,6
0,5
0,4 Req1
Req2
0,3 Req1+Req2
0,2
0,1
0
0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1
33
Comparaison de deux systèmes sur un
ensemble de requêtes
1
0,8 NoStem Stem
Precision
0,6
0,4
0,2
0
0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1
Recall
34
Mesures focalisées sur le “top” de la
liste
• Les utilisateurs se focalisent davantage sur les
documents pertinents se trouvant en “top” des
résultats
• La mesure de rappel n’est pas toujours appropriée
– Il existe des stratégies de recherche pour lesquelles il y a
une réponse unique
– e.g., navigational search, question answering
n doc # relevant
1 588 x
2 589 x
Prec. à 5 docs = 3/5
3 576
4 590 x
Prec. à 10 docs = 4/10
5 986
6 592 x
7 984
8 988
9 578
10 985
11 103
12 591
13 772 x
14 990
37
R- Précision
• Une façon de calculer une valeur de précision unique :
précision au R ème document de la liste des documents
sélectionné par la requête ayant R documents pertinents dans
la collection.
n doc # relevant
1 588 x
2 589 x R = # documents pertinents = 6
3 576
4 590 x
5 986
6 592 x R-Precision = 4/6 = 0,66
7 984
8 988
9 578
10 985
11 103
12 591
13 772 x
14 990 38
Exemple R-précision
Précision
at 5 docs 0,224
at 10 docs 0,177
at 15 docs 0,142
at 30 docs 0,114
at 100 docs 0,073
at 200 docs 0,053
at 500 docs 0,013
R-précision=
Précision
Exacte 0,144
39
Discounted Cumulative Gain
• Deux hypothèses:
• Prise en compte de la pertinence graduelle des
documents
• Les documents très pertinents sont plus utiles que ceux
qui sont marginalement pertinents
– Plus un document pertinent est loin du début de la
liste moins il est utile pour l'utilisateur, car il a
peu de chance d'être examiné
Discounted Cumulative Gain
• Utilise la pertinence graduelle comme une mesure
de l'utilité, ou du gain, obtenu en examinant un
document
• Autre formulation
DCG Exemple
• Classement parfait:
3, 3, 3, 2, 2, 2, 1, 0, 0, 0
• DCG idéal :
3, 6, 7.89, 8.89, 9.75, 10.52, 10.88, 10.88, 10.88, 10
• NDCG (valeurs de DCG normalisées)
– NDCGp=DCGp/iDCGp
– 1, 0.83, 0.87, 0.76, 0.71, 0.69, 0.73, 0.8, 0.88, 0.88
– NDCG ≤ 1
Retour sur la comparaison de systèmes
• Plusieurs facteurs :
– t-test, test de wilcoxon, Kendall (tau)
47
t-Test
48
t-Test
• Dire qu’une différence est significative à
- x% si p-value < x/100
- Valeurs de x considérées
- 0.05 (ou 5%) signifie : il y a 95% de chances que la
différence ne soit pas due au hasard
- 0.01 (ou 1%) signifie : il y a 99% de chances que la
différence ne soit pas due au hasard
- 0.10 (ou 10%) signifie : il y a 90% de chances que la
différence ne soit pas due au hasard
49
Exemple
Exemple : t-Test
– Exemple
52
Comment identifier les documents pertinents ?
53
Comment identifier les documents
pertinents ?
• Autres approches
– Pooling
– Sampling
54
Comment identifier les documents
pertinents ?
• Pooling
– Pour chaque requête
• Sélectionner des documents en utilisant différents techniques
• Juger les n meilleurs documents obtenus par chaque technique
• La liste des documents pertinents = l’union des documents pertinents
d de chaque technique
• Sous ensemble de vrai jugement de pertinence
• Echantillonnage
– Possible d’estimer le nombre de documents pertinents par des
techniques d’échantillonnage
• Incomplète, problème ?
– Comment doit-on traiter les documents non jugés
– Comment ceci peut affecter les performances calculées ?
55
Avantages et inconvénients des collections de
tests
• Avantages
– Mesures de performances
– Possibilité de comparaison avec d’autres
travaux
• Inconvénients
– Les résultats obtenus sont propres à la
collection.
– Ne répondent pas à toutes les tâches de RI,
notamment celles orientées utilisateur
56
TREC
Expérience de TREC
57
TREC
The Text REtrieval Conference
59
The TREC Objective
60
61
62