TD2 Rim1

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 2

Techniques d’indexation et RI

ISIMM

Exercice 1 : Evaluation: Rappel et précision


un système de recherche d’information retourne 3 documents pertinents et 2 documents non
pertinents. Il existe au total 8 documents pertinents dans la collection. Quelle est la précision
de ce système pour cette recherche, et quel est son rappel ?

Exercice 2 : Processus d’indexation


Un moteur de recherche collecte des documents et les envoie à un indexeur, qui emploie les
modules suivants:
(A) un stemmer;
(B) un détecteur de langue pour détecter le langage de chaque document
(C) un éliminateur de mots (stop-word)
(D) un filtre qui détecte le format du document (pdf, word, etc )

Donner l’ordre dans lequel ces modules doivent être exécutés par l’indexeur d’un document

Exercice 3 : Index inverse


On dispose d’une requête sur deux mots. Pour l’un des termes le Posting List est formé par les
16 entrées suivantes :

[4,6,10,12,14,16,18,20,22,32,47,81,120,122,157,180]

Et le second terme est formé par un Posting List à entrée unique [47]. Calculez le nombre de
comparaisons nécessaires pour trouver l’intersection des deux Posting List.

Exercice 4 :

On suppose que seuls les termes de « fréquence de poids » sont utilisés (pas de facteur
inverse de fréquence), et les seuls mots ignorés « stopwords » sont “is” et are. Calculez le
cosinus de similarités des deux documents suivant :

a) “precision is very very high”


b) “high precision is very very very important”
Exercice 5 :

Soient les ensembles des termes obtenus de l'indexation des documents D1 et D2 suivants :

D1 = {efficacité, recherche, mesurée, précision, moyenne}

D2 = {modèles, recherche, efficaces, langage, vectoriel}

1. Donner la table des fréquences : terme, document;


2. Calculer TF*IDF de chaque terme où

où Nt est le nombre de documents contenant le terme ti et N est le


nombre de documents.

Exercice 6 : Modèles de recherche


Supposons qu’on dispose d’une collection constituée de 4 documents donnés dans la table
suivante. Nous allons considérer la recherche en utilisant 2 modèles de recherches :

DocID Document texte


1 click go the shears boys click click click
2 click click
3 metal here
4 metal shears click here

a. Recherche par un modèle Booléen.


b. Recherche tronquée par un modèle probabiliste.

Question 1 Selon le modèle Booléen, quels sont les résultats retournés pour la requête
suivante « metal OR click »

Question 2 Dans le cas d’un modèle probabiliste, donner dans un tableau les probabilités
calculées par les requêtes « click », « shears » et « click shears » pour chaque document, puis
classer ces documents pour chaque requête.

• Donner Le score final pour la requête “click shears” ?

Vous aimerez peut-être aussi