Chapitre 1 VS

Techniques d’Indexation et de Recherche
Multimédia
Leila Ben Othman - Tarek Hamrouni

Chapitre 1
Introduction à la recherche
d’information
Plan
1 Contexte et motivation
2 Système de recherche d’information (SRI)
3 SGBD et SRI
4 Définitions
• SRI
• Document
• Requête
• Pertinence (utilisateur, système)
5 Processus de la RI
• Indexation
• Modèles de RI
• Évaluation
6 Défis de la RI : récapitulatif
7 Problématique du multimédia
8 Références
Contexte et motivation
Contexte et motivation
• La généralisation des supports numériques.
• La chute des coûts des média de stockage.
• L’augmentation vertigineuse de la quantité d’information stockée
sous format numérique.
• L’information est de plus en plus hétérogène (texte, image, son,
etc.).
• Les exigences croissantes des utilisateurs par rapport aux temps de
réponse ainsi que la qualité de réponse.
• Pour que ces informations soient exploitables, il faut qu’elles

puissent être consultées efficacement.
• L’émergence d’un domaine de recherche : Recherche d’Information
(RI) ou Repérage d’Information = Information Retrieval (IR).
L. Ben Othman - T. Hamrouni 4/1

Système de recherche d’information (SRI)

• Étant donné :
• Une collection de documents (appelé aussi corpus, ou fond de
documents) ;
• Un besoin exprimé à travers une requ^ete de la part d’un
utilisateur.
• Objectif d’un SRI :

• Retrouver les documents répondant à ce besoin le plus précisément
et le plus exhaustivement possible.
• Remarque : La qualité des documents retournés (ou retrouvés)
dépend étroitement de la satisfaction de l’utilisation : notion de
pertinence.

Système de recherche d’information (SRI) : Exemple

SGBD et RI
SGBD et SRI
Spécification d’un livre
• ISBN : 0-201-12227-8
• Auteur : Salton Gerard
• Titre : Automatic text processing : the transformation, analysis, and
retrieval of information by computer
• Éditeur : Addison-Wesley
• Date publication : 1989
• Contenu : ¡Texte du livre¿
1 Recherche par attributs (données structurées) (Auteur, Éditeur, etc.)

⇒ recherche dans les BD (simple)
• Pour trouver les livre écrits par ”Knuth”, on peut poser la requête
suivante en SQL : select Livre from Auteur where Nom = ”Knuth”
2 Recherche par le contenu (données non structurées)
⇒ RI (complexe)
Définitions
Système de RI
Un système de recherche d’information (RI) est un système qui permet

de retrouver les documents pertinents à une requête d’utilisateur, à partir
d’une base de documents volumineuse.

Définitions
Document - Requête
• Document
• toute unité qui peut constituer une réponse à une requête
d’utilisateur.
• Forme : Texte, image, vidéo, etc.
• Structure : structuré, non structuré, semi-structuré.
• Nature : Hétérogène (multi-sources, multi-langues).
• Requête
• exprime le besoin en information d’un utilisateur.
L. Ben Othman - T. Hamrouni 10 / 1

Définitions
Pertinence
• Le but de la RI est de trouver seulement les documents pertinents.
• Pertinence : Qualité d’un système à répondre exactement à la
requête demandée par l’utilisateur
• Pertinence utilisateur : elle représente la façon dont l’utilisateur
évalue les documents retrouvés par le SRI en fonction de son besoin
d’information (on parle de ses jugements de pertinence).
=⇒ c’est une évaluation subjective (floue) qui varie au cours du
temps et qui dépend de l’utilisateur en question :
• un même utilisateur peut avoir deux avis différents concernant un
document retrouvé suite à sa requête et ceci en fonction de sa
situation lors de l’évaluation.
• deux utilisateurs peut avoir deux avis différents concernant un même
document.
• etc.
=⇒ mesurer de manière automatique la pertinence utilisateur est
une tâche complexe.
=⇒ Solution : la pertinence système.

Définitions
Pertinence (suite)
• Pertinence système : c’est la pertinence attribuée par le système à

partir des méthodes utilisées pour comparer les documents et la
requête.
=⇒ c’est un score obtenu automatiquement par les SRI en
comparant les représentations des documents et celles des requêtes :
rend “mesurable” la notion de pertinence.
Attention : ce score n’est qu’une représentation imprécise de la

pertinence utilisateur (un document considéré comme pertinent par
le système ne l’est pas nécessairement par l’utilisateur) : l’enjeu de
la RI est de rapprocher tant que possible la pertinence système de la
pertinence utilisateur.

Processus de la RI
Processus de la RI : Vue globale
Besoin requete documents

d’information formulation
comparaison
documents retournés
• Comment représenter le contenu d’un document?

• Comment juger si un document est pertinent?
• Comment évaluer un système de RI?

Processus de la RI
Tâches principales d’un processus de la RI
Un processus de la RI admet généralement trois tâches principales et qui

sont comme suit :
1 La représentation du contenu des documents (appelée aussi analyse
ou indexation) : c’est à dire l’extraction et le stockage du contenu
sémantique des documents du corpus ;
2 La comparaison (ou appariement) qui doit établir la correspondance

entre la requête de l’utilisateur et les documents du corpus ;
3 L’évaluation de la performance du système.

Remarque : Il est à noter qu’en pratique, une étape de reformulation de
requête est offerte à l’utilisateur dans certains SRI.

Processus de la RI
Processus de la RI : Indexation ou analyse

indexation

analyse analyse
représentation représentation
comparaison
• Des techniques se proposent d’attacher à un document, un ensemble

de descripteurs (représentation) de son contenu dans le but de
faciliter la recherche d’information. Ce traitement, c’est l’indexation.

Processus de la RI
Processus de la RI : Indexation ou analyse
Indexation - Chaumier 2000

Description du contenu du document à l’aide de mots clés pour faciliter la
mémorisation du contenu de ce document pour une recherche ultérieure.
• Les unités extraites afin de représenter un document sont appelées

mots clés, ou descripteurs, ou termes d’indexation, ou index.
• Comment construire ces unités?

Processus de la RI
Processus de la RI : Comparaison et mise en

correspondance

analyse analyse
représentation représentation
comparaison
documents retournés modèles de RI
• Les modèles ont pour objectif de définir une méthode de

comparaison entre une représentation d’un document et une
représentation d’une requête afin de déterminer leur degré de
correspondance (similarité).
Processus de la RI
Processus de la RI : Mise en correspondance exacte et

approximative
• Appariement exact : Le résultat est une liste de documents respectant

exactement la requête spécifiée avec des critères précis.
Les documents retournés ne sont pas triés.
• Appariement approximatif : Le résultat est une liste de documents

sensés être pertinents pour la requête. Les documents
retournés sont triés selon leur score de pertinence
vis-à-vis de la requête.

Processus de la RI
Processus de la RI : Évaluation d’un SRI

analyse analyse
évaluation représentation représentation
comparaison
• Rappel : La capacité du système à retourner tous les documents

pertinents.
• Précision : La capacité du système à retourner que les documents
pertinents.
Défis de la RI : récapitulatif
Défis de la RI : récapitulatif
• Représentation de l’information
• Comment construire une représentation à partir de l’information?
• Qu’est ce qu’une bonne représentation?
• Représentation des besoins
• Comment exprimer le besoin?
• Comment représenter le besoin?
• Comparaison des représentations
• Comment mesurer la pertinence d’un document
• Évaluation des performances
• Comment décider qu’un SRI est plus performant qu’un autre?
• Quelles métriques?

Problématique du multimédia
Problématique du multimédia (1)
• L’acroissement des performances des ordinateurs permet non

seulement le stockage mais aussi le traitement des images, du son et
du vidéo (images scientifiques, extrait musical, discours d’un homme
politique, etc)
• Domaines d’application
• Archives audiovisuelles
• Données biomédicales
• Imagerie satellitaires
• Vidéo de télésurveillance

• Difficultés :
• à la différence des données textuelles, le contenu sémantique n’est
jamais explicite
• les requêtes sont difficiles à exprimer (interprétation compliquée pour
un humain), donc en général ambiguës, incomplètes

L’indexation multimédia
• Indexation sémantique (manuelle) : l’opérateur d’indexation attache
au document des données de haut niveau relatives à la signification
du contenu de l’objet. Les requêtes associées sont en général des
mots, désignant un objet, une action, le nom d’un personnage ou
d’un événement. Par exemple, pour déterminer le contenu graphique
d’une image, Google analyse le texte qui entoure l’image, le titre de
l’image et de nombreux autres critères.
• Indexation descriptive (automatique) : l’algorithme d’indexation
attache des données de bas niveau, relatives au contenu visuel
(couleur, texture, forme, etc)

Références
Références
• Mustapha Baziz. Indexation conceptuelle guidée par ontologie pour
la recherche d’informations. Thèse de doctorat, Université Paul
Sabatier, décembre 2005.
• Support de cours de Jian-Yun Nie disponible à l’adresse suivante :

http://www.iro.umontreal.ca/ nie/IFT6255/
• Support de cours de Mohaned Boughanem disponible à l’adresse

suivante :
http://www.irit.fr/˜Mohand.Boughanem/Fr/.
• Support de cours de Antoine Rozenknop disponible à l’adresse

suivante :
http://www-lipn.univ-paris13.fr/ rozenknop/Cours/MICR REI/.

Chapitre 1 VS

Transféré par

Droits d'auteur :

Formats disponibles

Chapitre 1 VS

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Chapitre 1 VS

Transféré par

Droits d'auteur :

Formats disponibles

Techniques d’Indexation et de Recherche

Leila Ben Othman - Tarek Hamrouni

• Pour que ces informations soient exploitables, il faut qu’elles

L. Ben Othman - T. Hamrouni 4/1

Système de recherche d’information (SRI)

L. Ben Othman - T. Hamrouni 5/1

Système de recherche d’information (SRI)

• Objectif d’un SRI :

L. Ben Othman - T. Hamrouni 6/1

Système de recherche d’information (SRI) : Exemple

L. Ben Othman - T. Hamrouni 7/1

1 Recherche par attributs (données structurées) (Auteur, Éditeur, etc.)

Un système de recherche d’information (RI) est un système qui permet

L. Ben Othman - T. Hamrouni 9/1

L. Ben Othman - T. Hamrouni 10 / 1

L. Ben Othman - T. Hamrouni 11 / 1

• Pertinence système : c’est la pertinence attribuée par le système à

Attention : ce score n’est qu’une représentation imprécise de la

L. Ben Othman - T. Hamrouni 12 / 1

Processus de la RI : Vue globale

Besoin requete documents

• Comment représenter le contenu d’un document?

L. Ben Othman - T. Hamrouni 13 / 1

Tâches principales d’un processus de la RI

Un processus de la RI admet généralement trois tâches principales et qui

2 La comparaison (ou appariement) qui doit établir la correspondance

3 L’évaluation de la performance du système.

L. Ben Othman - T. Hamrouni 14 / 1

Processus de la RI : Indexation ou analyse

Besoin requete documents

• Des techniques se proposent d’attacher à un document, un ensemble

L. Ben Othman - T. Hamrouni 15 / 1

Processus de la RI : Indexation ou analyse

Indexation - Chaumier 2000

• Les unités extraites afin de représenter un document sont appelées

L. Ben Othman - T. Hamrouni 16 / 1

Processus de la RI : Comparaison et mise en

Besoin requete documents

documents retournés modèles de RI

• Les modèles ont pour objectif de définir une méthode de

Processus de la RI : Mise en correspondance exacte et

• Appariement exact : Le résultat est une liste de documents respectant

• Appariement approximatif : Le résultat est une liste de documents

L. Ben Othman - T. Hamrouni 18 / 1

Processus de la RI : Évaluation d’un SRI

Besoin requete documents

évaluation représentation représentation

• Rappel : La capacité du système à retourner tous les documents

L. Ben Othman - T. Hamrouni 20 / 1

Problématique du multimédia (1)

• L’acroissement des performances des ordinateurs permet non

L. Ben Othman - T. Hamrouni 21 / 1

Problématique du multimédia (2)

L. Ben Othman - T. Hamrouni 22 / 1

Problématique du multimédia (3)

L. Ben Othman - T. Hamrouni 23 / 1

• Support de cours de Jian-Yun Nie disponible à l’adresse suivante :

• Support de cours de Mohaned Boughanem disponible à l’adresse

• Support de cours de Antoine Rozenknop disponible à l’adresse