Chapitre 1 VS

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 24

Techniques d’Indexation et de Recherche

Multimédia

Leila Ben Othman - Tarek Hamrouni


Chapitre 1
Introduction à la recherche
d’information
Plan
1 Contexte et motivation
2 Système de recherche d’information (SRI)
3 SGBD et SRI
4 Définitions
• SRI
• Document
• Requête
• Pertinence (utilisateur, système)
5 Processus de la RI
• Indexation
• Modèles de RI
• Évaluation
6 Défis de la RI : récapitulatif
7 Problématique du multimédia
8 Références
Contexte et motivation

Contexte et motivation
• La généralisation des supports numériques.
• La chute des coûts des média de stockage.
• L’augmentation vertigineuse de la quantité d’information stockée
sous format numérique.
• L’information est de plus en plus hétérogène (texte, image, son,
etc.).
• Les exigences croissantes des utilisateurs par rapport aux temps de
réponse ainsi que la qualité de réponse.

• Pour que ces informations soient exploitables, il faut qu’elles


puissent être consultées efficacement.
• L’émergence d’un domaine de recherche : Recherche d’Information
(RI) ou Repérage d’Information = Information Retrieval (IR).

L. Ben Othman - T. Hamrouni 4/1


Système de recherche d’information (SRI)

Système de recherche d’information (SRI)

L. Ben Othman - T. Hamrouni 5/1


Système de recherche d’information (SRI)

Système de recherche d’information (SRI)

• Étant donné :
• Une collection de documents (appelé aussi corpus, ou fond de
documents) ;
• Un besoin exprimé à travers une requ^ete de la part d’un
utilisateur.

• Objectif d’un SRI :


• Retrouver les documents répondant à ce besoin le plus précisément
et le plus exhaustivement possible.
• Remarque : La qualité des documents retournés (ou retrouvés)
dépend étroitement de la satisfaction de l’utilisation : notion de
pertinence.

L. Ben Othman - T. Hamrouni 6/1


Système de recherche d’information (SRI)

Système de recherche d’information (SRI) : Exemple

L. Ben Othman - T. Hamrouni 7/1


SGBD et RI

SGBD et SRI
Spécification d’un livre
• ISBN : 0-201-12227-8
• Auteur : Salton Gerard
• Titre : Automatic text processing : the transformation, analysis, and
retrieval of information by computer
• Éditeur : Addison-Wesley
• Date publication : 1989
• Contenu : ¡Texte du livre¿

1 Recherche par attributs (données structurées) (Auteur, Éditeur, etc.)


⇒ recherche dans les BD (simple)
• Pour trouver les livre écrits par ”Knuth”, on peut poser la requête
suivante en SQL : select Livre from Auteur where Nom = ”Knuth”
2 Recherche par le contenu (données non structurées)
⇒ RI (complexe)
L. Ben Othman - T. Hamrouni 8/1
Définitions

Système de RI

Un système de recherche d’information (RI) est un système qui permet


de retrouver les documents pertinents à une requête d’utilisateur, à partir
d’une base de documents volumineuse.

L. Ben Othman - T. Hamrouni 9/1


Définitions

Document - Requête

• Document
• toute unité qui peut constituer une réponse à une requête
d’utilisateur.
• Forme : Texte, image, vidéo, etc.
• Structure : structuré, non structuré, semi-structuré.
• Nature : Hétérogène (multi-sources, multi-langues).

• Requête
• exprime le besoin en information d’un utilisateur.

L. Ben Othman - T. Hamrouni 10 / 1


Définitions

Pertinence
• Le but de la RI est de trouver seulement les documents pertinents.
• Pertinence : Qualité d’un système à répondre exactement à la
requête demandée par l’utilisateur
• Pertinence utilisateur : elle représente la façon dont l’utilisateur
évalue les documents retrouvés par le SRI en fonction de son besoin
d’information (on parle de ses jugements de pertinence).
=⇒ c’est une évaluation subjective (floue) qui varie au cours du
temps et qui dépend de l’utilisateur en question :
• un même utilisateur peut avoir deux avis différents concernant un
document retrouvé suite à sa requête et ceci en fonction de sa
situation lors de l’évaluation.
• deux utilisateurs peut avoir deux avis différents concernant un même
document.
• etc.
=⇒ mesurer de manière automatique la pertinence utilisateur est
une tâche complexe.
=⇒ Solution : la pertinence système.

L. Ben Othman - T. Hamrouni 11 / 1


Définitions

Pertinence (suite)

• Pertinence système : c’est la pertinence attribuée par le système à


partir des méthodes utilisées pour comparer les documents et la
requête.
=⇒ c’est un score obtenu automatiquement par les SRI en
comparant les représentations des documents et celles des requêtes :
rend “mesurable” la notion de pertinence.

Attention : ce score n’est qu’une représentation imprécise de la


pertinence utilisateur (un document considéré comme pertinent par
le système ne l’est pas nécessairement par l’utilisateur) : l’enjeu de
la RI est de rapprocher tant que possible la pertinence système de la
pertinence utilisateur.

L. Ben Othman - T. Hamrouni 12 / 1


Processus de la RI

Processus de la RI : Vue globale

Besoin requete documents


d’information formulation

comparaison

documents retournés

• Comment représenter le contenu d’un document?


• Comment juger si un document est pertinent?
• Comment évaluer un système de RI?

L. Ben Othman - T. Hamrouni 13 / 1


Processus de la RI

Tâches principales d’un processus de la RI

Un processus de la RI admet généralement trois tâches principales et qui


sont comme suit :
1 La représentation du contenu des documents (appelée aussi analyse
ou indexation) : c’est à dire l’extraction et le stockage du contenu
sémantique des documents du corpus ;

2 La comparaison (ou appariement) qui doit établir la correspondance


entre la requête de l’utilisateur et les documents du corpus ;

3 L’évaluation de la performance du système.


Remarque : Il est à noter qu’en pratique, une étape de reformulation de
requête est offerte à l’utilisateur dans certains SRI.

L. Ben Othman - T. Hamrouni 14 / 1


Processus de la RI

Processus de la RI : Indexation ou analyse


indexation

Besoin requete documents


d’information formulation

analyse analyse

représentation représentation

comparaison

documents retournés

• Des techniques se proposent d’attacher à un document, un ensemble


de descripteurs (représentation) de son contenu dans le but de
faciliter la recherche d’information. Ce traitement, c’est l’indexation.

L. Ben Othman - T. Hamrouni 15 / 1


Processus de la RI

Processus de la RI : Indexation ou analyse

Indexation - Chaumier 2000


Description du contenu du document à l’aide de mots clés pour faciliter la
mémorisation du contenu de ce document pour une recherche ultérieure.

• Les unités extraites afin de représenter un document sont appelées


mots clés, ou descripteurs, ou termes d’indexation, ou index.
• Comment construire ces unités?

L. Ben Othman - T. Hamrouni 16 / 1


Processus de la RI

Processus de la RI : Comparaison et mise en


correspondance

Besoin requete documents


d’information formulation

analyse analyse

représentation représentation

comparaison

documents retournés modèles de RI

• Les modèles ont pour objectif de définir une méthode de


comparaison entre une représentation d’un document et une
représentation d’une requête afin de déterminer leur degré de
correspondance (similarité).
L. Ben Othman - T. Hamrouni 17 / 1
Processus de la RI

Processus de la RI : Mise en correspondance exacte et


approximative

• Appariement exact : Le résultat est une liste de documents respectant


exactement la requête spécifiée avec des critères précis.
Les documents retournés ne sont pas triés.

• Appariement approximatif : Le résultat est une liste de documents


sensés être pertinents pour la requête. Les documents
retournés sont triés selon leur score de pertinence
vis-à-vis de la requête.

L. Ben Othman - T. Hamrouni 18 / 1


Processus de la RI

Processus de la RI : Évaluation d’un SRI

Besoin requete documents


d’information formulation

analyse analyse

évaluation représentation représentation

comparaison

documents retournés

• Rappel : La capacité du système à retourner tous les documents


pertinents.
• Précision : La capacité du système à retourner que les documents
pertinents.
L. Ben Othman - T. Hamrouni 19 / 1
Défis de la RI : récapitulatif

Défis de la RI : récapitulatif

• Représentation de l’information
• Comment construire une représentation à partir de l’information?
• Qu’est ce qu’une bonne représentation?
• Représentation des besoins
• Comment exprimer le besoin?
• Comment représenter le besoin?
• Comparaison des représentations
• Comment mesurer la pertinence d’un document
• Évaluation des performances
• Comment décider qu’un SRI est plus performant qu’un autre?
• Quelles métriques?

L. Ben Othman - T. Hamrouni 20 / 1


Problématique du multimédia

Problématique du multimédia (1)

• L’acroissement des performances des ordinateurs permet non


seulement le stockage mais aussi le traitement des images, du son et
du vidéo (images scientifiques, extrait musical, discours d’un homme
politique, etc)
• Domaines d’application
• Archives audiovisuelles
• Données biomédicales
• Imagerie satellitaires
• Vidéo de télésurveillance

L. Ben Othman - T. Hamrouni 21 / 1


Problématique du multimédia

Problématique du multimédia (2)

• Difficultés :
• à la différence des données textuelles, le contenu sémantique n’est
jamais explicite
• les requêtes sont difficiles à exprimer (interprétation compliquée pour
un humain), donc en général ambiguës, incomplètes

L. Ben Othman - T. Hamrouni 22 / 1


Problématique du multimédia

Problématique du multimédia (3)

L’indexation multimédia
• Indexation sémantique (manuelle) : l’opérateur d’indexation attache
au document des données de haut niveau relatives à la signification
du contenu de l’objet. Les requêtes associées sont en général des
mots, désignant un objet, une action, le nom d’un personnage ou
d’un événement. Par exemple, pour déterminer le contenu graphique
d’une image, Google analyse le texte qui entoure l’image, le titre de
l’image et de nombreux autres critères.
• Indexation descriptive (automatique) : l’algorithme d’indexation
attache des données de bas niveau, relatives au contenu visuel
(couleur, texture, forme, etc)

L. Ben Othman - T. Hamrouni 23 / 1


Références

Références
• Mustapha Baziz. Indexation conceptuelle guidée par ontologie pour
la recherche d’informations. Thèse de doctorat, Université Paul
Sabatier, décembre 2005.

• Support de cours de Jian-Yun Nie disponible à l’adresse suivante :


http://www.iro.umontreal.ca/ nie/IFT6255/

• Support de cours de Mohaned Boughanem disponible à l’adresse


suivante :
http://www.irit.fr/˜Mohand.Boughanem/Fr/.

• Support de cours de Antoine Rozenknop disponible à l’adresse


suivante :
http://www-lipn.univ-paris13.fr/ rozenknop/Cours/MICR REI/.

L. Ben Othman - T. Hamrouni 24 / 1

Vous aimerez peut-être aussi