Chapitre 1 VS
Chapitre 1 VS
Chapitre 1 VS
Multimédia
Contexte et motivation
• La généralisation des supports numériques.
• La chute des coûts des média de stockage.
• L’augmentation vertigineuse de la quantité d’information stockée
sous format numérique.
• L’information est de plus en plus hétérogène (texte, image, son,
etc.).
• Les exigences croissantes des utilisateurs par rapport aux temps de
réponse ainsi que la qualité de réponse.
• Étant donné :
• Une collection de documents (appelé aussi corpus, ou fond de
documents) ;
• Un besoin exprimé à travers une requ^ete de la part d’un
utilisateur.
SGBD et SRI
Spécification d’un livre
• ISBN : 0-201-12227-8
• Auteur : Salton Gerard
• Titre : Automatic text processing : the transformation, analysis, and
retrieval of information by computer
• Éditeur : Addison-Wesley
• Date publication : 1989
• Contenu : ¡Texte du livre¿
Système de RI
Document - Requête
• Document
• toute unité qui peut constituer une réponse à une requête
d’utilisateur.
• Forme : Texte, image, vidéo, etc.
• Structure : structuré, non structuré, semi-structuré.
• Nature : Hétérogène (multi-sources, multi-langues).
• Requête
• exprime le besoin en information d’un utilisateur.
Pertinence
• Le but de la RI est de trouver seulement les documents pertinents.
• Pertinence : Qualité d’un système à répondre exactement à la
requête demandée par l’utilisateur
• Pertinence utilisateur : elle représente la façon dont l’utilisateur
évalue les documents retrouvés par le SRI en fonction de son besoin
d’information (on parle de ses jugements de pertinence).
=⇒ c’est une évaluation subjective (floue) qui varie au cours du
temps et qui dépend de l’utilisateur en question :
• un même utilisateur peut avoir deux avis différents concernant un
document retrouvé suite à sa requête et ceci en fonction de sa
situation lors de l’évaluation.
• deux utilisateurs peut avoir deux avis différents concernant un même
document.
• etc.
=⇒ mesurer de manière automatique la pertinence utilisateur est
une tâche complexe.
=⇒ Solution : la pertinence système.
Pertinence (suite)
comparaison
documents retournés
analyse analyse
représentation représentation
comparaison
documents retournés
analyse analyse
représentation représentation
comparaison
analyse analyse
comparaison
documents retournés
Défis de la RI : récapitulatif
• Représentation de l’information
• Comment construire une représentation à partir de l’information?
• Qu’est ce qu’une bonne représentation?
• Représentation des besoins
• Comment exprimer le besoin?
• Comment représenter le besoin?
• Comparaison des représentations
• Comment mesurer la pertinence d’un document
• Évaluation des performances
• Comment décider qu’un SRI est plus performant qu’un autre?
• Quelles métriques?
• Difficultés :
• à la différence des données textuelles, le contenu sémantique n’est
jamais explicite
• les requêtes sont difficiles à exprimer (interprétation compliquée pour
un humain), donc en général ambiguës, incomplètes
L’indexation multimédia
• Indexation sémantique (manuelle) : l’opérateur d’indexation attache
au document des données de haut niveau relatives à la signification
du contenu de l’objet. Les requêtes associées sont en général des
mots, désignant un objet, une action, le nom d’un personnage ou
d’un événement. Par exemple, pour déterminer le contenu graphique
d’une image, Google analyse le texte qui entoure l’image, le titre de
l’image et de nombreux autres critères.
• Indexation descriptive (automatique) : l’algorithme d’indexation
attache des données de bas niveau, relatives au contenu visuel
(couleur, texture, forme, etc)
Références
• Mustapha Baziz. Indexation conceptuelle guidée par ontologie pour
la recherche d’informations. Thèse de doctorat, Université Paul
Sabatier, décembre 2005.