1 IntroWebSem BE 4P
1 IntroWebSem BE 4P
Introduction au Web Sémantique - Bernard ESPINASSE 1 Introduction au Web Sémantique - Bernard ESPINASSE 2
Plan
§ Bref historique
§ Le Web … son histoire
§ Grandes générations du Web
§ Faiblesses du Web actuel
§ Le Web aujourd’hui
§ Problèmes avec le Web actuel
§ Solutions aux problèmes du Web actuel
§ Définition du Web sémantique
§ Du Web actuel au Web Sémantique
§ Web sémantique et Web des données et données liées
§ Problématiques du Web Sémantique
§ Architecture du Web Sémantique 1. Bref historique
§ Briques représentation
§ Briques requêtes § Le Web … son histoire
§ Briques raisonnement § Grandes générations du Web
§ Briques confiance
§ Quelques applications du Web Sémantique
§ Web Sémantique et commerce électronique
§ Web Sémantique et gestion des connaissances
Introduction au Web Sémantique - Bernard ESPINASSE 3 Introduction au Web Sémantique - Bernard ESPINASSE 4
Le Web … Bref historique du Web
§ 1989 : Tim Berners-Lee (CERN, Genève) commence le développement
§ Le WEB = Système hypertexte public fonctionnant sur Internet
d’un système hypertexte.
§ Permet de consulter des pages (page Web) mises en ligne dans des sites, § 1990 : Premières définitions pour HTTP, HTML, URL.
grâce à un navigateur
§ 1992 : Premier annuaire de sites Web. 26 sites.
§ Hyperliens entre les pages : donnent la métaphore de la toile d’araignée § 1994 : Netscape Navigator 1.0 ; Fondation du W3C.
§ 1995 : Microsoft ne croit pas au Web, puis change d’avis.
§ A l’origine du Web on a :
§ 1998 : Plus de 2 millions de sites ; Création de Google.
§ HTML 1.0 - HyperText Markup Language (1992)
§ 2000 : XHTML 1.0.
§ La notion d’URL - Uniform Resource Locator (1994) § 2004 : Firefox 1.0.
§ 2005 : Plus de 60 millions de sites
ð Naissance du Web 1.0 (1990)
§ 2019 : Plus d’un milliard de sites !!!!
Introduction au Web Sémantique - Bernard ESPINASSE 5 Introduction au Web Sémantique - Bernard ESPINASSE 6
Introduction au Web Sémantique - Bernard ESPINASSE 7 Introduction au Web Sémantique - Bernard ESPINASSE 8
Web Sémantique
Extraction d’information
§ Recherche
Recherche : ”Notre :Dame
”Notre Dame de Paris”
de Paris”
§ Information sur le Web essentiellement prévue pour être affichée (écran,
imprimante) et lue par des humains : pages Web
§ Seuls les humains peuvent interpréter le contenu des pages Web
§ L’interaction entre un utilisateur et le Web passe surtout par un moteur de
recherche.
§ Ces moteurs font essentiellement une recherche syntaxique de mots-clés
§ Usage de « wrappers » pour une extraction automatique à partir de pages
Web (par exemple pour indexer les documents selon les mots)
Introduction au Web Sémantique - Bernard ESPINASSE 9 Introduction au Web Sémantique - Bernard ESPINASSE 10
Problèmes avec le Web actuel (1) Problèmes avec le Web actuel (2)
Séparer la PRESENTATION du CONTENU : § Le Web actuel entrave la recherche, lʼextraction, la maintenance
et la génération d’INFORMATION
§ SGBD + Présentation (PHP, . . . ) : le SGBD n’est pas visible.
§ La majorité des données sur le Web est sous une forme qui ne permet
§ HTML + CSS : mise en page « à part », mais toujours pas de description pas de lʼutiliser à grande échelle.
(utilisable par une machine) de ce que « contient le document »
§ Pas de système global de publication de données permettant aux
§ XHTML : Évite le fouillis d’HTML, mais il s’agit toujours de documents machines et aux humains de les traiter :
Exemple : Évènements sportifs, météo, guides TV, guides cinéma, ...
§ XML + XSLT → (X)HTML : Mieux, mais :
sont présentés par de nombreux sites Web, mais presque tous au
§ XML n’est pas toujours visible format HTML (structure logique + présentation)
Introduction au Web Sémantique - Bernard ESPINASSE 11 Introduction au Web Sémantique - Bernard ESPINASSE 12
Problèmes avec le Web actuel (3) Problèmes avec le Web actuel (4)
§ INFORMATIONS « cachées » dans le code HTML : Exemple : un service consistant à organiser un voyage…
§ code HTML contient l’expression dans une langue naturelle (LN) des
informations, images, fichiers sonores, vidéos, … § Ex: Horaires de trains & Horaires d’avion = 2 documents HTML avec
tables :
§ moteurs de recherche (sur le texte), pour des raisons de performance
(et taille du Web) ne font aucun traitement sophistiqué (TALN) des § Comment croiser les 2 documents pour un trajet train puis en
textes : avion ?
→ recherche de mots, ce qui est très différent d’une recherche § Les documents HTML ne peuvent être utilisés (sauf ad-hoc) car
d’informations les documents HTML sont une présentation des données
§ SERVICES « cachés » dans le code HTML : § Pourtant, à la base, les données sont souvent stockées de façon
structurée (par ex. dans un SGBD)
§ Comment connaître ce que propose un service ? § Mais le schéma de la base des trains est sans doute très différent de
celui de la base des avions.
§ Comment utiliser conjointement plusieurs services ?
§ Il faudrait une représentation « commune », utilisant un langage
Ex: Achat de billets de trains, validateur html, Web mail, … standard pour pouvoir croiser (automatiquement) les données.
Introduction au Web Sémantique - Bernard ESPINASSE 13 Introduction au Web Sémantique - Bernard ESPINASSE 14
Problèmes avec le Web actuel (5) Solutions aux problèmes du Web actuel
§ Faiblesses des moteurs de recherche par mots-clés Usage de Meta-données, pour annoter les données du Web dans un
§ Faible précision langage standard, en utilisant un vocabulaire standard (contrôlé)
permettant aux machines :
§ Résultats : seulement pages Web
§ des comparaisons de documents
§ Seul l’humaine peut interpréter et combiner les résultats
§ des raisonnements pour résoudre une requête
§ Résultats des recherches pas lisibles par d’autres logiciels § la prise en compte de documents multimédias
§ Signification du CONTENU du Web pas accessible aux § des réponses formées de plusieurs documents ou de parties de
machines documents
§ communiquer entre elles, coopérer dans une recherche d’information,
§ Les machines ne font pas de traitement de la langue naturelle échanger leurs résultats et les fusionner
(TALN) et ne peuvent pas ainsi lever les ambiguïtés
§ Les machines manquent de sémantique ð Web des données, Web sémantique
Introduction au Web Sémantique - Bernard ESPINASSE 15 Introduction au Web Sémantique - Bernard ESPINASSE 16
Définition du Web Sémantique
« The Semantic Web is an extension of the current web in
which information is given well-defined meaning, better enabling
computers and people to work in cooperation »
« Le Web sémantique est une extension du Web actuel dans
3. Définition du Web lequel l'information est munie d'une signification bien définie
permettant aux ordinateurs et aux personnes de mieux
Sémantique travailler en coopération »
• Interopérabilité, coopération entre applications, @-commerce " A les capacités pour exploiter les connaissances
§ …
" Découvrir, exploiter, combiner des services
§ Au Web sémantique : " Raisonner
§ Connaissances formalisées 5 6
Introduction au Web Sémantique - Bernard ESPINASSE 21 Introduction au Web Sémantique - Bernard ESPINASSE 22
Introduction au Web Sémantique - Bernard ESPINASSE 23 Introduction au Web Sémantique - Bernard ESPINASSE 24
Web Actuel Vs Web Sémantique
Introduction au Web Sémantique - Bernard ESPINASSE 25 Introduction au Web Sémantique - Bernard ESPINASSE 26
Introduction au Web Sémantique - Bernard ESPINASSE 27 Introduction au Web Sémantique - Bernard ESPINASSE 28
Briques représentation : XML Briques représentation : RDF (1)
Objectif général : représenter les ressources pour les Objectif général : exprimer les ressources et les relier
machines § RDF = la base du Web sémantique
§ XML : eXtensible Markup Language, recommandation XML 1.0 en février § RDF = cadre pour décrire des données sur les ressources du Web
98) (Resource Description Framework)
§ XML : séparation fond/forme § Représentation des ressources par Triplets (Sujet, Prédicat (propriété),
§ Méta-langage, qui permet de définir des langages de documents. Valeur) :
§ Nombreux dialectes : MathML, XSLT, XACML, SVG, XHTML, … § Sujet : une ressource qui peut être identifiée par un URI
§ Prédicat : une spécification réutilisée et identifiée par URI de la
§ Document bien formé : le parenthèsage (balises ouvrantes-fermantes) est propriété
correct § Objet : une ressource ou constante à laquelle le Sujet est lié
§ Document valide : conforme à un schéma, défini par une DTD, un XML- § Triplets sérialisés de différentes façons (XML, Turtle, …)
schema, un schéma RelaxNG
§ Permet de constituer des graphe RDF, des bases de données RDF
§ Outils de manipulations, basés sur Xpath : XSLT, XQuery (Triples-stores)
§ Internationalisation : Unicode
Introduction au Web Sémantique - Bernard ESPINASSE 29 Introduction au Web Sémantique - Bernard ESPINASSE 30
Introduction au Web Sémantique - Bernard ESPINASSE 31 Introduction au Web Sémantique - Bernard ESPINASSE 32
Briques raisonnement : Ontologies (1) Briques raisonnement : Ontologies (2)
Objectif général : formaliser des connaissances sur un Rôle des ontologies dans le Web Sémantique :
domaine spécifique pour leur utilisation par les machines § Définir de manière déclarative un vocabulaire commun résultat dʼun
§ Le petit Larousse : consensus social dans un domaine donné :
Ontologie = du grec : ontos être, et logos science, étude de l’être en tant § Chaque élément de vocabulaire possède une interprétation unique
qu’être … partagée par tous les membres du domaine
c’est-à-dire « l’étude des propriétés générales de ce qui existe ». § Décrire la sémantique des termes et leurs relations :
§ Par extension, en informatique : § Lʼinterprétation de chaque terme est unique er résulte d’une
Définition [Gruber 1993]: “An ontology is a formal, explicit specification of sémantique formelle.
a shared conceptualization of a domain of interest”. § Lʼensemble des termes et leurs relations fournissent un cadre
§ L’ontologie est un ensemble structuré de termes et concepts, relation interprétatif dépourvu dʼambiguïté pour chaque terme.
entre concepts, représentant le sens (les connaissances) d’un
§ Fournir des mécanismes dʼinférence qui respectent la sémantique
domaine d’informations particulier
formelle.
§ L’ontologie doit permettre aux machines de raisonner sur ces
connaissances formalisées du domaine
Introduction au Web Sémantique - Bernard ESPINASSE 33 Introduction au Web Sémantique - Bernard ESPINASSE 34
Introduction au Web Sémantique - Bernard ESPINASSE 35 Introduction au Web Sémantique - Bernard ESPINASSE 36
Vers le Web sémantique
Standards
et Outils
ressources DTD XSD RDFS OWL
Techniques
basée sur des de graphes
index de mots
Monde des Monde des
Quel niveau de complexité est nécessaire ? Monde des bases de bases de
documents données connaissances
§ complexité algorithmique des mécanismes d'inférences Aujourd'hui Des milliards de pages Des milliards de triplets RDF Des milliers d'ontologies
§ complexité technique pour les constructeurs d'outils
Source : Inspiré de la présentation de MC Rousset : http://www.college-de-france.fr/media/serge-
§ complexité conceptuelle pour l'utilisateur moyen abiteboul/UPL5540483766962034581_Rousset20120530.pdf
RDF - SPARQL v2.2 6 / 48
Introduction au Web Sémantique - Bernard ESPINASSE 37 Introduction au Web Sémantique - Bernard ESPINASSE 38
Introduction au Web Sémantique - Bernard ESPINASSE 39 Introduction au Web Sémantique - Bernard ESPINASSE 40
Web Sémantique et commerce électronique Web Sémantique et commerce électronique
B2C (3) B2B (1)
Source : O. Papini Source : O. Papini
§ Le Web sémantique adapté commerce électronique B2C : § Le Web sémantique : impact sur le commerce électronique
B2B (Business to Business) :
§ agents logiciels de collecte récupèrent l’information sur le
produit et les termes du service : § la plus grande promesse économique
prix, information sur le produit, livraison, politique de § actuellement repose la plupart du temps sur des EDI
confidentialité seront interprétés et comparés aux besoins (Electronic Data Interchange)
de l’utilisateur • technologie seulement comprise par des experts
§ informations sur la réputation des magasins • difficultés de programmation, de maintenance, error-prone
programmation séparée pour chaque communication B2B
§ agents logiciels acheteurs sophistiqués pourront conduire des
négociations § le Web semble être une parfaite infrastructure mais B2B mal
géré par les standards web
Introduction au Web Sémantique - Bernard ESPINASSE 41 Introduction au Web Sémantique - Bernard ESPINASSE 42
§ Enregistrement des partenariats sans charges § Le Web sémantique : impact sur gestion des
indirectes connaissances
§ différences entre terminologies résolues par § la gestion des connaissances concerne : l’acquisition,
l’utilisation de modèles de domaine abstrait standards l’accès, le maintien des connaissances dans une
§ échange de données par l’utilisation de service de organisation
translation § activité importante dans l’industrie
§ enchères, négociations, ébauche de contrats § importance pour des organisation internationales
automatiquement (ou semi-automatiquement) réalisés dispersées géographiquement
par des agents logiciels § la plupart des informations disponibles sont faiblement
structurées (textes, sons, images, · · · )
Introduction au Web Sémantique - Bernard ESPINASSE 43 Introduction au Web Sémantique - Bernard ESPINASSE 44
Web Sémantique et gestion des Web Sémantique et gestion des
connaissances (2) connaissances (2)
§ Limitation des technologies actuelles de gestion des § Le Web sémantique adapté à la gestion des
connaissances : connaissances :
§ Recherche d’information : § les connaissances sont organisées en espaces
• moteurs de recherche à base de mots-clés … conceptuels selon leur signification
§ Extraction d’information : § outils automatiques pour la maintenance et la
• intervention humaine nécessaire pour naviguer, chercher, découverte de connaissances
interpréter, combiner § réponse à des questions sémantiques
§ Maintenance de l’information : § réponse à des questions sur plusieurs documents
• incohérences de terminologie, information dépassée § possibilité de définir qui peut voir certaines parties de
§ Visualisation de l’information : l’information
• impossible de définir des vues sur la connaissance Web
Introduction au Web Sémantique - Bernard ESPINASSE 45 Introduction au Web Sémantique - Bernard ESPINASSE 46