Chapitre 3
Chapitre 3
Chapitre 3
Bouarroudj
1
Chapitre 3 : Linked Open Data – Web des Données Dr. W. Bouarroudj
Historique et Évolution
Le linked open data est intimement lié à l'évolution du web sémantique. Cette idée trouve ses
racines dans le concept initial du World Wide Web, imaginé par Tim Berners-Lee, le pionnier du
web, qui a introduit l'idée du web sémantique dans un article publié en 2001. Toutefois, à ses
débuts, cette idée a eu du mal à se concrétiser, principalement en raison de la complexité
technique sous-jacente. En 2006, Berners-Lee a publié un second article intitulé simplement
"Linked Data," ce qui a marqué le début de la popularisation de ce concept et a accru sa visibilité.
Initialement, la majorité des données "ouvertes et liées" sur le Web étaient principalement en
anglais, mais il existait déjà des données interconnectées au-delà des barrières linguistiques,
notamment grâce aux liens interlangue dans des projets comme Wikipédia, désormais pris en
charge par Wikidata.
Progressivement, des liens ont été établis dans d'autres langues, ouvrant ainsi la voie à l'adoption
de cette approche dans le reste du monde. Il est important de noter que Wikipédia a été conçu
comme un réseau ouvert et interconnecté au niveau international, facilitant la diffusion et
l'échange de connaissances dans différentes langues, contribuant ainsi à l'essor du linked open
data au-delà des frontières linguistiques [2].
• Interopérabilité : Les LOD sont conçus pour être interopérables, ce qui signifie que les
données peuvent être intégrées et combinées de manière transparente, quel que soit leur
origine. Cela facilite l'agrégation de données provenant de sources diverses, améliorant
ainsi la qualité de l'analyse et de la prise de décision.
• Réutilisation : Les LOD sont conçues pour être réutilisables. Les données sont accessibles
via des URI et peuvent être utilisées dans diverses applications sans nécessiter une
transformation majeure. Cela réduit le temps et les efforts nécessaires pour exploiter ces
données à des fins diverses. Les utilisateurs peuvent tirer parti des données déjà
disponibles pour répondre à de nouveaux besoins.
• Interconnexion : Les données ouvertes liées sont interconnectées, ce qui signifie qu'elles
sont liées à d'autres ressources pertinentes. Cela facilite la découverte de nouvelles
sources de données et de liens entre les données, ce qui peut conduire à de nouvelles
2
Chapitre 3 : Linked Open Data – Web des Données Dr. W. Bouarroudj
• Amélioration de la visibilité : En publiant des données sous forme de LOD, les producteurs
augmentent leur visibilité et leur accessibilité sur le web, ce qui peut renforcer leur
présence en ligne et accroître leur notoriété.
• Interconnexion des données : Les producteurs peuvent lier leurs données à d'autres
ensembles de données, ce qui permet des analyses plus riches et une meilleure
compréhension des informations contextuelles.
• Innovation et collaboration : Le LOD favorise l'innovation en permettant aux producteurs
de collaborer avec d'autres acteurs, cela peut provoquer des collaborations et de
nouvelles possibilités d'affaires.
Pour les consommateurs de données :
• Accès à une mine d'informations : Les consommateurs ont accès à une vaste quantité de
données provenant de sources diverses, ce qui peut les aider dans leurs recherches, prises
de décision et analyses.
3
Chapitre 3 : Linked Open Data – Web des Données Dr. W. Bouarroudj
• Données actualisées et fiables : Le LOD est souvent mis à jour régulièrement, offrant des
données fiables et à jour pour des analyses précises.
• Interconnectivité : Les consommateurs peuvent explorer des données provenant de
sources multiples, ce qui leur permet de croiser des informations pour obtenir une vision
plus complète.
Pour la société en général :
4
Chapitre 3 : Linked Open Data – Web des Données Dr. W. Bouarroudj
★ : Rendez vos données disponibles sur le Web sous une licence ouverte. Cela permet à
quiconque d’accéder et de réutiliser vos données sans barrières juridiques.
★★ : Rendez vos données disponibles sous forme de données structurées, telles que des fichiers
Excel ou CSV. Cela permet aux machines de traiter et d’analyser vos données plus facilement.
★★★ : Rendez vos données disponibles dans un format ouvert non propriétaire, tel que CSV ou
JSON. Cela garantit que vos données peuvent être accessibles par quiconque, quel que soit le
logiciel qu’il utilise.
5
Chapitre 3 : Linked Open Data – Web des Données Dr. W. Bouarroudj
★★★★ : Utilisez des URI (Uniform Resource Identifiers) pour identifier vos données et les choses
qu’elles décrivent. Cela permet à vos données d’être liées à d’autres données sur le Web, créant
ainsi un réseau d’informations.
★★★★★ : Liez vos données à d’autres sources de données pertinentes sur le Web, en
fournissant du contexte et des informations supplémentaires. Cela enrichit vos données et les
rend plus utiles pour les utilisateurs.
6
Chapitre 3 : Linked Open Data – Web des Données Dr. W. Bouarroudj
l'utilisation des données publiées. Il est courant d'utiliser des licences ouvertes, telles que la
licence Creative Commons, qui permettent une réutilisation facile des données.
Étape 5 : bons URIs pour les données liées
Le cœur des données liées est une stratégie de nommage URI bien réfléchie et un plan de mise
en œuvre, basé sur les URIs http. La prise en compte de la dénomination des objets, le support
multilingue, les modifications des données au fil du temps et la stratégie de persistance sont les
éléments clés pour des données liées utiles. Attribuez des URI (Uniform Resource Identifiers) aux
ressources de vos données, de manière cohérente et significative, pour les identifier de manière
unique.
Étape 6 : utiliser des vocabulaires standards
Décrivez les objets avec des vocabulaires précédemment définis chaque fois que possible.
Étendez les vocabulaires standard lorsque cela est nécessaire et créez des vocabulaires
(uniquement lorsque cela est requis) qui suivent les meilleures pratiques autant que possible.
Étape 7 : convertir les données
Convertissez les données en une représentation de données liées. Cela est généralement fait par
script ou d'autres processus automatisés. Sélectionnez les formats de données RDF appropriés
pour représenter vos données. Les formats couramment utilisés incluent Turtle, JSON-LD,
RDF/XML, N-Triples, etc. Modélisez vos données en utilisant des ontologies et des schémas RDF.
Cela implique de définir des classes, des propriétés et des relations pour structurer vos données
de manière sémantique.
Étape 8 : fournir un accès machine aux données
Mettez les données RDF en ligne sur un serveur web accessible au public. Assurez-vous que les
données sont accessibles en utilisant des URI valides.
Étape 9 : annoncer les nouveaux ensembles de données
Annoncez la publication de vos données liées ouvertes sur des portails de données ouverts, des
réseaux sociaux, des listes de diffusion et d'autres canaux pour attirer l'attention des utilisateurs
potentiels. Il est important de se rappeler qu'en tant qu'éditeur de données liées ouvertes, un
contrat social implicite est en vigueur.
Étape 10 : reconnaître le contrat social
Reconnaissez votre responsabilité dans la maintenance des données une fois qu'elles sont
publiées. Assurez-vous que le ou les ensembles de données restent disponibles là où votre
organisation dit qu'ils le seront et qu'ils sont entretenus dans le temps.
7
Chapitre 3 : Linked Open Data – Web des Données Dr. W. Bouarroudj
Wikidata2
Wikidata est une base de connaissances libre et ouverte qui peut être lue et éditée à la fois par
des êtres humains et des machines. Elle sert de stockage central pour les données structurées
des projets Wikimedia, y compris Wikipédia.
Wikidata est un graphe de connaissances pour stocker les données sous forme d'énoncés
structurés selon un format de triplet (sujet-prédicat-objet). Les éléments de Wikidata
représentent des sujets, des concepts, des objets, des événements, des personnes, etc. Chaque
élément possède un identifiant unique, des libellés dans plusieurs langues, des descriptions, des
alias et des énoncés.
Par exemple, l'élément Wikidata pour Berlin a l'identifiant Q64 et contient des énoncés sur la
population de Berlin, son emplacement, son maire, etc. Le contenu de Wikidata est disponible
sous une licence Creative Commons CC0 qui permet la réutilisation, la modification et le partage
libres des données. La base de données sous-jacente et l'interface d'édition sont en open source.
Wikidata a été lancée en 2012 et est soutenue par la Wikimedia Foundation. En 2022, elle
contenait plus de 92 millions d'éléments dans son graphe de connaissances. Wikidata sert de
source importante de données structurées pour de nombreuses autres plateformes en ligne.
OpenCyc 3
OpenCyc est un projet d'intelligence artificielle open source visant à rassembler une ontologie
complète et une base de connaissances de la connaissance du sens commun de la vie
quotidienne. Le projet a été lancé en 1984 par Cycorp dans le but de développer une machine
dotée de capacités de raisonnement de niveau humain. La base de connaissances Cyc a été
gardée privée jusqu'en 2001, date à laquelle une version open source appelée OpenCyc a été
publiée.
1
https://www.dbpedia.org/
2
https://www.wikidata.org/
3
https://cyc.com/
8
Chapitre 3 : Linked Open Data – Web des Données Dr. W. Bouarroudj
OpenCyc contient plus de 239 000 concepts, 2 093 000 faits et 4 301 relations. Il possède des
connaissances dans des domaines tels que la science, la médecine, la géographie, et bien
d'autres.
Freebase :
Freebase était un grand graphe de connaissances collaboratives lancée en 2007 et développée
par Metaweb. Elle contenait plus de 40 millions de sujets et 2,4 milliards de faits.
Le but était de construire une base de connaissances sur le monde de façon collaborative,
couvrant de nombreux domaines. Freebase était alimentée par des contributions provenant à la
fois d'utilisateurs humains et de sources de données structurées comme Wikipedia.
Freebase a été largement utilisée par les chercheurs en IA pour entraîner des systèmes
d'apprentissage automatique. En 2010, Metaweb a été racheté par Google, qui a par la suite
intégré Freebase dans sa base de connaissances Knowledge Graph en 2014. Freebase n'est plus
activement développée depuis son intégration à Google, mais elle a joué un rôle important en
démontrant la faisabilité des bases de connaissances collaboratives à grande échelle.
YAGO :
YAGO (Yet Another Great Ontology) a été développée à l'Université de Leipzig en Allemagne à
partir de 2007. Le graphe contient plus de 10 millions d'entités et 120 millions de faits reliant ces
entités.
YAGO exploite les infoboxes et catégories de Wikipedia pour en extraire des informations
structurées. Elle utilise également WordNet pour typer sémantiquement les entités et GeoNames
pour ajouter des informations géographiques.
YAGO est conçue pour être une source de connaissances précises et de haute qualité, plutôt que
de viser l'exhaustivité.
9
Chapitre 3 : Linked Open Data – Web des Données Dr. W. Bouarroudj
GeoNames
GeoNames est une base de données géographiques fournissant des informations sur plus de 25
millions de lieux dans le monde. Elle a été lancée en 2006 et est gérée par l'organisation à but
non lucratif GeoNames. Elle couvre une large gamme de types de lieux : pays, régions
administratives, villes, villages, montagnes, rivières, monuments, etc. Pour chaque lieu nommé,
GeoNames fournit des informations comme les coordonnées géographiques, la population,
l'élévation, etc.
Les données proviennent de sources officielles gouvernementales et autres sources faisant
autorité dans chaque pays. Elle peut être utilisée pour la géocodification, l'enrichissement de
contenus, des applications cartographiques, etc.
4
https://www.microsoft.com/en-us/research/project/microsoft-academic-graph/
10
Chapitre 3 : Linked Open Data – Web des Données Dr. W. Bouarroudj
Elle est disponible en licence libre, permettant une large réutilisation des données. GeoNames
fournit l'une des sources de données géographiques les plus complètes et faisant autorité au
niveau mondial.
5
https://lod-cloud.net/
11
Chapitre 3 : Linked Open Data – Web des Données Dr. W. Bouarroudj
• Santé : Les données liées ouvertes dans le domaine de la santé permettent la recherche
médicale, la surveillance épidémiologique et l'amélioration des soins de santé.
• Transport et Logistique : Les LOD aident à optimiser les chaînes d'approvisionnement, à
améliorer la gestion du trafic, et à fournir des informations en temps réel aux voyageurs.
• Éducation : Les LOD soutiennent la création de ressources pédagogiques ouvertes, la
personnalisation de l'apprentissage et la recherche académique.
• Gouvernement : Les gouvernements utilisent les LOD pour accroître la transparence,
améliorer la prestation de services publics et faciliter l'engagement citoyen.
• Finance : Les données liées ouvertes sont utilisées pour l'analyse financière, la détection
de fraudes et la création de produits financiers innovants.
• Tourisme : Les informations touristiques interconnectées permettent de créer des guides
de voyage personnalisés et de faciliter la planification de voyages.
• Recherche Scientifique : Les LOD favorisent la collaboration entre chercheurs, la
publication ouverte des données et la découverte de nouvelles connaissances.
12
Chapitre 3 : Linked Open Data – Web des Données Dr. W. Bouarroudj
6. Résumé
✓ Le linked open data (LOD) vise à publier et interconnecter des données ouvertes sur le
web en utilisant les principes des données liées.
✓ Initié par Tim Berners-Lee, le mouvement a pris son essor dans les années 2000,
notamment grâce à des initiatives comme Wikipédia/Wikidata.
✓ Les LOD présentent de nombreux avantages : interopérabilité, réutilisation,
enrichissement, innovation, transparence.
✓ Les LOD bénéficient aux producteurs et consommateurs de données ainsi qu'à la société
dans son ensemble.
✓ De nombreux cas d'usage existent : recherche, intégration de données, recommandations,
navigation contextuelle, IA.
✓ Les principales sources de LOD sont Wikidata, DBpedia, Geonames, etc.
✓ La publication de LOD implique des étapes comme la préparation, la modélisation,
l'utilisation de standards et de bons URIs.
✓ Des défis subsistent concernant la gouvernance, la qualité, la confidentialité et l'éthique
des LOD.
13
Chapitre 3 : Linked Open Data – Web des Données Dr. W. Bouarroudj
Bibliography
14