Commons:OpenRefine/Trucs et astuces avancés
A propos | Comment importer des fichiers | Comment éditer des fichiers | Trucs et astuces avancés | Formation | Projets |
Tâches avancées - généralités
Des fonctionnalités de Wikimedia Commons ne sont pas présentes ? Ajouter le « manifeste » Wikimedia Commons à OpenRefine
Si vous ne voyez pas Wikimedia Commons comme option de réconciliation ou dans le schéma, vous devez ajouter le manifeste Wikimedia Commons à OpenRefine.
Un manifeste est une sorte de fichier de « paramètres » qui fournit à OpenRefine toutes les informations dont il a besoin pour pouvoir modifier Wikimedia Commons. Faites comme suit :
- Dans le menu d'extension Wikidata, en haut à droite de votre projet OpenRefine, choisissez
Select Wikibase instance…
. Cliquez surAdd Wikibase
. Collez soit l'URL du manifeste (c'est recommandé), soit le JSON directement. L'URL du manifeste de Wikimedia Commons est :https://raw.githubusercontent.com/OpenRefine/wikibase-manifests/master/wikimedia-commons-manifest.json
. - Après avoir ajouté cette URL, vous devriez maintenant voir Wikimedia Commons dans votre liste d'instances de Wikibase. Cliquez sur Wikimedia Commons pour l'activer. Vous pouvez maintenant fermer cette fenêtre de dialogue en cliquant sur le bouton
Close
. - L'ajout du manifeste Wikimedia Commons dans OpenRefine ajoutera également automatiquement le [service de réconciliation Wikimedia Commons https://commonsreconcile.toolforge.org].
-
Collez le lien vers le manifeste de Wikimedia Commons.
-
Veillez à sélectionner (activer) le manifeste Wikimedia Commons.
- Vous pouvez en savoir plus sur les manifestes Wikibase, leur application et leur utilisation dans le manuel d'utilisation d'OpenRefine.
- Une liste de manifestes de Wikibase (y compris celui de Wikimedia Commons) est disponible sur GitHub.
Ajouter le service de réconciliation Wikimedia Commons à OpenRefine
Si vous ne voyez pas Wikimedia Commons comme option de réconciliation, vous devez ajouter le service de réconciliation Wikimedia Commons à OpenRefine.
Sélectionnez Reconcile
→ Start reconciling…
. Dans la fenêtre de dialogue (de réconciliation) qui en résulte, cliquez sur le bouton Add standard service…
et collez-y https://commonsreconcile.toolforge.org/en/api
. Si vous préférez travailler avec des propriétés et des étiquettes dans une langue différente, vous pouvez remplacer la chaîne en
de cette URL par le code de langue à deux lettres de votre choix.
Plus d'informations et de documentation sur le service de réconciliation de Commons est disponible sur le site https://commonsreconcile.toolforge.org/.
Réconciliation manuelle des noms de fichiers avec Wikimedia Commons
Si vous démarrez des projets OpenRefine via l'extension Wikimedia Commons d'OpenRefine, les noms de fichiers seront déjà reconciliés. Ils seront bleus et cliquables, et la colonne du nom du fichier sera mise en évidence avec une ligne verte foncée.
Si vous démarrez un projet OpenRefine d'une autre manière, en utilisant une liste de fichiers Wikimedia Commons, vous devrez toujours utiliser activement le Service de réconciliation de Wikimedia Commons comme point de départ pour commencer l'édition par lots de ces fichiers. Cette étape permet de s'assurer qu'OpenRefine reconnaît ces fichiers, les relie à leurs M-ids sur Wikimedia Commons, et s'assure qu'OpenRefine pourra les éditer plus tard.
Vous commencez le processus de réconciliation en sélectionnant Reconcile
→ Start reconciling…
dans le menu de la colonne de fichier. Ensuite, sélectionnez le service de réconciliation Wikimedia Commons et cliquez sur le bouton Start reconciling…
(voir ci-dessus sur la façon d'ajouter le service si vous ne voyez pas encore l'option Wikimedia Commons).
-
Vidéo de démonstration de la réconciliation de Wikimedia Commons avec OpenRefine.
-
Première étape pour réconcilier une colonne de noms de fichiers avec Wikimedia Commons.
-
Une liste de fichiers reconnus. Notez que les noms de fichiers sont maintenant des hyperliens bleus.
Schémas favoris dans OpenRefine
Depuis la version OpenRefine 3.7, il est possible d'utiliser, d'enregistrer, de partager et de réutiliser des schémas favoris dans OpenRefine.
Vidéo de démonstration :
Travailler avec quelques valeurs/pas de données (valeur inconnue/sans valeur) pour Wikibase dans OpenRefine
Vidéo de démonstration pour découvrir comment travailler avec les déclarations de base de données avec quelques valeurs/sans donnée dans OpenRefine (développé en partie, fin 2023).
Tâches avancées - édition de fichiers
Obtenir les noms de fichiers avec l'outil PetScan
Si vous souhaitez obtenir une liste de noms de fichiers de Wikimedia Commons d'une autre manière que par l'approche "catégories" via l'extension Wikimedia Commons d"OpenRefine", vous pouvez également récupérer une sélection de noms de fichiers avec l'outil PetScan.
PetScan offre de nombreuses options pour récupérer des listes de noms de fichiers en fonction de différents critères, par exemple l'utilisation de modèles spécifiques ou l'utilisation d'une recherche.
Élargissez le tableau ci-dessous pour obtenir des instructions détaillées sur la façon de le faire avec PetScan :
Le lien suivant vous donne l'exemple présenté ci-dessus, avec la sortie HTML : https://petscan.wmflabs.org/?psid=22129478
Autres moyens d'obtenir des listes de noms de fichiers avec lesquels travailler
Vous pouvez également récupérer/obtenir cette liste d'autres façons, par exemple à partir de Wikimedia Commons, du service de requête Wikidata ou via une autre méthode de votre choix.
Autres façons de démarrer des projets OpenRefine avec des listes de noms de fichiers
Vous pouvez n'avoir qu'une liste de noms de fichiers ou une feuille de calcul ou un ensemble de données plus importants contenant des données supplémentaires sur les fichiers. Les deux sont de bons points de départ dans OpenRefine.
Selon le format de données que vous avez, vous pouvez entrer ces données dans OpenRefine et commencer un projet avec elles. Vous pouvez utiliser l'option presse-papier d'OpenRefine pour coller une liste de noms de fichiers (ou un petit ensemble de données) à partir du presse-papier de votre ordinateur. Vous pouvez avoir une liste de fichiers dans un .csv ou une feuille de calcul que vous pouvez ouvrir régulièrement dans OpenRefine.
-
Démarrage d'un projet à partir du presse-papiers. Ici, vous pouvez (par exemple) simplement coller une liste de noms de fichiers.
-
Démarrer un projet OpenRefine en lui donnant un fichier sur votre ordinateur.
Vous pouvez en savoir plus sur la manière de démarrer des projets (et les paramètres pour les différents formats de données) dans le manuel d'utilisation d'OpenRefine.
Tâches avancées - téléchargement de fichiers
Récupérer les données EXIF des fichiers
Parfois, vous avez très peu de métadonnées sur un ensemble de fichiers, mais il peut y avoir des informations précieuses (par exemple le nom de l'auteur, la date de création, une description, des coordonnées géographiques…) dans les données EXIF de chaque fichier.
OpenRefine ne vous offre pas la possibilité de récupérer ces données EXIF, mais il existe d'autres manières possibles.
Vous pouvez utiliser Exiftool pour créer un fichier csv avec toutes les données EXIF d'une liste de fichiers que vous chargerez ensuite dans OpenRefine. Cette vidéo YouTube explique bien le processus. La commande utilisée est une variante de exiftool -csv *.jpg > exifdata.csv
.
Fonctionnalités GREL pour Wikimedia Commons
GREL pour extraire des informations du Wikicode
Extraire les valeurs des paramètres du modèle : extractFromTemplate
(extension Wikimedia Commons uniquement)
Cette syntaxe ne fonctionne que lorsque vous avez installé l'extension Wikimedia Commons pour OpenRefine.
Utilisez la syntaxe suivante :
extractFromTemplate(value, "BHL", "source")[0]
où vous remplacez BHL
par le nom du modèle (sans les crochets) et source par le paramètre dont vous voulez extraire la valeur. Cette syntaxe GREL renverra la première (et généralement la seule) valeur de ce paramètre, par exemple https://www.flickr.com/photos/biodivlibrary/10329116385
.
Extraire les valeurs des paramètres du modèle : value.extractCategories
(extension Wikimedia Commons uniquement)
Cette syntaxe ne fonctionne que lorsque vous avez installé l'extension Wikimedia Commons pour OpenRefine.
Utilisez la syntaxe suivante :
value.extractCategories().join('#')
Cette syntaxe GREL renvoie toutes les catégories mentionnées dans le Wikicode, séparées par le caractère #
, que vous pouvez ensuite utiliser pour diviser la cellule résultante si nécessaire.