Commons:OpenRefine/Trucs et astuces avancés

From Wikimedia Commons, the free media repository
Jump to navigation Jump to search
This page is a translated version of a page Commons:OpenRefine/Advanced tips and tricks and the translation is 100% complete. Changes to the translation template, respectively the source language can be submitted through Commons:OpenRefine/Advanced tips and tricks and have to be approved by a translation administrator.
 A propos Comment importer des fichiers Comment éditer des fichiers Trucs et astuces avancés Formation Projets 

Tâches avancées - généralités

Des fonctionnalités de Wikimedia Commons ne sont pas présentes ? Ajouter le « manifeste » Wikimedia Commons à OpenRefine

Si vous ne voyez pas Wikimedia Commons comme option de réconciliation ou dans le schéma, vous devez ajouter le manifeste Wikimedia Commons à OpenRefine.

Un manifeste est une sorte de fichier de « paramètres » qui fournit à OpenRefine toutes les informations dont il a besoin pour pouvoir modifier Wikimedia Commons. Faites comme suit :

  • Dans le menu d'extension Wikidata, en haut à droite de votre projet OpenRefine, choisissez Select Wikibase instance…. Cliquez sur Add Wikibase. Collez soit l'URL du manifeste (c'est recommandé), soit le JSON directement. L'URL du manifeste de Wikimedia Commons est : https://raw.githubusercontent.com/OpenRefine/wikibase-manifests/master/wikimedia-commons-manifest.json.
  • Après avoir ajouté cette URL, vous devriez maintenant voir Wikimedia Commons dans votre liste d'instances de Wikibase. Cliquez sur Wikimedia Commons pour l'activer. Vous pouvez maintenant fermer cette fenêtre de dialogue en cliquant sur le bouton Close.
  • L'ajout du manifeste Wikimedia Commons dans OpenRefine ajoutera également automatiquement le [service de réconciliation Wikimedia Commons https://commonsreconcile.toolforge.org].

Ajouter le service de réconciliation Wikimedia Commons à OpenRefine

Si vous ne voyez pas Wikimedia Commons comme option de réconciliation, vous devez ajouter le service de réconciliation Wikimedia Commons à OpenRefine. Sélectionnez ReconcileStart reconciling…. Dans la fenêtre de dialogue (de réconciliation) qui en résulte, cliquez sur le bouton Add standard service… et collez-y https://commonsreconcile.toolforge.org/en/api. Si vous préférez travailler avec des propriétés et des étiquettes dans une langue différente, vous pouvez remplacer la chaîne en de cette URL par le code de langue à deux lettres de votre choix.

Plus d'informations et de documentation sur le service de réconciliation de Commons est disponible sur le site https://commonsreconcile.toolforge.org/.

Réconciliation manuelle des noms de fichiers avec Wikimedia Commons

Si vous démarrez des projets OpenRefine via l'extension Wikimedia Commons d'OpenRefine, les noms de fichiers seront déjà reconciliés. Ils seront bleus et cliquables, et la colonne du nom du fichier sera mise en évidence avec une ligne verte foncée.

Si vous démarrez un projet OpenRefine d'une autre manière, en utilisant une liste de fichiers Wikimedia Commons, vous devrez toujours utiliser activement le Service de réconciliation de Wikimedia Commons comme point de départ pour commencer l'édition par lots de ces fichiers. Cette étape permet de s'assurer qu'OpenRefine reconnaît ces fichiers, les relie à leurs M-ids sur Wikimedia Commons, et s'assure qu'OpenRefine pourra les éditer plus tard.

Vous commencez le processus de réconciliation en sélectionnant ReconcileStart reconciling… dans le menu de la colonne de fichier. Ensuite, sélectionnez le service de réconciliation Wikimedia Commons et cliquez sur le bouton Start reconciling… (voir ci-dessus sur la façon d'ajouter le service si vous ne voyez pas encore l'option Wikimedia Commons).


Schémas favoris dans OpenRefine

Depuis la version OpenRefine 3.7, il est possible d'utiliser, d'enregistrer, de partager et de réutiliser des schémas favoris dans OpenRefine.

Vidéo de démonstration :

Travailler avec quelques valeurs/pas de données (valeur inconnue/sans valeur) pour Wikibase dans OpenRefine

Vidéo de démonstration pour découvrir comment travailler avec les déclarations de base de données avec quelques valeurs/sans donnée dans OpenRefine (développé en partie, fin 2023).

Tâches avancées - édition de fichiers

Obtenir les noms de fichiers avec l'outil PetScan

Si vous souhaitez obtenir une liste de noms de fichiers de Wikimedia Commons d'une autre manière que par l'approche "catégories" via l'extension Wikimedia Commons d"OpenRefine", vous pouvez également récupérer une sélection de noms de fichiers avec l'outil PetScan.

PetScan offre de nombreuses options pour récupérer des listes de noms de fichiers en fonction de différents critères, par exemple l'utilisation de modèles spécifiques ou l'utilisation d'une recherche.

Élargissez le tableau ci-dessous pour obtenir des instructions détaillées sur la façon de le faire avec PetScan :


Un guide étape par étape pour récupérer une liste de noms de fichiers Commons à l'aide de l'outil PetScan  
 Lancer PetScan Tout d'abord, lancez l'outil PetScan !
Vous démarrerez l'outil dans le premier onglet ('Categories').
  • Veillez à sélectionner Wikimedia Commons, en cliquant sur Commons.
  • Catégories : Saisissez ou collez ici un ou plusieurs noms de catégories Commons contenant les noms de fichiers que vous souhaitez récupérer. Omettez le préfixe Category:.
    • Vous pouvez indiquer la profondeur des fichiers récupérés dans l'arbre des catégories. Dans l'exemple ci-contre, nous récupérons les fichiers qui sont directement dans la catégorie Uploaded with iNaturalist2Commons ET qui ont la catégorie Lepidoptera of Australia (ou l'une de ses sous-catégories, jusqu'à trois niveaux de profondeur).
  • Combinaison : si vous sélectionnez le bouton radio 'Intersection', vous ne récupérerez que les fichiers qui se trouvent dans toutes les catégories que vous avez choisies, ce qui représente généralement un plus petit nombre de fichiers. Si vous sélectionnez le bouton radio 'Union', vous récupérerez un plus grand nombre de fichiers qui se trouvent dans l'une ou l'autre des catégories que vous avez saisies. En général, l'option logique est 'Intersection'.
Passez à l'onglet suivant de l'outil ('Propriétés de la page').
  • Namespaces : désélectionnez la première case à cocher (non nommée) et sélectionnez la case à cocher Fichier. Elle indique que vous ne voulez récupérer que les noms de fichiers (pas les catégories, pas les titres des pages de la galerie, etc).
Si vous le souhaitez, vous pouvez déjà cliquer sur le bouton 'Do it! pour vérifier que vous récupérez bien les bons noms de fichiers.
Dans certains cas, il est pratique de récupérer les noms de fichiers en texte brut ou dans un autre format. Vous pouvez paramétrer cela dans le dernier onglet de PetScan ('Output').
  • Format : par exemple, sélectionnez le bouton radio 'Plain text'.
  • Faites défiler vers le bas et cliquez à nouveau sur le bouton "Do it!!" Vous verrez maintenant la liste des noms de fichiers en texte simple.
Si vous avez choisi le format de sortie "Plain text", vous obtiendrez une liste de noms de fichiers en texte simple.

Le lien suivant vous donne l'exemple présenté ci-dessus, avec la sortie HTML : https://petscan.wmflabs.org/?psid=22129478


Le manuel complet de PetScan est disponible sur meta.wikimedia.org.

Autres moyens d'obtenir des listes de noms de fichiers avec lesquels travailler

Vous pouvez également récupérer/obtenir cette liste d'autres façons, par exemple à partir de Wikimedia Commons, du service de requête Wikidata ou via une autre méthode de votre choix.

Autres façons de démarrer des projets OpenRefine avec des listes de noms de fichiers

Vous pouvez n'avoir qu'une liste de noms de fichiers ou une feuille de calcul ou un ensemble de données plus importants contenant des données supplémentaires sur les fichiers. Les deux sont de bons points de départ dans OpenRefine.

Selon le format de données que vous avez, vous pouvez entrer ces données dans OpenRefine et commencer un projet avec elles. Vous pouvez utiliser l'option presse-papier d'OpenRefine pour coller une liste de noms de fichiers (ou un petit ensemble de données) à partir du presse-papier de votre ordinateur. Vous pouvez avoir une liste de fichiers dans un .csv ou une feuille de calcul que vous pouvez ouvrir régulièrement dans OpenRefine.

Vous pouvez en savoir plus sur la manière de démarrer des projets (et les paramètres pour les différents formats de données) dans le manuel d'utilisation d'OpenRefine.

Tâches avancées - téléchargement de fichiers

Récupérer les données EXIF des fichiers

Parfois, vous avez très peu de métadonnées sur un ensemble de fichiers, mais il peut y avoir des informations précieuses (par exemple le nom de l'auteur, la date de création, une description, des coordonnées géographiques…) dans les données EXIF de chaque fichier.

OpenRefine ne vous offre pas la possibilité de récupérer ces données EXIF, mais il existe d'autres manières possibles.

Vous pouvez utiliser Exiftool pour créer un fichier csv avec toutes les données EXIF d'une liste de fichiers que vous chargerez ensuite dans OpenRefine. Cette vidéo YouTube explique bien le processus. La commande utilisée est une variante de exiftool -csv *.jpg > exifdata.csv.

Fonctionnalités GREL pour Wikimedia Commons

GREL pour extraire des informations du Wikicode

Extraire les valeurs des paramètres du modèle : extractFromTemplate (extension Wikimedia Commons uniquement)

Cette syntaxe ne fonctionne que lorsque vous avez installé l'extension Wikimedia Commons pour OpenRefine.

Utilisez la syntaxe suivante : extractFromTemplate(value, "BHL", "source")[0]

où vous remplacez BHL par le nom du modèle (sans les crochets) et source par le paramètre dont vous voulez extraire la valeur. Cette syntaxe GREL renverra la première (et généralement la seule) valeur de ce paramètre, par exemple https://www.flickr.com/photos/biodivlibrary/10329116385.

Extraire les valeurs des paramètres du modèle : value.extractCategories (extension Wikimedia Commons uniquement)

Cette syntaxe ne fonctionne que lorsque vous avez installé l'extension Wikimedia Commons pour OpenRefine.

Utilisez la syntaxe suivante : value.extractCategories().join('#')

Cette syntaxe GREL renvoie toutes les catégories mentionnées dans le Wikicode, séparées par le caractère #, que vous pouvez ensuite utiliser pour diviser la cellule résultante si nécessaire.