Aller au contenu

« Utilisateur:Alexander Doria/Usages de la science ouverte » : différence entre les versions

Une page de Wikipédia, l'encyclopédie libre.
Contenu supprimé Contenu ajouté
Écosystème de partage : Déplacement
Ligne 36 : Ligne 36 :


Le développement de plateformes académiques pirates telles que [[Sci-Hub]] ou [[Libgen]] a mis en évidence des inégalités structurelles à l’échelle mondiale : {{citation|En quelque sorte, on pourrait superposer les cartes de l’usage géographique de Sci-Hub et de la productivité scientifique, avec toutefois une position inversée entre certains pays les plus riches et les plus pauvres parmi ceux intéressés par la science{{sfn|Bohannon|2016}}.}} Les plus forts taux de recours à Sci-Hub ont été relevés en Russie, en Algérie, au Brésil, en Turquie, au Mexique et en Inde, dont la production universitaire locale est importante en dépit de ressources moindres que les pays de l’OCDE : {{citation|Par rapport à leur production scientifique nationale, ce sont les pays à revenu intermédiaire qui consomment le plus de travaux universitaires piratés{{sfn|Dacos|2019|p=178}}.}} Le public des portails académiques pirates reste important même dans les établissements nord-américains et européens richement dotés en abonnements aux bibliothèques, car l’accès aux plateformes payantes est généralement perçu comme trop complexe : {{citation|Même pour les revues auxquelles l’université dispose d’un accès officiel, Sci-Hub devient la ressource de référence{{sfn|Bohannon|2016}}.}}
Le développement de plateformes académiques pirates telles que [[Sci-Hub]] ou [[Libgen]] a mis en évidence des inégalités structurelles à l’échelle mondiale : {{citation|En quelque sorte, on pourrait superposer les cartes de l’usage géographique de Sci-Hub et de la productivité scientifique, avec toutefois une position inversée entre certains pays les plus riches et les plus pauvres parmi ceux intéressés par la science{{sfn|Bohannon|2016}}.}} Les plus forts taux de recours à Sci-Hub ont été relevés en Russie, en Algérie, au Brésil, en Turquie, au Mexique et en Inde, dont la production universitaire locale est importante en dépit de ressources moindres que les pays de l’OCDE : {{citation|Par rapport à leur production scientifique nationale, ce sont les pays à revenu intermédiaire qui consomment le plus de travaux universitaires piratés{{sfn|Dacos|2019|p=178}}.}} Le public des portails académiques pirates reste important même dans les établissements nord-américains et européens richement dotés en abonnements aux bibliothèques, car l’accès aux plateformes payantes est généralement perçu comme trop complexe : {{citation|Même pour les revues auxquelles l’université dispose d’un accès officiel, Sci-Hub devient la ressource de référence{{sfn|Bohannon|2016}}.}}

Les ressources de science ouverte sont davantage susceptibles d’être partagées hors du contexte scientifique, par exemple {{citation|sur Twitter et dans les bulletins d’information, les blogues ou les politiques{{sfn|Taylor|2020|p=19}}.}} En 2011, une étude d’analyse de journaux menée au [[Japon]] a mis en évidence {{citation|une variété remarquable de sites Web liés à ces articles en libre accès, notamment des blogues traitant de loisirs personnels, des sites Web de patients ou de familles, des sites Web spécialisés dans les questions-réponses et Wikipédia{{sfn|ElSabry|2017|p=5}}.}}

D’après certaines hypothèses, la diversité de l’écosystème de science ouverte aurait une incidence sur le cycle de vie des publications{{sfn|Wang et al.|2015}} Dans le contexte habituel de la bibliométrie, la plupart des publications connaissent généralement un nombre de citations exponentiellement négatif au fil de l’année (on parle de « demi-vie », par analogie avec la désintégration des éléments radioactifs){{sfn|Bellis|2009|p=114-115}} En revanche, les publications de science ouverte {{citation|ont la particularité de conserver des taux de téléchargement soutenus et réguliers pendant une longue période{{sfn|Wang et al.|2015}}.}} Cette réception plus durable pourrait en partie s’expliquer par des épisodes récurrents d’« accès inattendu » lorsque d’anciennes publications attirent soudain une nouvelle vague de lecteurs grâce à un regain de pertinence{{sfn|Dacos et al|2017}}.


=== Du facteur d’impact à l’impact social ===
=== Du facteur d’impact à l’impact social ===

Version du 29 septembre 2024 à 21:27

Le mouvement de la science ouverte a étendu les usages de la production scientifique au-delà des cercles universitaires spécialisés.

L’audience non universitaire des revues et autres travaux scientifiques a toujours été importante. Pour autant, les principaux indicateurs de la réception scientifique n’en tiennent pas compte, ce qui favorise l’usage des données de citation. À la fin des années 1990, les premières publications en libre accès sur Internet commencèrent à susciter un grand nombre de visites individuelles. Cette évolution a renouvelé les théories de la diffusion scientifique, l’accès direct aux publications ayant raccourci le parcours classique de la vulgarisation des savoirs. L’impact social et les usages potentiels par des lecteurs non spécialistes sont devenus des thèmes de discussion majeurs dans le développement des plateformes et infrastructures de science ouverte.

L’approche bibliométrique standard ne comptabilise pas la réception des productions scientifiques hors des milieux universitaires. Il a donc fallu développer de nouvelles méthodes, notamment l’analyse des journaux et des liens croisés ainsi que les altermétriques, pour analyser les usages de la science ouverte.

Dans les années 2010, la disponibilité croissante des données d’utilisation a permis de réaliser plusieurs études approfondies sur la réception de certaines plateformes de science ouverte. Diverses analyses de journaux et enquêtes ont montré que les universitaires professionnels ne constituent pas la majorité du public. En effet, les lecteurs récurrents sont plutôt des étudiants, des professionnels non universitaires (décideurs, R&D industrielle, travailleurs de la connaissance) et des « particuliers » aux motivations diverses (santé personnelle, curiosité, loisir). Le trafic sur les plateformes de science ouverte est stimulé par un écosystème plus vaste de partage et de vulgarisation des connaissances comprenant des productions non universitaires telles que les blogues. Le public non universitaire tend à privilégier la langue locale, ce qui favorise la diversité linguistique dans la sphère scientifique.

Concepts et définition

La bibliométrie et ses limites

Après la Seconde Guerre mondiale, le critère du nombre de citations s’est progressivement imposé pour quantifier la réception des publications scientifiques. La bibliométrie s’est développée parallèlement à la mise au point du premier moteur de recherche informatisé, le Science Citation Index, créé par Eugene Garfield en 1962[1]. Ses figures fondatrices, comme l’historien des sciences britannique Derek John de Solla Price, étaient des partisans du réductionnisme bibliométrique[2]. Leur ambition était de réduire tous les indicateurs bibliométriques possibles aux données et réseaux de citations. Après les années 1970, les indicateurs bibliométriques tels que le facteur d’impact ont fortement influencé la politique de recherche et l’évaluation des résultats[3].

Les moteurs de recherche académiques, la collecte de données de citations et les indicateurs correspondants ont été délibérément conçus pour favoriser les revues anglophones[4] Jusqu’au développement des plateformes de science ouverte, « on connaissait très mal l’impact des revues latino-américaines en général[5] ». En Amérique latine et hors de l’Occident, l’utilisation d’indicateurs bibliométriques standard comme le facteur d’impact a considérablement occulté l’ampleur et la diversité de l’édition universitaire en tant qu’écosystème : « Abstraction faite des questions d’équité, à cause de la sous-représentation et du très faible nombre de revues provenant des pays en développement, les citations comptabilisées dans les publications axées sur ces régions seront moins nombreuses que celles des revues déjà présentes dans le référentiel[6] ».

À ses débuts, le mouvement de la science ouverte a partiellement adopté les outils standards de la bibliométrie et de l’évaluation quantitative : « L’absence de référence aux métadonnées dans les principales déclarations sur le libre accès (Budapest, Berlin, Bethesda) a entraîné une situation paradoxale (…) C’est par l’utilisation de Web of Science que les défenseurs du libre accès ont souhaité montrer à quel point l’accessibilité était plus avantageuse que les articles payants en matière de citations[7]. » Après 2000, une importante littérature bibliométrique a été consacrée au bénéfice des publications en libre accès pour générer des citations[8].

À la fin des années 2000, certains indicateurs comme le facteur d’impact – entre autres – étaient de plus en plus considérés comme responsables d’un verrouillage systémique de sources prestigieuses devenues inaccessibles. Des figures clés du mouvement de la science ouverte tels que Stevan Harnad appelèrent à la création d’une scientométrie du libre accès qui « tirerait parti de la richesse des indicateurs d’usage et d’impact résultant de la multiplication des archives numériques en ligne, en texte intégral et en libre accès[9]. » La science ouverte s’étant popularisée au-delà des cercles universitaires, de nouveaux indicateurs devraient chercher à « mesurer les impacts sociétaux à plus grande échelle de la recherche scientifique »[10]. »

Prévalence d'un public non universitaire

Les revues académiques ont toujours eu un public non universitaire important, qu’il s’agisse d’étudiants, de professionnels ou d’amateurs. En 2000, un tiers des lecteurs n’avaient jamais rédigé de publication scientifique[11]/ Une proportion peut-être même supérieure pour les revues de sciences sociales, tant elles servent aussi parfois de périodiques intellectuels. Au cours de la seconde moitié du XXe siècle, l’audience non universitaire a pu se développer en continu dans les pays occidentaux parallèlement à la prévalence accrue de l’enseignement secondaire : « Aux États-Unis, la part des adultes ayant un niveau minimal de compréhension des études scientifiques est passée de 12 % en 1957 à 21 % en 1999[12] ».

L’importance de l’audience non universitaire soulève de nouvelles questions sur la pertinence et la portée des mesures bibliométriques classiques, qui n’apparaîtraient « jamais dans les données de citation[13] ». Les infrastructures et modèles économiques mis en place par les principaux éditeurs scientifiques ne tiennent pas compte des usages non universitaires. Après la crise des périodiques des années 1980 et l’inflation du prix des abonnements, les revues majeures sont largement devenues inaccessibles au grand public et aux chercheurs indépendants non affiliés à de grandes institutions de recherche. Les moteurs de recherche et les bases de données bibliographiques développés depuis les années 1960 et 1970 étaient destinés aux documentalistes professionnels. Sans le revendiquer, les principaux éditeurs scientifiques s’appuient sur un modèle de réception scientifique en décalé dans lequel les connaissances scientifiques spécialisées, au lieu d’être directement accessibles, sont médiées et vulgarisées.[14]

Le passage des revues universitaires au format électronique et au libre accès a mis en évidence un important écart au niveau de la mesure des citations. À la fin des années 1990, les revues en ligne et les référentiels d’archivage attiraient de toute évidence un très large public : « Dans les différentes disciplines, le changement fut presque instantané. Par exemple, à la mi-1997, le nombre d’articles téléchargés à partir de la bibliothèque numérique d’astronomie ADS développée par la NASA et gérée par le Harvard–Smithsonian Center for Astrophysics (ads.harvard.edu) dépassait la somme de tous les articles lus dans l’ensemble des bibliothèques d’astronomie sur support papier[15]. » Les analyses de journaux ont régulièrement souligné que les publications en libre accès possèdent un taux d’utilisation et de téléchargement beaucoup plus élevé que leurs équivalents payants[16].

L’extension de l’audience des travaux scientifiques aux non-universitaires a toujours été un objectif clé du mouvement de libre accès : « Dès les premières formulations du concept de libre accès, le grand public figurait parmi ses audiences potentielles[17]. » En 2001, l’Initiative de Budapest sur le libre accès mentionnait parmi ses bénéficiaires « les scientifiques, les savants, les enseignants, les étudiants et les autres esprits curieux. »

Dans le contexte de la science ouverte, le public non universitaire s’est vu associer à une figure plus large : le lecteur profane ou lecteur inattendu. Dès qu’il est universellement accessible, un travail universitaire peut rencontrer des lecteurs ou des utilisateurs imprévus.[footnote "The Unexpected reader"] Selon l’article de John Willinsky publié en 2006, « Il n’est pas difficile d’imaginer des situations où un professeur d’histoire dévoué, un lycéen particulièrement enthousiaste, un astronome amateur ou un citoyen soucieux d’écologie apprécieraient de parcourir la littérature pertinente et les derniers ouvrages consacrés à leurs centres d’intérêt[18]. » Des formes inattendues de réception sont parfois observées, par exemple lorsque le rédacteur en chef de PLOS a reçu un projet de recherche prometteur sur la modélisation des pandémies dont l’auteur était, en définitive, « un lycéen de quinze ans »[footnote "The Unexpected reader"]. Le lecteur profane ne fait pas nécessairement partie du public non universitaire, et un scientifique professionnel peut être qualifié comme tel si « l’information recherchée ne figure pas dans son domaine d’expertise[19]. » Tous les lecteurs inattendus ne se comportent pas de la même manière et n’ont pas la même capacité à exploiter les ressources académiques. Même lorsqu’ils n’opèrent pas dans leur domaine d’expertise principal, les chercheurs universitaires ou certains professionnels (les travailleurs de la connaissance) ont acquis des compétences génériques d’analyse bibliographique, comme le suivi des citations dans la littérature[19].

Usages universitaires inattendus

Les revues payantes n’ont pas permis d’étendre les usages universitaires inattendus. En effet, à cause du prix des abonnements, leur accès reste conditionné au domaine d’activité ou aux ressources disponibles au sein de l’institution. En 2011, Michael Carroll a présenté une typologie de cinq « lecteurs inattendus » qui dépasse le cadre des attentes de lecture des revues universitaires en ligne : les lecteurs fortuits (qui découvrent la publication à travers un parcours de lecture complexe), les lecteurs à faibles ressources (probablement non initiés, comme les étudiants du secondaire), les lecteurs interdisciplinaires (des scientifiques d’un domaine différent), les lecteurs internationaux (des scientifiques d’un autre pays) et les lecteurs automatiques (des robots informatiques qui amassent un corpus, par exemple dans le cadre d’un projet de fouille de textes)[20].

Le développement de plateformes académiques pirates telles que Sci-Hub ou Libgen a mis en évidence des inégalités structurelles à l’échelle mondiale : « En quelque sorte, on pourrait superposer les cartes de l’usage géographique de Sci-Hub et de la productivité scientifique, avec toutefois une position inversée entre certains pays les plus riches et les plus pauvres parmi ceux intéressés par la science[21]. » Les plus forts taux de recours à Sci-Hub ont été relevés en Russie, en Algérie, au Brésil, en Turquie, au Mexique et en Inde, dont la production universitaire locale est importante en dépit de ressources moindres que les pays de l’OCDE : « Par rapport à leur production scientifique nationale, ce sont les pays à revenu intermédiaire qui consomment le plus de travaux universitaires piratés[22]. » Le public des portails académiques pirates reste important même dans les établissements nord-américains et européens richement dotés en abonnements aux bibliothèques, car l’accès aux plateformes payantes est généralement perçu comme trop complexe : « Même pour les revues auxquelles l’université dispose d’un accès officiel, Sci-Hub devient la ressource de référence[21]. »

Les ressources de science ouverte sont davantage susceptibles d’être partagées hors du contexte scientifique, par exemple « sur Twitter et dans les bulletins d’information, les blogues ou les politiques[23]. » En 2011, une étude d’analyse de journaux menée au Japon a mis en évidence « une variété remarquable de sites Web liés à ces articles en libre accès, notamment des blogues traitant de loisirs personnels, des sites Web de patients ou de familles, des sites Web spécialisés dans les questions-réponses et Wikipédia[24]. »

D’après certaines hypothèses, la diversité de l’écosystème de science ouverte aurait une incidence sur le cycle de vie des publications[25] Dans le contexte habituel de la bibliométrie, la plupart des publications connaissent généralement un nombre de citations exponentiellement négatif au fil de l’année (on parle de « demi-vie », par analogie avec la désintégration des éléments radioactifs)[26] En revanche, les publications de science ouverte « ont la particularité de conserver des taux de téléchargement soutenus et réguliers pendant une longue période[25]. » Cette réception plus durable pourrait en partie s’expliquer par des épisodes récurrents d’« accès inattendu » lorsque d’anciennes publications attirent soudain une nouvelle vague de lecteurs grâce à un regain de pertinence[27].

Du facteur d’impact à l’impact social

Le développement de grandes plateformes et infrastructures de science ouverte après 2010 a déplacé le champ de mesure de l’impact scientifique. Il est passé de la priorité donnée aux revues anglophones les plus citées à une analyse plus vaste de la circulation sociale des publications. Cette transformation fut particulièrement visible en Amérique latine, grâce au développement précoce de plateformes d’édition internationales à financement public, comme Redalyc ou SciELO : « En Amérique latine, on a vraiment l’impression que l’investissement dans la science amènera un développement au sens large, au-delà de la simple innovation et de la croissance économique[28]. »

En 2015, Juan Pablo Alperin introduit une mesure systématique de l’impact social en s’appuyant sur un ensemble diversifié d’indicateurs (analyse des journaux, enquêtes et altermétriques). Cette approche implique une redéfinition conceptuelle des notions clés de la réception scientifique telles que l’impact, la portée et le lecteur :

«  Nous poserons notre attention sur ces formes alternatives et publiques d’impact et de portée de la recherche en examinant le cas de l’Amérique latine. Dans cette étude, les critères d’évaluation de l’impact seront l’enregistrement, la discussion, la transmission, la recommandation, la mention et la citation des documents de recherche, tant à l’intérieur qu’à l’extérieur de la communauté universitaire (…). Toujours dans cette étude, la portée fait référence à l’ampleur de la consultation ou du téléchargement des documents de recherche par des populations diverses, du lectorat universitaire traditionnel aux professions connexes, voire par les journalistes, enseignants, passionnés et membres du grand public (…). En travaillant sur un large éventail d’indicateurs d’impact et de portée, bien au-delà de la mesure conventionnelle des articles qui en citent d’autres, il semble possible de caractériser les utilisateurs de la recherche latino-américaine. Ce faisant, nous ouvrirons la voie à ceux qui examineront ses répercussions sur les personnes et communautés concernées[29].  »

Ce focus inédit sur l’impact social de la science s’inscrit dans le cadre de modèles alternatifs de vulgarisation scientifique. En 2009, Alesia Zuccala a présenté un modèle radiant de diffusion de la science ouverte, avec diverses connexions médiées et non médiées entre le public non universitaire et la production académique : « Parfois, [la recherche] fait intervenir le public profane. C’est le modèle de coproduction de la communication scientifique. Et parfois des intermédiaires autodésignés expliquent à la population ce qu’elle devrait savoir. C’est le modèle d’éducation par la communication scientifique[30]. »

Méthodes

En dépit des nombreuses théories qui prêtent à la science ouverte un fort impact sur l’accès à la littérature des universitaires et non-universitaires, la recherche dans ce domaine s’est révélée ardue : elle a « alimenté de nombreuses discussions et même une grande partie des travaux de sensibilisation et des politiques de libre accès de nombreux organismes de financement, mais rarement dans le cadre d’études officielles publiées[31]. » Par définition, les productions de science ouverte ne sont pas transactionnelles, et donc leur usage laisse beaucoup moins de traces que la distribution payante d’ouvrages scientifiques[32] D’une manière générale, il est très difficile de collecter « des données démographiques sur les utilisateurs à partir des sources d’information actuellement disponibles (par exemple, les référentiels et plateformes d’éditeurs)[33]. »

Les méthodes conventionnelles d’études bibliométriques, y compris l’analyse des citations, sont largement inefficaces pour identifier les nouvelles formes de réception générées par la science ouverte. Il a fallu développer des approches alternatives dans les années 2000 et 2010, et pendant longtemps les défenseurs de la science ouverte et les décideurs ont dû s’appuyer sur des preuves limitées[17].

Enquêtes

Avant le développement de la bibliométrie, les enquêtes étaient la principale méthode d’analyse de la réception scientifique.

Après l’arrivée de l’édition numérique et du libre accès, les méthodes d’enquête ont elles aussi migré en ligne. Les enquêtes contextuelles sur les publications universitaires furent introduites au début des années 2000 : elles permettent d’interroger l’utilisateur au moment précis où il récupère la ressource et peuvent être corrélées aux données de journalisation[11]. Cependant, « les taux de réponse aux enquêtes contextuelles sont généralement faibles », ce qui en définitive peut fausser la représentativité de l’enquête[34].

Depuis 2002, Simon Inger et Tracy Gardner ont mené de vastes enquêtes internationales sur l’utilisation des ressources universitaires avec le soutien de plusieurs grands éditeurs et organisations scientifiques[35]. Ces enquêtes ne concernaient pas spécifiquement la science ouverte, mais elles s’efforçaient d’inclure un panel d’utilisateurs potentiels plus diversifié que les seuls auteurs universitaires[36].

Analyse de logs

Les publications universitaires figurent parmi les plus anciens corpus exploités pour l’analyse de logs. Les premières études réalisées dans ce domaine sont bien antérieures au Web, puisque les infrastructures scientifiques interconnectées étaient déjà couramment employées en Amérique du Nord et en Europe dans les années 1970 et 1980.

En 1983, l’Online Computer Library Center menait déjà plusieurs études pour analyser les « logs de transactions » contenant les traces des utilisateurs de bases de données[37][38]. À cette époque, les logs étaient stockés sur bandes magnétiques, et une grande partie de l’analyse consistait à remettre en forme et normaliser les données[39]. Ces premières études s’appuyaient déjà sur des méthodes standard d’analyse des journaux, comme les approches probabilistes basées sur les chaînes de Markov pour identifier les modèles comportementaux les plus récurrents ou la comparaison avec d’autres enquêtes menées auprès des utilisateurs[39].

L’utilisation des journaux et d’autres formes d’indicateurs de lecture pour évaluer la réception des travaux universitaires est restée marginale. Les grandes bases de données commerciales telles que Web of Science et Scopus n’étaient pas tenues de communiquer leurs statistiques de lecture et les utilisaient principalement à des fins internes. Ce sont donc les critères bibliométriques basés sur le nombre de citations, comme le facteur d’impact ou l’indice h, qui furent privilégiés comme indicateurs de l’impact académique[40].

Au-delà des restrictions appliquées par les principaux acteurs de l’édition, l’analyse des journaux a soulevé d’importantes questions méthodologiques. Les processus de journalisation des données diffèrent sensiblement selon la structure de l’interface : « Le nombre de téléchargements de texte intégral peut être artificiellement gonflé lorsque les éditeurs imposent de consulter la version HTML avant d’accéder à la version PDF ou lorsque des mécanismes de liens sont en place[41]. » De plus, l’accès automatisé, notamment par les robots ou les indexeurs des moteurs de recherche, peut fausser considérablement le nombre cumulé de visites. Ces incertitudes empêchent de comparer efficacement les données : « Certains éléments, par exemple l’interface des journaux, continuent d’affecter les modalités d’interaction entre les utilisateurs du site et ceux du contenu, ce qui rend difficile – voire impossible – la comparaison des rapports même normalisés[42]. »

L’analyse des journaux a connu un regain d’intérêt dans les années 2010 grâce aux progrès technologiques et à l’émergence de grandes plateformes de science ouverte. Des normes régissant l’extraction des données de journaux universitaires ont été introduites au début des années 2010, par exemple COUNTER[41], PIRUS[43] et MESUR[44]. Par nature, en raison de leur intégration aux infrastructures universitaires, ces normes étaient limitées à la recherche spécialisée[45].

Le développement de logiciels open source d’analyse Web tels que Matomo a permis l’émergence d’une norme de collecte des journaux. Dans le même temps, les plateformes scientifiques à financement public ont commencé à partager librement leurs données d’utilisation au titre de leur engagement accru en faveur de la science ouverte. En Amérique latine, Redalyc et SciELO « fournissent ces statistiques d’utilisation au public », même si elles demeurent amplement sous-utilisées : « Assez étonnamment, personne n’a profité de la disponibilité de ces données pour étudier les différentes dimensions des téléchargements, au-delà du nombre global de vues et des listes du type "les 10 articles les plus lus" disponibles de temps à autre sur les portails Web concernés[46]. »

En 2011, Michael J. Kurtz et Johan Bollen ont appelé au développement de la bibliométrie des usages, un nouveau domaine qui « offre des possibilités uniques pour remédier aux lacunes connues de l’analyse des citations[44]. » L’accès étendu aux données de journalisation des plateformes de science ouverte a permis de publier des études de cas approfondies à propos de SciELO et Redalyc[47], Érudit[48], OpenEdition.org[49], Journal.fi[50] et The Conversation[51].

Analyse de citations/liens

Le Web lui-même et certains de ses composants clés (comme les moteurs de recherche) sont un héritage partiel des théories de la bibliométrie. Dans sa forme originale, il dérivait d’une infrastructure scientifique biographique nommée ENQUIRE commandée à Tim Berners-Lee par le CERN pour les besoins spécifiques de la physique des particules[52] L’apparition du World Wide Web au milieu des années 1990 a donné plus de corps au rêve d’Eugene Garfield sur l’emploi des citations. Dans le réseau mondial de l’hypertexte, non seulement la référence bibliographique est une des formes possibles de l’hyperlien dans la version électronique d’un article scientifique, mais le Web lui-même présente une structure citative, les liens entre les pages Web étant dans la forme similaires aux citations bibliographiques[53]. Ainsi, les principales technologies de communication des algorithmes de recherche de Google se sont enrichies de notions bibliométriques : « Le concept de pertinence basé sur les citations appliqué au réseau d’hyperliens entre les pages Web allait révolutionner la façon dont les moteurs de recherche permettent aux utilisateurs de trouver rapidement des documents utiles dans l’univers anarchique de l’information numérique[54]. »

Si le Web a immédiatement affecté les pratiques de lecture en établissant des connexions transparentes entre les textes, il n’a pas eu le même effet transformatif sur l’analyse quantitative des données de citation, qui scrute avant tout les connexions en milieu universitaire. Une étude globale des hyperliens et des liens retour permet d’étendre l’analyse des citations au-delà des publications savantes et d’identifier l’évolution du périmètre de circulation de la science ouverte : « Nous avons relevé une multiplication des moyens de diffusion des publications savantes à travers des blogues universitaires et des magazines scientifiques destinés à un public plus large« Loubère & Ibekwe 2019 ». » En 2011, une analyse des journaux du site Web de l’Université de Kyoto a permis d’identifier un ensemble très diversifié de liens vers des publications scientifiques[55] En 2019, Aix-Marseille Université a participé à une étude des liens croisés avec la plateforme française de science ouverte OpenEdition. Les résultats ont montré que « la littérature scientifique publiée sur une plateforme majoritairement en libre accès fait l’objet d’une réappropriation et d’une conversion à différents usages dans l’espace public[56]. »

Altermétriques

Les années 2000 et 2010 ont vu s’accentuer la domination du Web par de très grandes plateformes de médias sociaux qui organisent et façonnent amplement la sphère publique numérique[57]. La réception de la littérature scientifique par le public a elle aussi largement migré vers ces plateformes. Cette évolution a suscité le développement de nouveaux indicateurs et méthodes quantitatives visant à cartographier la circulation des publications sur les médias sociaux : les altmetrics ou altermétriques.

Le concept d’altermétrique fut introduit en 2009 par Cameron Neylon et Shirly Wu en tant qu’indicateur au niveau de l’article[58]. Contrairement aux principaux indicateurs centrés sur les revues (facteur d’impact) ou, plus récemment, sur le chercheur lui-même (indice h), les indicateurs au niveau de l’article autorisent un suivi individuel des publications en circulation : « L’article autrefois rangé sur une étagère figure à présent dans Mendeley, CiteULike ou Zotero, où il est possible de le voir et de le comptabiliser »[59]. Il est ainsi davantage compatible avec la diversité des stratégies de publication qui caractérise la science ouverte : les prépublications, les rapports et même les résultats non textuels tels que les référentiels ou les logiciels peuvent aussi disposer d’indicateurs associés[10]. Dans leur proposition de recherche initiale, Neylon et Wu favorisaient l’utilisation de données provenant de logiciels de gestion de références tels que Zotero ou Mendeley[58]. Le concept d’altermétrique a évolué pour venir englober les données extraites « d’applications de médias sociaux, comme les blogues, Twitter, ResearchGate et Mendeley »[10]. » Les sources des médias sociaux ont montré plus de fiabilité à long terme, alors que des outils universitaires spécialisés tels que Mendeley ont fini par intégrer l’écosystème développé en propre par les plus grands éditeurs scientifiques. Les principaux altermétriques apparues dans les années 2010 sont Altmetric.com, PlumX et ImpactStory.

Avec le glissement de sens des altermétriques, le débat sur l’impact positif des indicateurs a évolué pour les redéfinir dans le cadre d’un écosystème de science ouverte : « Les discussions sur l’usage abusif et l’interprétation des indicateurs les positionnent au cœur des pratiques de la science ouverte[60]. » Les altermétriques des médias sociaux sont limitées à un sous-ensemble précis de plateformes. Concrètement, il s’agit des témoins numériques de la réception laissés par les utilisateurs, comme les mentions « J’aime », les partages et les commentaires : « Cependant, les “altermétriques” s’inspirent des anciennes mesures bibliométriques/scientométriques en s’appuyant sur des traces numériques, c’est-à-dire en comptabilisant le nombre de mentions « J’aime », de commentaires, de téléchargements, de tweets ou de retweets qu’une publication savante obtient sur le Web. Ainsi, aucun de ces champs ne fournit d’informations sur l’usage réel des publications savantes citées ni sur les raisons ayant conduit à leur citation[61]. »

Alors que les altermétriques furent initialement conçues pour les publications en science ouverte et pour faciliter leur circulation bien au-delà des cercles universitaires, leur compatibilité avec les nouvelles exigences en matière d’indicateurs ouverts a été remise en question : les données des réseaux sociaux, en particulier, sont loin d’être transparentes et facilement accessibles[62][63]. Une conversation suivie sur les médias sociaux n’est pas forcément représentative de l’impact social de la recherche, car les chercheurs sont surreprésentés dans ces espaces : « Environ la moitié des tweets mentionnant des articles de revues scientifiques sont le fait d’universitaires[64]. » En 2016, Ulrich Herb a publié une évaluation systématique des principaux indicateurs de publication selon les principes de la science ouverte. Il en a conclu que « ni les indicateurs d’impact basés sur les citations ni les altermétriques ne peuvent être qualifiés d’ouverts. Tous manquent de fondement scientifique, de transparence et de vérifiabilité[65]. »

Usages actuels

La plupart des informations empiriques recueillies sur l’usage de la science ouverte sont propres à chaque plateforme.

Données démographiques des utilisateurs

En général, les études sur l’usage des ressources scientifiques ouvertes soulignent la diversité de profil des utilisateurs, les chercheurs universitaires ne représentant qu’une part infime du public[66] En 2015, les utilisateurs de Redalyc et SciELO, les deux principales plateformes latino-américaines, étaient surtout des étudiants universitaires (respectivement 50 et 55 %) et des professionnels de secteurs non académiques (respectivement 17 et 20 %)[67]. Déduction faite des autres personnels universitaires, « les chercheurs ne représentent que 5 à 6 % du nombre total d’utilisateurs[68]. » Sur la plateforme finlandaise Journal.fi, les étudiants constituent aussi le principal groupe démographique (40 % des utilisateurs), mais le groupe des chercheurs universitaires demeure important (36 %)[69]

Les différentes études sur les plateformes de science ouverte convergent dans leur estimation du nombre de lecteurs profanes : les utilisateurs de SciELO et Redalyc[footnote "Alperin 2015, p. 50."] sont respectivement 9 et 6 % à en faire un usage amateur/personnel, contre 8 % de « particuliers » dans l’enquête sur les lecteurs de Journal.fi.[69].

Aucune distinction majeure n’a été observée au niveau du genre des utilisateurs de plateformes de science ouverte. Les deux entités latino-américaines Redalyc et SciELO présentent une relative « prédominance d’utilisatrices » (environ 60 %)[70].

L’impact de la discipline sur l’usage des ressources est variable. Dans SciELO, l’intérêt personnel pour les sciences humaines est le plus répandu[71]. En revanche, on observe dans Redalyc « une faible variabilité entre les disciplines[71]. » L’analyse des favoris enregistrés par les lecteurs de F1000Prime sur Mendeley a mis en évidence une forte proportion d’usages par des disciplines totalement éloignées du public attendu[72].

Pratiques et motivations des utilisateurs

Globalement, les études sur les pratiques des utilisateurs concernaient des profils spécifiques plutôt que généralistes. Au Japon, un sondage mené en 2011 auprès de 800 adultes montrait que « pour la majorité des personnes interrogées (55 %), le libre accès est utile ou plutôt utile[73] », ce qui laisse supposer un intérêt assez important pour la science ouverte au sein d’une population où les études secondaires sont courantes.

Les problèmes rencontrés par les personnes soucieuses de leur santé ont été particulièrement mis en évidence[74][75] Un important domaine d’étude sur les comportements de recherche d’informations médicales a vu le jour avant le développement de la science ouverte.[17] Selon une enquête réalisée en 2003, la moitié des internautes américains ont cherché des renseignements fiables sur leur santé, mais se sont régulièrement heurtés à des problèmes d’accès : « De nombreux utilisateurs actuels de l’Internet santé désirent accéder à des sites riches en informations strictement réservés aux abonnés[76]. » Dans une étude qualitative menée auprès de patients britanniques, les abonnements payants étaient cités comme le principal obstacle pour obtenir des connaissances scientifiques, au même titre que la complexité terminologique« Nunn & Pinfield ». Le cas des patients aux besoins spécifiques plaide en faveur de la science ouverte, mais il éclipse la diversité des usages potentiels de la recherche universitaire : « Le libre accès n’est pas seulement une question de santé publique : il possède une mission bien plus générale de soutien à la recherche[77]. »

Le possible impact économique des usages professionnels non universitaires a conduit la recherche à s’y intéresser de plus près. En 2011, un rapport du JISC estimait qu’au Royaume-Uni 1,8 million de travailleurs de la connaissance (knowledge workers) œuvraient dans la R&D, l’informatique et l’ingénierie, la plupart étant « non affiliés, sans bibliothèque d’entreprise ni centre d’information[78]. » Au sein d’un groupe représentatif de travailleurs de la connaissance britanniques, 25 % déclaraient que l’accès à la littérature scientifique était assez difficile ou très difficile, et 17 % avaient connu un problème d’accès récent qui ne fut jamais résolu[79]. Une enquête menée en 2011 auprès d’entreprises danoises a mis en évidence une forte dépendance de la R&D vis-à-vis de la recherche universitaire : « Quarante-huit pour cent [des personnes interrogées] jugeaient les articles de recherche très ou extrêmement importants[80]. » Le secteur associatif est également très concerné par un meilleur accès à la littérature scientifique. Une enquête menée auprès de 101 ONG du Royaume-Uni a montré que « 73 % [d’entre elles] déclaraient utiliser des articles de revues et 54 % des actes de conférences[81]. » En 2018, une analyse des journaux d’OpenEdition a souligné combien les entreprises représentent une source importante de lectorat, en particulier dans « l’industrie aéronautique, la banque, l’assurance, la vente d’automobiles, l’énergie et, fait encore plus notable pour la circulation de la science dans la sphère publique, les médias[82]. » Ces résultats montrent l’impact commercial direct du libre accès sur les entreprises de toutes tailles[83].

Diversité linguistique

Les publications scientifiques dans une autre langue que l’anglais sont marginalisées dans les grandes bases de données commerciales : elles représentent moins de 5 % des publications indexées dans Web of Science.

Le développement des plateformes de science ouverte a progressivement redessiné le paysage de la publication, les parutions en langues locales étant désormais reconnues comme d’importants vecteurs de la diffusion sociale des connaissances scientifiques. Dans les années 2010, des études quantitatives ont commencé à souligner l’impact positif des langues locales sur la réutilisation des ressources en libre accès dans différents contextes nationaux, par exemple en Finlande[50], au QuébecModèle:Cameron-Pesant, en Croatie[84] et au Mexique.

Les mesures d’impact social ont tendance à l’emporter sur les indicateurs académiques internationaux tels que le facteur d’impact : bien que moins présentes dans les index académiques, les publications en langues locales ont un meilleur impact sur un plus vaste public. En Finlande, le public de la plateforme universitaire Journal.fi privilégie majoritairement les publications en finnois (67 %).[85]. Cependant, les choix linguistiques des visiteurs varient considérablement en fonction de leur statut académique. Les lecteurs profanes (particuliers) et les étudiants ont une nette préférence pour la langue locale (81 % et 78 % des publications consultées). En revanche, les chercheurs professionnels sont légèrement plus nombreux à opter pour l’anglais au détriment du finnois (55 %)[85].

Grâce à leur facilité d’accès, les plateformes de science ouverte en langues locales peuvent aussi bénéficier d’une portée plus mondiale. Le consortium de revues franco-canadien Érudit possède une audience essentiellement internationale, moins d’un tiers des lecteurs étant originaires du CanadaModèle:Cameron-Pesant.

Réutilisation des données et logiciels

Par rapport aux publications, les données et logiciels de science ouverte requièrent souvent un niveau de compétences techniques plus élevé : « Accéder aux données ouvertes ne suffit pas à garantir qu’elles seront efficacement réutilisables. En effet, au-delà de l’accès, la réutilisation nécessite d’autres ressources telles que compétences, moyens financiers et puissance de calcul[86]. » Même les entreprises et les organisations ne disposent pas nécessairement des « aptitudes requises, telles que la maîtrise de l’information, pour tirer pleinement parti des ressources ouvertes[87]. »

Pourtant, de récentes avancées comme le développement de services d’analyse de données dans des secteurs économiques très divers ont créé de nouveaux besoins en matière de données de recherche : « La gestion à long terme et la libre disponibilité des données de recherche favorise bien d’autres valeurs (…). L’intelligence artificielle (IA), en pleine expansion, repose en grande partie sur les données enregistrées[88]. » En 2019, le marché global des données dans les 27 pays de l’Union européenne et le Royaume-Uni était estimé à 400 milliards d’euros, avec une croissance soutenue de 7,6 % par an[89]. Même s’il n’existe aucune estimation de la valeur propre des données qu’elles produisent, les institutions de recherche ont été identifiées comme des acteurs importants du nouvel écosystème des « communs de données »[90].

Références

  1. Bellis 2009, p. 49.
  2. Bellis 2009, p. 62.
  3. Bellis 2009, p. 194.
  4. Montgomery 2013, p. 82.
  5. Alperin 2015, p. 25.
  6. Alperin 2015, p. 26.
  7. Torny, Capelli & Danjean 2019, p. 1.
  8. Sugimoto & Larivière et 2018 70.
  9. Bellis 2009, p. 300.
  10. a b et c Wilsdon et al. 2017, p. 9.
  11. a et b Tenopir & King 2000.
  12. Miller 2004, p. 276-277.
  13. Alperin 2015, p. 24.
  14. Zuccala 2009, p. 25.
  15. Kurtz & Bollen 2010, p. 3.
  16. Cameron-Pesant 2018, p. 375.
  17. a b et c Nunn & Pinfield 2014, p. 175.
  18. Willinsky 2006, p. 111.
  19. a et b Zuccala 2009, p. 4.
  20. Paveau 2013.
  21. a et b Bohannon 2016.
  22. Dacos 2019, p. 178.
  23. Taylor 2020, p. 19.
  24. ElSabry 2017, p. 5.
  25. a et b Wang et al. 2015.
  26. Bellis 2009, p. 114-115.
  27. Dacos et al 2017.
  28. Alperin 2015, p. 3.
  29. Alperin 2015, p. 4.
  30. Zuccala et 2009 29.
  31. ElSabry 2017, p. 2.
  32. Taylor 2020, p. 1.
  33. ElSabry 2017, p. 3.
  34. Alperin 2015, p. 38.
  35. Inger & Gardner 2016.
  36. Inger & Gardner 2016, p. 96.
  37. Matthews, Lawrence & Ferguson 1983.
  38. Tolle 1983.
  39. a et b Agosti et al. 2012, p. 664.
  40. Pölönen et al. 2021, p. 586.
  41. a et b Davis & Price 2006.
  42. Alperin 2015, p. 21.
  43. Shepherd 2011.
  44. a et b Kurtz & Bollen 2010.
  45. Dacos et al. 2017.
  46. Alperin 2015, p. 27.
  47. Alperin 2015.
  48. Cameron-Pesant 2018.
  49. Loubère & Ibekwe 2019.
  50. a et b Pölönen et al. 2021.
  51. Zardo et al. 2018.
  52. Hogan 2014, p. 20.
  53. Bellis 2009, p. 285.
  54. Bellis 2009, p. 31–32.
  55. ElSabry 2017, p. 4.
  56. Loubère & Ibekwe 2019, p. 12.
  57. Gillespie 2018.
  58. a et b Neylon & Wu 2009.
  59. Priem et al. 2011, p. 3.
  60. Heck 2020, p. 513.
  61. Loubère & Ibekwe 2019, p. 3.
  62. Bornmann & Haunschild 2016.
  63. Tunger & Meier 2020.
  64. Taylor 2020, p. 4.
  65. Herb, 2016 et p 60.
  66. Alperin 2015, p. 90.
  67. Alperin 2015, p. 49.
  68. Alperin 2015, p. 50.
  69. a et b Pölönen et al. 2021, p. 588.
  70. Alperin 2015, p. 54.
  71. a et b Alperin 2015, p. 58.
  72. Haunschild & Bornmann 2015, p. 4.
  73. ElSabry 2017.
  74. Day et al 2020.
  75. ElSabry 2017, p. 4.
  76. Fox & Fallows 2003, p. III.
  77. Zuccala 2009.
  78. Rowlands et al. 2011, p. 7.
  79. Rowlands et al. 2011, p. 25.
  80. Houghton, Swan & Brown 2011, p. 55.
  81. ElSabry 2017, p. 8.
  82. Dacos 2019, p. 179.
  83. Dacos 2019, p. 175.
  84. Stojanovski, Petrak Macan 2009.
  85. a et b Pölönen et al. 2021, p. 590.
  86. Ross-Hellauer et al. 2022, p. 9.
  87. Ross-Hellauer et al. 2022, p. 12.
  88. OECD 2017, p. 16.
  89. Micheletti 2020, p. 7-8.
  90. Micheletti 2020, p. 53.

Bibliographie