Accès aux données sur la recherche

L’open data selon l’ANR

Forts du mandat donné à Etalab pour favoriser l’ouverture des données des établissements publics administratifs (dont fait partie l’ANR), nous avons demandé en mars 2012 que soit publié sous forme exploitable l’ensemble des données concernant les projets financés par l’agence (montants, laboratoires, chercheurs, thématiques, durée…). Cette demande portée par Deuxième labo était co-signée par sept chercheurs, développeurs et journalistes. En voici un extrait :

Bonjour,

nous (…) demandons solennellement à Etalab l’ouverture des données de l’Agence nationale de la recherche, en particulier celles qui concernent les dotations qu’elle octroie.

Depuis la Loi d’orientation et de programmation de la recherche de 2006, l’Agence nationale de la recherche (ANR) regroupe plusieurs aides de l’État auparavant dispersées, pour offrir aux chercheurs un guichet unique permettant de financer leurs projets de recherche. Les moyens d’action de l’ANR, même s’ils sont réduits en comparaison de l’enveloppe générale de la recherche, sont des moyens non récurrents qui jouent un rôle important dans les orientations de recherche des laboratoires. On estime que l’enveloppe de l’ANR représente environ la moitié des financements incitatifs reçus par la recherche publique, ce qui correspond à ce jour à 4,8 milliards d’euros accordés à près de 9 000 projets.

Un mois et demi plus tard nous avons été invités à réitérer notre demande sur l' »espace collaboratif d’échanges » d’Etalab, ce que nous fîmes. En l’absence de réaction, nous avons rencontré en janvier 2013 le webmaster de l’ANR et une chargée de mission. Qui nous ont confirmé que ce n’était pas une priorité de l’ANR, au motif que l’ANR ne représenterait que 8 à 10 % du budget total de la recherche publique (mais la moitié des financements incitatifs « sur projets », comme nous l’indiquions dans notre demande) et que le paysage de la recherche française étant complexe (on l’avait remarqué, merci), l’ANR ne saurait agir en dehors d’une action groupée.

En attendant, il faut se contenter des informations que l’ANR publie sur son site web, à la fois incomplètes et dispersées. Nous avons fait l’inventaire pour vous :

  • pour chaque appel à projets, pas toujours évident à trouver, vous pouvez accéder à un fichier PDF qui contient la liste des projets sélectionnés, avec pour chacun : l’acronyme du projet, son titre et le nom du chercheur qui le porte. C’est tout. Ni résumé, ni mots clés, ni affiliation ou tutelle, etc.
  • vous pouvez également faire des recherches dans la base de données des projets dite « Suivi bilan », avec un succès variable : nous n’y avons pas retrouvé le projet FADO (sélectionné en 2007) ni le projet VSN-RAP (sélectionné en 2009) ; en revanche quand ça marche, vous pouvez tomber sur des fiches projet assez complètes
  • si vous n’avez pas peur de vous faire passer pour un partenaire privé (puisque c’est aux partenariats public-privé qu’il est destiné), le Moteur de la recherche donne les titres des projets financés par l’ANR et le nom des labos mais sans résumé. La navigation est sommaire et l’absence de permaliens ne permet pas de partager la page d’un projet. Plus grave sans doute, la couverture est toujours imparfaite : les tests effectués par le réseau du CNRS « Valorisation en sciences humaines et sociales » montrent que sur 12 projets, aucun n’a pu être retrouvé à partir des mots contenus dans les titres. « De plus dans certains cas seul le nom du laboratoire apparaît sans même un titre de projet. »
  • enfin, les jolis cahiers thématiques que l’ANR publie au compte-goutte vous donneront une information supplémentaire, à savoir la liste des productions scientifiques de chaque projet. Cependant, il faudra vous contenter parfois de paragraphes très vagues sans référence à aucune publication. Alors que la liste précise des publications est indispensable pour qui veut pouvoir les consulter, éventuellement complétées par des observations plus générales.

Heureusement, nous avons une bonne nouvelle : ce n’est pas une fatalité, comme le montre la rectrice Denise Pumain et le président d’université Frédéric Dardel dans leur rapport sur l’évaluation de la recherche et le passage de l’AERES au HCERES (janvier 2014). Contrairement à la France où manque l’ »interopérabilité des données de base qui sont souvent dispersées ou dupliquées entre plusieurs lieux de production et d’utilisation », au Brésil « chaque chercheur et enseignant chercheur dispose d’un registre qui contient l’ensemble de ses activités et de sa production… »

Partons donc étudier quelques bonnes pratiques de l’étranger, en commençant par le Royaume-Uni !

Pendant ce temps, au Royaume-Uni et ailleurs

La première chose qu’on attend d’une base de données sur la recherche, c’est d’être à jour et utilisable. La deuxième, c’est d’offrir les informations les plus complètes possibles, avec possibilité d’entrer par projet, par laboratoire, par thématique, par porteur… et d’agréger les données à ces différents niveaux au lieu de faire se côtoyer des informations parcellaires qui ne se parlent pas. Enfin, la troisième c’est d’être réutilisable selon les principes de l’Open Definition, pour laisser le champ libre à de nouvelles analyses, des mashups, des visualisations de données etc.

Tout ceci, on le trouve au Royaume-Uni.

Prenons par exemple l’organisme qui finance les projets de recherche en sciences de la vie, le BBSRC : il propose un moteur de recherche couvrant les données de 3 170 dotations octroyées pour un total de 1,2 milliard de livres, avec une date de dernière mise à jour clairement indiquée. La base de données comprend aussi bien des fiches projet que des fiches chercheur (voir capture ci-après).

Ficher chercheur BBSRC

Exemple de fiche d’un chercheur financé par le BBSRC

Voici une base de données à jour et facile d’utilisation, avec des informations riches et agrégées à différents niveaux. Mais ce n’est pas tout : le BBSRC, avec 7 autres agences de financements de la recherche et de l’innovation britannique, a mis en place le portail national « Gateway to Research » qui recense l’ensemble des subventions (toutes disciplines confondues) et leurs bénéficiaires depuis 2006 ! Un véritable état des lieux de la recherche au Royaume-Uni, en version bêta pendant 1,5 an puis lancé officiellement en décembre 2013.

Ce portail possède la même structure de données que le site du BBSRC, avec 10 fois plus de données  : fiches projet (voir capture ci-après), fiches chercheur, et prochainement des fiches secteur géographique et des fiches thématiques.

Fiche projet GtR

Exemple de fiche projet du portail « Gateway to research »

Le portail « Gateway to research » va plus loin en autorisant la réutilisation de ses données (placées sous l’Open Government Licence) via une API, et l’organisation d’un hackathon pour inviter des développeurs à s’en emparer !

Les plus attentifs auront remarqué dans la capture précédente d’une notice « Gateway to Research » l’onglet « Publications », parfois remplacé par « Impact ». Il recense les livrables scientifiques (research outputs) du projet de recherche, une information cruciale pour évaluer la réussite du projet et capitaliser sur ses productions. C’est également un levier puissant à l’heure où l’impact socio-économique de la recherche doit sans cesse être démontré. Encore plus en sciences humaines et sociales : ainsi, l’agence de financement britannique de la recherche en sciences sociales et économiques (ESRC) met en avant sur son site une rubrique « Impacts and findings », dont un « Research catalogue » qui comprend plus de 100 000 publications issues de projets financés (voir capture ci-après pour un exemple). À comparer avec l’ANR, où seuls les cahiers thématiques donnent les outputs des projets de recherche, souvent réduits à la portion congrue.

Output projet ESRC

Exemple de publication issue d’un projet financé par l’ESRC

Nous reviendrons dans le prochain chapitre sur la mécanique des flux d’information qui permet au portail fédérateur « Gateway to research » de fonctionner si parfaitement. En attendant, signalons quelques initiatives similaires dans d’autres pays :

  • en Slovénie, Science Atlas publie les données de 5 716 projets de recherche, 682 905 publications, 35 272 chercheurs, et 17 190 conférences vidéo
  • en Slovaquie, SK CRIS recense 18 165 chercheurs, 10 544 projets, 1 267 organisations et 7 425 publications et autres valorisations de la recherche (voir ces explications en français)
  • aux Pays-Bas, NARCIS recense 59 427 chercheurs, 852 320 publications, 2 894 organisations et 29 077 jeux de données (un projet qui a fêté ses 10 ans en 2014 !)
  • en Flandre (région néerlandophone de la Belgique), le FRIS (Flanders Research Information Space) Research Portal publie les données de 25 779 projets de recherche, 3 596 publications, 2 083 organisations et 26 647 chercheurs. Sur chaque notice, une visualisation permet d’explorer le réseau hybride composé de ces différentes entités (voir capture ci-après).
Réseau chercheur FRIS

Réseau du chercheur Stefaan De Henauw tracé par le FRIS Research Portal

L’open data selon le Ministère de l’enseignement supérieur et de la recherche

Gonflés à bloc par ces bonnes pratiques européennes, nous avons voulu élargir nos investigations aux données du Ministère disponible sur le portail open data de l’État français. Résultat en juin 2013 : rien !

Passée cette surprise, on nous encourage sur Twitter à creuser un peu, jusqu’à trouver certaines données sur les effectifs de la recherche publique, provenant… du Ministère de l’éducation nationale, à un moment où ces deux ministères étaient séparés (voir capture ci-après) : problème de production des données ? Problème d’attribution (plus probable) ? Voilà qui ne fait pas sérieux !

Sur data.gouv.fr, des données sur les effectifs de la recherche publique provenant du Ministère de l’éducation nationale ?

Sur data.gouv.fr, les données sur les effectifs de la recherche publique proviennent du Ministère de l’éducation nationale

Interrogé, le ministère nous a répondu sur Twitter qu’il allait publier plus de statistiques ; effectivement, en juillet 2013 était publiée sur data.gouv.fr la nouvelle édition de l’Atlas régional des effectifs étudiants. Puis rebondissement en avril 2014 avec le lancement de la plate-forme d’exposition de données ouvertes intégrée au site du ministère (http://data.enseignementsup-recherche.gouv.fr/) et synchronisée avec data.gouv.fr. D’après le rapport sur les politiques nationales de recherche et de formations supérieures annexé au projet de loi de finances pour 2015, le ministère

a initié, à partir de septembre 2014, une démarche interne de caractérisation de son patrimoine de données sur l’ESR. Sous l’angle des données produites et disponibles et non sous celui des systèmes les produisant, il s’agit de caractériser les champs couverts, de disposer d’une vision précise de la qualité de l’information disponible, des usages qui en sont faits, des contraintes régissant leur accès ou leur diffusion. C’est sur la base des résultats de cette démarche que les directions générales définiront la programmation des nouveaux jeux de données qui seront proposés sous licence libre. Par ailleurs, d’ici à la fin 2014, le MENESR proposera à la communauté des réutilisateurs un dispositif (événement, dispositif web) facilitant l’interaction avec les producteurs des jeux de données.

Dans cette attente, on ne peut que regretter que les jeux de données libérés soient le plus souvent des états des lieux chiffrés ou des indicateurs synthétiques, au détriment des données brutes, des référentiels etc.

En particulier, nous sommes très intéressés par le répertoire national des structures de recherche, qui est aujourd’hui en phase de pilote opérationnel après plusieurs années de discussion et de travail. Il a pour vocation de recenser l’ensemble des structures de la recherche publique déclarées par les universités, les grandes écoles ou les organismes de recherche. Il ne constitue pas un système d’information sur la recherche ; il est un référentiel qui permet de mettre en correspondance les informations sur une même structure résidant dans les différents systèmes d’information du ministère ou des établissements. Parmi les utilisateurs naturels du répertoire, le ministère citait en 2008 l’ANR, pour « tirer les bilans par établissement (universités, organismes) des candidatures et des lauréats », en rattachant chaque structure de recherche à sa ou ses tutelle(s). Ce répertoire doit aussi servir à identifier les structures pour entretenir in fine « une banque de données sur les compétences et les ressources des laboratoires ».

Cependant, la nécessité de conférer une certaine autorité à cette liste alourdit ses mises à jour et leur validation. Certains acteurs que nous avons interrogé préfèrent la « légèreté » d’autres répertoires « de fait », sur lesquels nous reviendrons au prochaine chapitre. Il n’empêche que le ministère aurait vocation à rendre ce référentiel disponible au titre de l’open data, pour ouvrir la porte à d’autre exploitations possibles.

Vous avez dit interopérabilité ?

Disposer de jeux de données pays par pays serait un premier grand pas. Mais autant imaginer tout de suite comment relier ces données, en partant du plus petit dénominateur commun et en échangeant nos expériences nationales. C’est l’objectif du consortium d’origine canadienne CASRAI, qui réunit les financeurs de la recherche et les organismes de recherche de différents pays pour créer des standards permettant l’interopérabilité des informations de recherche. Par des ontologies, des taxonomies, etc. ils souhaitent faciliter l’échange de données et leur réutilisation entre les équipes de recherche, les institutions de recherche et les organismes de financement tout au long du cycle de vie de la recherche.

CASRAI a demandé à Deuxième labo d’organiser une présence française lors de la journée d’étude CASRAI Reconnect organisée le 16 mai 2014 à Rome — aux côtés de participants suédois, britanniques… déjà bien actifs. Et malgré un appel relayé dans les médias, aucun établissement d’enseignement supérieur et de recherche ne s’est manifesté. À la date de février 2015, la France ne semble toujours pas représentée dans CASRAI.

Un des objectifs de l’interopérabilité et de l’échange de données entre institutions est de permettre une meilleure compréhension du paysage de la recherche à l’échelle mondiale. Les politiques scientifiques nationales se mènent encore trop au doigt mouillé, et on ne sait encore évaluer parfaitement leur impact, ni les comparer aux politiques des voisins. Seule l’utilisation généralisée et intelligente des données sur la recherche permettra l’avènement d’une politique de la recherche fondée sur des preuves (evidence based).

Vers une politique de la recherche « evidence based »

Quand on conduit un projet et plus généralement une stratégie, il est recommandé de l’accompagner d’indicateurs de performance permettant de mesurer si les objectifs fixés ont été atteints. Le monde de la recherche n’échappe pas aux KPI (key performance indicators), et ceux-ci ne sont pas toujours un gros mot. Ainsi, les organismes qui financent la recherche donnent de plus en plus d’instructions pour un libre accès aux publications : reste à en évaluer l’efficacité. Ceci nécessite d’avoir de bons systèmes d’information reliant les publications aux subventions… comme le système centralisé FundRef mis en place l’an dernier par l’organisation internationale CrossRef (celle qui assigne les identifiants DOI).

De leur côté, les administrateurs de la recherche ont des problèmes similaires : afin de mieux accompagner les équipes de recherche et d’optimiser la recherche de financements, ils aimeraient notamment pouvoir identifier les labos qui remportent le plus de dotations et comparer leur performance avec celles des voisins (voir vidéo ci-après). Le projet institutionnel G4HE vise à répondre à leurs besoins, en offrant un accès par lot aux données du « Gateway to Research » et des outils d’aide à l’analyse.

C’est aussi l’objectif du logiciel Dimensions de la société Symplectic, lancé en septembre 2013. Ce logiciel permet de visualiser et naviguer (voir capture ci-après) dans les données de financement de la recherche de trois pays — l’Australie (ARC et NHMRC), les États-Unis (NIH) et le Royaume-Uni (RCUK) — en attendant de futures données en provenance d’Europe, du gouvernement fédéral américain et des organismes de bienfaisance britanniques. Alors que le projet FundRef a déjà recensé 4 000 organismes de financement de la recherche dans le monde, l’exhaustivité des données du logiciel Dimensions semble hors de portée (au moins à ce rythme) !

Visualisation des collaborations scientifiques de l'université de Melbourne dans le logiciel Dimensions.

Visualisation des collaborations scientifiques de l’université de Melbourne dans le logiciel Dimensions

Enfin, on peut aller plus loin avec le projet STAR METRICS de l’économiste américaine Julia Lane, qui vise à donner des fondations empiriques aux politiques de recherche et d’innovation. Les études dont on dispose actuellement dans ce domaine sont en effet lacunaires, pas assez systématiques et pas assez fines — en particulier par manque de données permettant de retracer pas à pas les liens entre subventions de recherche, chercheurs qui les reçoivent, et production de ces chercheurs. En réunissant autour de la même table des financeurs de la recherche, des gouvernements, des opérateurs de recherche, des organisations internationales comme CrossRef ou CASRAI et des économistes, il devient possible de :

  • comparer les approches et confronter les retours d’expérience
  • partager le code et les méthodes
  • discuter des problèmes de données et de métadonnées
  • développer des approches comparatives à l’échelle internationale.

Un séminaire à ce sujet s’est tenu en septembre 2013 au Ministère de l’enseignement supérieur et de la recherche. Il réunissait quelques Français (représentant l’ANR, l’Observatoire des sciences et techniques du HCERES, le ministère et deux laboratoires d’économie de l’ENSAE et de l’université de Strasbourg) et de nombreux spécialistes étrangers dont Julia Lane et un représentant de CASRAI.

Sans tomber dans l’excès inverse de la mesure toute puissante, il nous semble que cette approche installe de bonnes pratiques de transparence et de collaboration. Puisse-t-elle sensibiliser nos institutions, toujours sensibles aux benchmarks et autres tableaux de bord, aux bienfaits de l’ouverture et du partage des données !