Cet article date de plus de quatre ans.

Urgence, cafouillages, "mille-feuille" d'indicateurs… Dans les coulisses des données très stratégiques sur le Covid-19

Depuis sept mois, les données sanitaires sont devenues essentielles pour scruter l'évolution de l'épidémie. Pourtant, leur élaboration et leur mise à disposition du grand public ne s'est pas faite sans accroc.

Article rédigé par Brice Le Borgne
France Télévisions
Publié
Temps de lecture : 13min
Difficile pour le grand public de s'y retrouver dans la myriade de données disponibles sur l'épidémie de Covid-19 en France. (JESSICA KOMGUEN / FRANCEINFO)

C'est un constat très simple qui se dresse en regardant les cartes mondiales du Covid-19. Sur ces mappemondes de l'université Johns Hopkins ou de Google, consultées par des millions d'internautes, le nombre de cas confirmés est représenté finement chez nos voisins : un point de taille variable pour chaque région en Italie, Land en Allemagne ou communauté autonome en Espagne. Mais en France, un seul point grossier est dessiné, centré sur l'Hexagone. Résultat : le lecteur passe à côté des fortes disparités régionales apparues dès le début de l'épidémie. L'explication à cette originalité française ? Contrairement aux autres pays, la France ne met pas à disposition le nombre de nouveaux cas confirmés, au sens utilisé dans les communiqués du ministère chaque soir, par région.

Notre pays est-il en retard ? Pour comprendre cette particularité, il faut se plonger dans la centaine d'indicateurs apparus depuis le mois de mars. Ce flot de chiffres, devenu aujourd'hui routinier et indispensable, est loin d'avoir été un long fleuve tranquille : né dans l'urgence de la crise au printemps, il a fait l'objet de quelques couacs, ballotté entre besoins de communication, décisions politiques et critiques sur le manque de transparence.

Des indicateurs "rustiques" au début de l'épidémie

"Lors de la première vague, on avait des indicateurs assez rustiques", déclarait le 26 août Jean Castex. Et c'est peu dire. En février, alors que la France prenait conscience de l'épidémie, aucun des indicateurs scrutés quotidiennement aujourd'hui n'était encore calculé. Le suivi était réalisé par les agences régionales de santé (ARS), sans méthodologie harmonisée. Au fil de leurs communiqués de presse, on trouvait, chez certaines seulement, le nombre de cas par département, parfois des informations précises sur chaque personne décédée du Covid-19, et les informations renseignées changeaient parfois d'un jour à l'autre. "Tout le monde était sous l'eau, ça a été une course permanente. Il y a eu du flou, des corrections, parce que les gens ont documenté comme ils pouvaient l'information", se souvient un agent d'une ARS. Tout le monde doit aussi composer avec des tensions historiques entre les différents acteurs, notamment entre l'expertise scientifique de l'agence Santé publique France (SPF), chargée de la surveillance épidémiologique, et la vision opérationnelle du ministère.

A partir du 3 mars, Santé publique France, créée en 2016 pour surveiller et prévenir de nombreuses pathologies, commence à publier un bilan quotidien : 212 cas confirmés, quatre décès, indique une des premières infographies, sous forme de six carrés de couleur résumant les informations disponibles à cette date. A cette période, la conférence de presse du directeur général de la santé, Jérôme Salomon, devient un rituel médiatique, chaque jour aux alentours de 19 heures. "Il y avait une vraie demande de l'opinion publique pour avoir ces informations. Les points presse permettaient non seulement d'avoir le décompte, mais aussi l'explication de texte, pour dire ce qu'on savait et ce qu'on ne savait pas", explique la direction générale de la santé.

Capture d'écran du communiqué de Santé publique France le 3 mars 2020. (SANTÉ PUBLIQUE FRANCE)

Mais comment prendre du recul au-delà de la salve quotidienne de chiffres ? Début mars, aucune institution ne publie de fichier permettant de dessiner courbes, graphiques ou cartes, pour que le grand public puisse visualiser l'évolution de l'épidémie. Les publications de SPF sont rudimentaires, le ministère ne se sent "pas concerné" par la nécessité de ce genre d'outil, selon un interlocuteur alors au cœur des échanges, et ça n'est pas non plus une priorité pour la DGS, concentrée sur sa cellule de crise. C'est donc un groupe de citoyens qui va s'en charger. "Nous ne savons pas nous servir d'un stéthoscope, mais nous pouvons peut-être aider ceux qui savent en leur apportant de la data facilement exploitable et de la dataviz", lance l'initiateur du projet, Lior Perez, ingénieur chez Météo France.

Un travail bénévole et collaboratif

Rapidement se greffent au projet des dizaines de participants, dont Jérôme Desboeufs, développeur chez Etalab, un service de la direction interministérielle pour le numérique (Dinum). Leur travail bénévole et collaboratif est gigantesque : retranscrire les chiffres publiés dans les communiqués des ARS, des préfectures et de SPF, pour tenter d'obtenir un fichier complet permettant de visualiser et analyser l'évolution de l'épidémie. Publiées quelques jours sur veille-coronavirus.fr, leurs infographies seront finalement récupérées et améliorées par les services de l'Etat, avant de devenir le tableau de bord officiel du gouvernement : le 28 mars, Edouard Philippe et Olivier Véran présentent leur outil en conférence de presse.

De l'improvisation seulement liée à la soudaineté de la crise ? Pas seulement. Chez nos voisins, des dispositifs étaient au point plus tôt. La Protection civile italienne avait par exemple mis en place dès le début du mois de mars un tableau de bord complet de l'épidémie, dont le code source et les données étaient accessibles à n'importe qui. De quoi laisser amer un spécialiste ayant longtemps travaillé sur ces sujets au sein des services de l'Etat. "En France, on a une culture du communiqué de presse, pas une culture de la donnée. Pourtant, c'est essentiel pour éclairer la décision publique et l'opinion", estime-t-il. Un autre, agent d'une ARS, témoignait anonymement auprès de Mediapart : "On travaille avec des outils archaïques, on a beaucoup bricolé à base d’Excel et de copier-coller, on a perdu des journées et des soirées à refaire nos tableaux à la main. Nous sommes bien loin de la start-up nation."

Le point sur la situation présenté par le directeur de la Directeur général de la Santé, le 28 mars 2020.  (AFPTV)


"L'administration était mal préparée et il y a eu des blocages, mais les gens ont fait comme ils ont pu, tempère un ingénieur ayant travaillé sur le projet. Les premiers mois, certains restaient travailler jusqu'à 3 heures du matin pour préparer et analyser les données. Cela a reposé sur la bonne volonté des uns et des autres." Cet été encore, le tableau de bord du gouvernement a principalement été maintenu à jour par Jérôme Desboeufs, d'Etalab, et une poignée de ses collègues, comme en attestent les modifications du code source en juillet et août.

Une myriade d'indicateurs

Mais dès la fin du mois de mars, Santé publique France a commencé à produire un volume croissant de données permettant à l'exécutif, aux médias et au grand public de suivre finement l'épidémie. Sur les cinquante agents que compte la direction "Appui, traitements et analyses de données" de SPF, une douzaine a été pleinement mobilisée sur le Covid-19. "On a travaillé comme des forcenés", se souvient Yann Le Strat, directeur du service. Il a fallu adapter des systèmes de surveillance déjà existants, tels que le réseau "Oscour" pour les services hospitaliers, mis en place à la suite de la canicule de 2003 ; mais aussi en créer de nouveaux de toutes pièces, et en urgence.

"Depuis plusieurs années, on voulait mettre en place un système de remontée de données des laboratoires, explique Yann Le Strat, mais c'était très difficile de convaincre tous les acteurs."

Aujourd'hui, on a quelque chose de quasi exhaustif. Personne en France n'aurait pensé qu'on puisse créer un système national comme celui-là en si peu de temps.

Yann Le Strat

à franceinfo

L'objectif étant de centraliser et publier les données des hôpitaux, des équipes de SOS Médecins, des laboratoires, et de les mettre à jour à un rythme hebdomadaire ou quotidien. Le tout est publié sur le portail de données ouvertes data.gouv.fr, où le profil de SPF a été créé pour l'occasion, et où il est arrivé que le rythme de mise à jour hebdomadaire ou quotidien ne soit pas toujours tenu en raison de problèmes techniques. Le site Géodes permet également de consulter depuis février 2019 les productions de l'agence. "En 2019, on a reçu 90 000 visites sur ce site. Pour 2020, on a dépassé les 16 millions", précise Yann Le Strat.

Taux d'incidence, tests positifs, nouvelles hospitalisations, admissions en réanimation... Géodes présente 79 données différentes, mais n'est pas des plus intuitifs. "Ce n'est pas forcément un outil facile d'accès pour le grand public. Ce qu'il nous manque, c'est un tableau de bord exhaustif, mais on n'a pas eu le temps de le développer. Notre priorité, c'est de produire tous les jours des indicateurs en open data. C'est déjà un challenge", note le directeur du service. En l'état, les données du Covid-19 en France suivent un chemin quelque peu kafkaïen : chaque jour, SPF produit des données à 14 heures, qui sont transmises à la fois à la plateforme data.gouv.fr et à la DGS. Plus tard dans la journée, SPF publie également un point quotidien sur l'épidémie. De son côté, la DGS élabore aussi ses communiqués du soir, et remplit à la main un fichier permettant de mettre à jour une partie du tableau de bord du gouvernement. L'autre partie est alimentée par les fichiers publiés par SPF sur data.gouv.fr.

Problème : il est arrivé que les chiffres communiqués par la DGS et ceux de SPF soient légèrement différents. Soit parce que les données avaient été relevées à quelques heures d'intervalle, soit parce que des informations manquantes concernant certains patients entraînaient des totaux légèrement inférieurs au chiffre national lorsqu'on faisait la somme par département, par exemple. De quoi susciter d'innombrables interrogations de la part des journalistes et des citoyens suivant de près le sujet. Du côté de la DGS comme de SPF, on explique qu'il est plus important d'analyser les variations hebdomadaires que de scruter les chiffres quotidiens, sujets à ces légers écarts. Une ancienne responsable d'une ARS pointe d'ailleurs un certain antagonisme entre la communication journalière des chiffres de l'épidémie et le temps de l'analyse scientifique de celle-ci.

"Un mille-feuille" à décortiquer

Un autre problème de lisibilité concerne l'évolution des indicateurs utilisés par l'exécutif pour produire les cartes de suivi de l'épidémie. Carte de circulation du virus, carte de vigilance, carte de vulnérabilité, carte des zones de circulation active du virus… Autant de représentations proches, mais aux méthodologies différentes. Suscitant parfois de vives réactions, comme lorsque, le 30 avril, Olivier Véran présente la carte provisoire du déconfinement, sans détailler avec précision la méthode utilisée et les chiffres obtenus. Surprise : le Lot et la Haute-Corse sont en rouge. Journalistes et observateurs tentent de reproduire, à tâtons, les calculs. Les élus locaux montent au créneau et, le lendemain, les ARS locales reconnaissent un problème "d'encodage" des données, passant les deux départements en vert.

Pour Simon Malfatto, datajournaliste spécialisé dans le suivi des données de l'épidémie à l'Agence France-Presse, "c'est un mille-feuille très difficile à suivre. On a besoin de pouvoir décortiquer, de comprendre les limites de chaque indicateur. Parfois c'est nébuleux."

Quand on met autant de données à disposition, il faut faire davantage de pédagogie.

Simon Malfatto, journaliste

à franceinfo

Alors que les courbes de l'épidémie commencent à repartir à la hausse, le tableau de bord du gouvernement pourrait faire l'objet de modifications dans les prochaines semaines, après sept mois de production de différents indicateurs. "On a maintenant une vision haute définition de ce qui se passe sur le territoire", assure la DGS. La période n'a pas non plus fini d'étonner Yann le Strat, de SPF : "Si on m'avait dit un jour qu'on allait parler du facteur de reproduction tous les soirs à la télé, je ne l'aurais pas cru."

Commentaires

Connectez-vous à votre compte franceinfo pour participer à la conversation.