Pr Rodolphe Thiébaut : Le big data en prévention et promotion de la santé

Pourriez-vous présenter en quelques mots et nous décrire succinctement votre parcours ?

Rodolphe Thiebaut Je suis PU-PH dans la sous-section 4604 du CNU, informatique médicale et biostatistique, de la sous-section de santé publique. J’ai fait un internat de santé publique, au cours duquel j’ai fait un master de biostatistiques, et j’ai commencé ma thèse d’université pendant mon internat. Ensuite, à la fin de mon internat, j’ai passé le concours de chargé de recherche à l’INSERM, puis le concours de directeur de recherche à l’INSERM. Finalement, je suis passé praticien hospitalier et professeur des universités en 2013. Actuellement je suis responsable de l’Unité de Soutien Méthodologique à la Recherche Clinique au CHU de Bordeaux qui appartient au Service d’Information Médicale du pôle de santé publique. Je suis directeur d’une équipe de recherche INSERM/INRIA qui s’appelle SISTM, pour Statistics In System biology and Translational Medicine, directeur adjoint du centre INSERM U1219 Bordeaux Population Health et responsable de l’école universitaire de recherche Digital Public Health.

Par rapport au choix de vous engager dans une carrière de santé publique, est-ce que la thématique de la prévention a été quelque chose de déterminant ou était-ce lié à d’autres facteurs ?

Je ne suis pas rentré en santé publique complètement par hasard. J’ai commencé sans savoir ce qu’était la santé publique. Je voulais faire french doctor, partir sauver les gens en Afrique. Du coup, dès le début de mon externat je suis parti en Afrique tous les ans. On a monté une association en collaboration avec des étudiants en médecine au Burkina. Au début, je commençais à faire des soins dans un dispensaire de brousse. Quand je revenais en France, on me disait que c’était super mais que je n’avais pas évalué mon impact sur la santé des populations. Je n’avais pas bien compris cet aspect de la prévention au début. Je me suis donc mis à lire des bouquins et à discuter avec des professionnels en santé publique. A partir de là, on a commencé à avoir une vraie démarche de santé communautaire. Il s’agissait de réunir les différentes personnes ressources dans les villages dans lesquels on travaillait et on leur demandait quels étaient leurs problèmes de santé. Par exemple, on avait soulevé des problèmes dus à la carence en iode, notamment par rapport aux goitre rapportés. Finalement, il s’est avéré que c’était un problème d’ampleur nationale. Nous avons donc monté un projet sur l’évaluation des troubles dus à la carence en iode avec mes collègues et on a été lauréat de Partenaires sans frontières. Les résultats de cette étude ont donné lieu à mon premier article scientifique que j’ai soumis quand j’étais externe.

Un exemple concret : comment passe-t-on d’une volonté de prévention accrue, à la mise en place d’un projet tel que le projet EBOVAC2 ?

Ce qui est intéressant derrière ça, c’est de comprendre qu’est-ce que veut dire faire de la prévention et faire de la santé publique. Quand on parle de prévention on pense d’abord à modifier le comportement d’un individu avec un message bien fait, une population bien ciblée… Tout ceci est volontairement caricatural. Finalement, s’attaquer à des problématiques de prévention c’est quelque chose de très très large et il y a énormément de méthodologies différentes pour y parvenir. Lorsque l’on parle d’EBOVAC, on se place dans un contexte très typé, avec la demande de développer un vaccin pour prévenir une maladie infectieuse.

Justement, quelles ont été les spécificités de ce projet ?

Il y a eu 2 spécificités majeures dans le cadre de ce projet.

La première spécificité était politique. Elle a été de constater que lorsque les politiques s’alarment sur le fait qu’il y a nécessité de faire quelque chose, cela peut aller très très vite. Dans le cadre de ce projet, le contexte était que l’OMS a mis du temps à dire qu’il y avait une épidémie d’Ebola sérieuse en cours. Mais elle a ensuite organisé très rapidement des réunions pour voir comment il était possible de faire face à cette épidémie et notamment concernant les vaccins. Il s’agissait de savoir ce qu’il y avait comme produit potentiel en cours de développement et comment on pouvait faire pour accélérer ce développement. Il y a eu à ce moment-là une mobilisation générale, avec en France Jean-François Delfraissy, actuel président du Conseil national d’éthique, à l’époque directeur de l’ANRS (Agence Nationale de Recherche sur le Sida et les hépatites virales) et directeur de l’ITMO (Institut Thématique Multi-Organisme) des maladies infectieuses.

La deuxième spécificité était plutôt liée au contexte général de développement vaccinal, voire même du développement en recherche clinique. Actuellement, pour essayer de comprendre comment marche un vaccin, on ne regarde pas juste le taux d’anticorps à 6 mois ou 1 an, mais on regarde le transcriptome ainsi que de nombreux marqueurs immunologiques. Ce sont des données de bien plus grande dimension que ce qu’elles n’étaient précédemment.

Pour vous, quels sont les apports et les limites actuels et à venir du big data dans une démarche de prévention ?

Premièrement, le big data dit tel quel peut vouloir tout et ne rien dire. On parle de données de grande dimension parce que l’on dispose d’une profondeur de phénotypage très importante mais pour un nombre d’individus bien moins grand. En effet, au sein même d’un individu on est capable d’aller voir à différents niveaux : cellule, tissu, expression des gènes… Une des autres spécificités des données en big data est d’avoir des données d’une grande variété à l’échelle d’une population (base de données de remboursement de médicaments, données issues de smartphone…). On peut alors se demander si l’on peut analyser ces données avec des méthodes classiques. En réalité, la façon dont on va répondre à une question avec ces données massives peut être tout à fait classique. Ce qui est important est d’avoir bien défini la question et pensé avant à la méthode d’analyse. Bien entendu, il y a encore de nombreuses choses à faire et à développer pour exploiter au mieux ces données massives.

Donc je ne vais pas m’inscrire dans un propos soutenant l’idée que le big data va tout révolutionner, ni qu’il est inutile et n’apportera rien. La vérité est que l’on a déjà des exemples qui pleuvent, par exemple le SNIIRAM (Système national d’information inter-régimes de l’assurance maladie) et l’EGB (Echantillon généralise des bénéficiaires), avec ici dans le centre Inserm une équipe de pharmaco-épidémiologie dirigée par Antoine Pariente, et des sujets de recherches quotidiens sur ces thématiques. Un autre exemple est celui du travail d’Emmanuel Lagarde en collaboration avec des chercheurs de mon équipe. Ils ont utilisé à la fois les comptes-rendus des accidents et les données de remboursement des médicaments dans l’objectif de voir si certains médicaments étaient associés à des accidents de la voie publique, comme par exemple les benzodiazépines. Un autre exemple dans le domaine infectieux est celui d’une équipe de recherche au Kenya qui a travaillé sur des données disponibles à partir des smartphones, cherchant un lien entre l’incidence des accès palustres, la circulation des individus et la densité des moustiques. Cette équipe a alors montré que ce n’est pas simplement le déplacement des moustiques qui peut expliquer la survenue de la malaria, mais aussi le déplacement des populations.

Ce qu’il faut donc retenir, au-delà des fantasmes et des polémiques, c’est que ces données massives sont utilisées et qu’il faut poursuivre l’effort en leur donnant une certaine place dans la démarche de santé publique ?

Actuellement, il est souvent dit “ Mais attendez, vous n’avez fait que ça avec vos big data ?”. A titre personnel, je perçois ce message comme positif. C’est vrai que pour l’instant nous en sommes à un milliardième de l’exploitation des informations auxquelles on accède. Il y a un potentiel incroyable mais, pour l’instant, nous sommes plutôt dans le cadre d’un cimetière de données que véritablement d’une utilisation efficiente de l’ensemble des données dont on dispose. Mon discours se résume à dire “ jusqu’à présent nous avons déjà quelques succès dans ce contexte de sous-exploitation des informations que l’on a. Mais, le jour où cette exploitation sera optimale, ce sera énorme”. En attendant, nous avons tous des efforts à faire à tous les niveaux. Les premiers concernés sont les investigateurs et les acteurs de santé publique, les gens qui posent des questions. Il faut avant tout bien poser les questions et qu’elles soient pertinentes. La porte d’entrée ne doit pas être un raisonnement du type « J’ai cette base de données, qu’est-ce que je peux en faire ? » mais plutôt du type : “Mesdames et messieurs les professionnels de la prévention et de la santé publique, quelles sont vos questions auxquelles nous pourrions répondre avec des données qui sont potentiellement disponibles ?”.

Un autre versant à prendre en compte est l’accès aux données avec toutes les considérations impliquées : éthique, droit… Il ne s’agit pas de dire qu’il faut faire de l’open data. Il faut organiser les choses, à l’instar de ce qui est en train d’être fait en France avec le SNDS (Système National des Données de Santé).

Ensuite, l’enjeu est d’organiser ces données de façon à ce qu’elles soient véritablement exploitables. C’est ce qui fait actuellement le succès de différents métiers comme les data scientists. Et les personnes qui organisent et exploitent les données ne sont pas que les bio-informaticiens, il y a aussi des informaticiens médicaux, les datamanager, les biostatisticiens, les épidémiologistes… Et bien sûr, pour gérer ces données de grande dimension, il faut développer de nouvelles méthodes statistiques. Et ce n’est toujours pas fini. Après toutes ces étapes, il est important de bien communiquer ses résultats et arrêtez de dire qu’en prenant des big data et du deep learning, on va pouvoir répondre à tout.

Un cursus orienté spécifiquement big data va être mis en place au sein de l’ISPED à partir de la rentrée 2018. Quels seront les apports spécifiques souhaités de cette formation par rapport aux cursus déjà disponibles (épidémiologie, informatique en santé et statistiques) ?

Tout d’abord, il faut comprendre que la « Graduate school of digital public health » n’est pas seulement un master mais c’est un programme master-PhD, dans lequel nous allons proposer de nouvelles formations y compris un diplôme universitaire. Il est financé sur 10 ans dans le cadre des programmes investissements d’avenir. Concernant le Master « Public Health Data Science », le constat était que très souvent les formations de « data scientist » déjà existantes étaient un mélange d’informatique et de statistiques sans épidémiologie. Et ça, pour des médecins de santé publique, c’est incompréhensible. En effet, les gens oublient que pour attaquer un problème il faut avoir une question précise, et c’est cette question précise qui amène à réfléchir au design et aux contextes et limites d’exploitation des données. On s’est dit qu’il y avait un vrai manque et on avait la chance d’avoir les trois disciplines représentées ici à Bordeaux avec les enseignants chercheurs de l’ISPED. L’autre idée c’est que les gens ont l’impression que tout tourne autour de la révolution d’algorithmes et ils oublient de bien regarder au-delà de la question, ce que sont les données. Nous avons la chance, en santé publique d’avoir véritablement cette culture-là, de comprendre la manière dont ont été générées ces données, leur qualité…

Pour le master, on imagine cibler des gens qui ont déjà fait un master 2, que ce soit d’informatique médicale, de statistiques ou d’épidémiologie. Il est également prévue une UE de mise à niveau des disciplines concernées dès le début, si possible sous la forme de classes inversées. C’est-à-dire que l’on va demander à chaque étudiant de nous présenter ce qu’il a retenu des notions fondamentales de son domaine. Donc pour un étudiant ayant déjà un master en poche, plutôt que de réentendre des choses qu’il connaît déjà très bien, ce sera à lui de les expliquer. Chaque étudiant avec un background spécifique se verra devenir enseignant à son tour pour sa spécialité. Parce qu’on souhaite que des étudiants du monde entier y compris non francophones puissent suivre cette formation, elle sera dispensée en anglais.

Par ailleurs, des modules de PhD, c’est à dire des formations courtes de quelques jours le plus souvent, seront proposées. On va proposer par exemple un module de modélisation du vivant, des modules de communication et évaluation sur la problématique des objets connectés…

Voilà ce qu’il faut savoir concernant ce cursus, qui ouvrira ses portes à la rentrée 2018 !

Propos recueillis par Fanny Velardo et Louis Billiet, ISP à Bordeaux

Futur·E interne ?

Dernier Bulletin

DATES IMPORTANTES

OFFRES D'EMPLOI