Disponible en ligne sur

ScienceDirect www.sciencedirect.com Revue d’E´pide´miologie et de Sante´ Publique 62 (2014) 1–4

E´ditorial

L’analyse des « Big Data » en recherche clinique The analysis of ‘‘Big Data’’ in clinical research R. Thie´baut a,b,c,d,e,*, B. Hejblum a,b,c,d,e, L. Richert a,b,c,d,e a

Inserm U8971 e´pide´miologie et biostatistique, 33000 Bordeaux, France b Inria SISTM2, 33000 Bordeaux, France c Institut de sante´ publique d’e´pide´miologie et de de´veloppement (ISPED3), universite´ Bordeaux, 33000 Bordeaux, France d Vaccine Research Institute, 94010 Cre´teil, France e Unite´ de soutien me´thodologique a` la recherche clinique et e´pide´miologique (USMR), CHU de Bordeaux, 33000 Bordeaux, France

1. Introduction Nous sommes entre´s dans l’e`re des « Big Data », comme en atteste une recherche du mot cle´ sur Google Trends1 (Fig. 1). Il s’agit de la production massive de donne´es avec un de´bit toujours plus important : 90 % des donne´es mondiales ont e´te´ produites au cours des deux dernie`res anne´es. Les plus gros pourvoyeurs sont connus : acce´le´rateur de particules (Large Hadron Collider [LHC]), le futur te´lescope (Large Synoptic Survey Telescope [LSST]), Facebook, Youtube, les courriels. . . En biologieme´decine, les « Big Data » font en premier lieu re´fe´rence aux donne´es « omiques », en particulier ge´nomiques, avec un de´bit de production des donne´es de se´quenc¸age de plus en plus rapide pour un couˆt de moins en moins e´leve´. Le premier se´quenc¸age du ge´nome humain complet a couˆte´ 3 milliards de dollars et a dure´ 10 ans. Aujourd’hui, un se´quenc¸age couˆte moins de 1000 $. Outre le se´quenc¸age, tous les types de donne´es biome´dicales sont concerne´s : des peptides (prote´omiques) aux donne´es d’imagerie. Dans cette note, nous pre´sentons les espoirs et les questions engendre´s par l’arrive´e de ces « Big Data » en recherche clinique autour d’un exemple concret. L’exemple est issu de la recherche vaccinale contre le virus de l’immunode´fience humaine (VIH). Il s’agit d’un essai de phase 1 pour l’e´valuation d’un vaccin the´rapeutique, c’est-a`dire administre´ a` des patients infecte´s par le VIH. Le but de ce type de vaccin est d’aider le syste`me immunitaire a` controˆler l’infection persistante. Aujourd’hui, on espe`re ainsi re´ussir une * Auteur correspondant. Adresse e-mail : [email protected] (R. Thie´baut). 1 http://biostat.isped.u-bordeaux2.fr. 2 http://www.inria.fr/equipes/sistm. 3 http://usmr.isped.u-bordeaux2.fr.

cure fonctionnelle ou` le virus resterait inde´tectable en l’absence de traitements antire´troviraux. L’essai DALIA (Dendritic cells And Lipo5 Immunization against Aids) a e´value´ un vaccin a` base de cellules dendritiques autologues charge´es avec des peptides du VIH. Pour re´aliser ce vaccin, une aphe´re`se est re´alise´e chez un patient pour re´cupe´rer ses cellules dendritiques, cellules immunitaires, qui sont stimule´es et charge´es avec une combinaison de peptides vaccinaux (LIPO5), puis l’ensemble est injecte´ au meˆme patient. DALIA e´tait un essai de phase I destine´ a` e´tudier la tole´rance du vaccin et d’une interruption antire´trovirale chez 19 patients infecte´s par le VIH1 (Fig. 2). Dans la mesure ou` il s’agissait du premier essai de ce type chez l’Homme, que la construction du vaccin est lourde et que la tole´rance attendue e´tait bonne, il e´tait e´galement inte´ressant de mesurer la re´ponse immunitaire a` l’injection des vaccins. L’interruption du traitement antire´troviral pendant une pe´riode limite´e apre`s les vaccinations permettait d’observer l’e´volution de la charge virale, qui autrement est inde´tectable sous traitement. La re´ponse immunitaire pouvant eˆtre assez e´tendue (c’est-a`-dire concerner plusieurs fonctions immunitaires) et un nombre important de techniques e´tant disponible, de nombreuses explorations immunologiques ont e´te´ re´alise´es dans cet essai (Fig. 3). Les cellules immunitaires ont e´te´ compte´es par cytome´trie en flux graˆce a` la reconnaissance des marqueurs de surface a` l’aide d’anticorps (par exemple, le marqueur CD3 pour les lymphocytes T). En moyenne, dans un tube donne´, un panel de 8 anticorps e´tait utilise´, correspondant a` la potentialite´ de reconnaıˆtre 28 types cellulaires. Au total, 15 tubes e´taient pre´leve´s par patient et par visite. De plus, la fonctionnalite´ des cellules e´tait e´tudie´e par une quantification de trois cytokines produites dans les cellules, et 9 autres cytokines dans le surnageant des cellules apre`s stimulation par un ensemble de peptides permettaient d’e´tudier la spe´cificite´ et

0398-7620/$ – see front matter # 2013 Elsevier Masson SAS. Tous droits re´serve´s. http://dx.doi.org/10.1016/j.respe.2013.12.021

2[(Fig._1)TD$IG]

R. Thie´baut et al. / Revue d’E´pide´miologie et de Sante´ Publique 62 (2014) 1–4

Fig. 1. Re´sultat de l’interrogation de Google Trends1 pour les mots « Big data » le 17/7/2013.

la qualite´ de la re´ponse. Ce protocole a ge´ne´re´ environ 800 mesures par patient et par visite. Ont e´galement e´te´ e´tudie´es l’expression ge´nique par micropuces (47 000 sondes/ patient/visite) et l’adaptation du virus par se´quenc¸age haut de´bit. Au total, la mise en œuvre de cet essai a ne´cessite´ l’intervention d’une cinquantaine de personnes issues de disciplines tre`s varie´es : cliniciens, immunologistes, biologistes mole´culaires, virologistes, techniciens de laboratoire, assistants de recherche clinique, me´thodologistes, informaticien-gestionnaires de bases de donne´es, biostatisticiens, bioinformaticiens. Quels sont les proble`mes pose´s par ces donne´es de grandes dimensions ? Les capacite´s d’e´valuation de la re´ponse au vaccin e´taient d’emble´e limite´es par l’impossibilite´ d’inclure un groupe te´moin non vaccine´ dans cet essai de phase I. Seule l’e´volution des parame`tres e´tait donc e´value´e (avant et apre`s vaccin, avant et apre`s interruption des antire´troviraux). De plus, la multiplicite´ des variables a` tester engendre un proble`me de multiplicite´ des tests statistiques re´alise´s. Le proble`me est alors lie´ a` l’augmentation de la probabilite´ de trouver un test statistiquement significatif alors qu’il n’y a pas de re´elle association dans la population. Il s’agit d’une augmentation ine´vitable du risque statistique de premie`re espe`ce lors de la re´pe´tition des tests statistiques, tout comme dans le cas des analyses de sous-groupes dans un essai clinique [1]. Benjamini et Hochberg ont propose´ un ajustement permettant de controˆler l’espe´rance du nombre de tests faussement significatifs [2]. Cette approche est moins conservative que l’approche de Bonferroni par exemple. Une [(Fig._2)TD$IG]autre approche pour traiter ces donne´es de grandes dimensions

consiste a` re´duire la dimension. Par exemple, Wittkowski et al. ont propose´ une statistique de rang pour l’analyse de re´ponses multivarie´es [3]. La re´duction de dimension peut eˆtre associe´e a` une se´lection des variables d’inte´reˆt comme dans l’approche sparse-Partial Least Square, ou` la pe´nalisation conduit a` exclure un certain nombre de variables [4]. Une autre approche consiste a` analyser des groupes de variables a` partir d’ensembles de´finis avant l’e´tude. Par exemple, dans l’analyse de l’expression de ge`nes par biopuces, il a e´te´ propose´ des approches par « Geneset » ou groupe de ge`nes qui sont fonctionnellement associe´s entre eux. L’association des ge`nes entre eux, voire la cascade me´canistique du lien entre les ge`nes (« pathway »), peuvent eˆtre connus a` partir des donne´es de la litte´rature et surtout des banques de donne´es comme Kyoto Encyclopedia of Genes and Genomes (KEGG). L’ide´e est donc d’e´tudier l’expression diffe´rentielle d’un ensemble de ge`nes plutoˆt que la surexpression tre`s importante d’un ge`ne spe´cifique. Biologiquement, il est plus fre´quent d’observer une faible augmentation (ou diminution) d’expression de plusieurs ge`nes sur une meˆme voie physiopathologique que l’expression diffe´rentielle tre`s marque´e d’un seul ge`ne [5]. Cette approche par groupe de ge`nes est inte´ressante et se rapproche du test d’hypothe`se plutoˆt que la fouille de donne´es, dans la mesure ou` l’on peut de´finir a priori quel ensemble de ge`nes on espe`re mobiliser avec le vaccin. L’analyse de ces diffe´rents marqueurs de la re´ponse immunitaire permet donc d’e´tudier l’impact du vaccin sur le syste`me immunitaire. Cependant, une autre question est de savoir quel est l’impact de cette re´ponse immunitaire observe´e

Fig. 2. Sche´ma d’e´tude de l’essai DALIA-1 (Highly Active Antiretroviral Therapy [HAART] – interrompu puis repris si le taux de CD4 est < 350 cellules/mm3).

[(Fig._3)TD$IG]

R. Thie´baut et al. / Revue d’E´pide´miologie et de Sante´ Publique 62 (2014) 1–4

3

Fig. 3. Marqueurs immuno-virologiques mesure´s dans l’essai DALIA-1.

au cours de la vaccination sur la dynamique virale, apre`s interruption des traitements antire´troviraux effectue´e apre`s la vaccination. Ici encore, il ne s’agissait pas de l’objectif principal de l’essai, conc¸u pour e´valuer la tole´rance du vaccin. Autrement dit, les risques d’erreur a` la re´alisation de tests statistiques deviennent importants avec d’une part un manque de puissance statistique pouvant conduire a` tort a` la conclusion d’une absence de diffe´rence, et d’autre part une re´pe´tition des tests pouvant conduire a` tort a` la conclusion de l’existence d’une diffe´rence. Doit-on alors arreˆter les analyses a` ce stade ? Ici, il a e´te´ de´cide´ d’explorer un lien potentiel entre la re´ponse immunologique au vaccin et la dynamique virale en prenant deux pre´cautions. Tout d’abord, une re´union pre´paratoire avant tout rendu de re´sultat a e´te´ re´alise´e pour de´finir quel serait le crite`re virologique d’inte´reˆt principal. En effet, la dynamique virale peut eˆtre e´tudie´e sur plusieurs parame`tres (temps jusqu’a` la mesure de charge virale de´tectable, pente de croissance, valeur maximale observe´e, valeur au plateau. . .). Ensuite, les marqueurs immunologiques primordiaux a` tester, notamment la production de cytokines, ont e´te´ pre´cise´s. Enfin, une premie`re description a e´te´ re´alise´e afin d’observer si les diffe´rences e´taient e´videntes avant toute re´alisation de test statistique. Cette description a e´te´ faite a` l’aide d’une analyse en composante principale construite a` partir des parame`tres immunologiques, puis les marqueurs virologiques ont e´te´ projete´s. Par la suite des tests sur les coefficients de corre´lation de Spearman ont e´te´ re´alise´s et ont re´ve´le´ une association entre le niveau de plusieurs cytokines et la charge virale maximale observe´e, apre`s ajustement sur la multiplicite´ des tests. 2. Quelles lec¸ons tirer de l’arrive´e des « Big data » en recherche clinique ? L’information apporte´e par l’ensemble des donne´es est bien supe´rieure au bruit des nombreuses mesures effectue´es, mais

ne´cessite souvent des me´thodes statistiques sophistique´es, adapte´es, pour les exploiter pleinement. La grande dimension des donne´es implique un important temps de calcul et une syste´matisation de la ve´rification des donne´es et des conditions d’application des me´thodes utilise´es. L’approche multidisciplinaire est fondamentale et obligatoire. Il s’agit d’un travail quotidien de collaborateurs issus d’horizons tre`s diffe´rents mais s’inte´ressant aux autres disciplines. C’est un travail qui demande beaucoup de temps a` tous. Contrairement a` l’approche classique des essais cliniques, cette abondance des donne´es donne les moyens de re´pondre non pas a` une seule, mais a` plusieurs questions. Toutefois, si ceci semble contraire au principe d’une recherche causale base´e sur le test d’une hypothe`se pre´-formule´e, ce n’est pas exactement le cas. En effet, il existe une question principale assez ge´ne´rale qui est, dans l’exemple, « Le vaccin engendre-t-il une re´ponse efficace ? ». Et quand bien meˆme il y a plusieurs questions, il reste important de bien les de´finir et de re´fle´chir aux limites de l’e´tude actuelle pour y re´pondre. On peut alors calculer le nombre de sujets ne´cessaire, y compris pour s’assurer d’une bonne puissance pour tester l’expression diffe´rentielle de centaines de ge`nes. L’analyse de l’ensemble des donne´es beaucoup plus volumineuses qu’auparavant demande plus de temps pour les ge´ne´rer, les organiser et les traiter. Cependant, plutoˆt que de devoir organiser un nouvel essai clinique pour e´valuer un nouveau parame`tre, un plus grand nombre de parame`tres peut eˆtre e´value´ sur le meˆme essai. Le bilan en terme de temps passe´ pour le de´veloppement d’une intervention donne´e n’est donc probablement pas de´ficitaire. Un nouvel essai permettra alors de confirmer les re´sultats du premier, ce qui est d’autant plus important dans ce contexte de multiplicite´ des analyses effectue´es sur une meˆme e´tude.

4

R. Thie´baut et al. / Revue d’E´pide´miologie et de Sante´ Publique 62 (2014) 1–4

De´claration d’inte´reˆts

Re´fe´rences

Les auteurs de´clarent ne pas avoir de conflits d’inte´reˆts en relation avec cet article.

[1] Lagakos SW. The challenge of subgroup analyses–reporting without distorting. N Engl J Med 2006;354:1667–9. [2] Hochberg Y, Benjamini Y. Controlling the false discovery rate: a practical and powerful approach to multiple testing. J R Stat Soc B 1995;57:289–300. [3] Wittkowski KM, Lee E, Nussbaum R, Chamian FN, Krueger JG. Combining several ordinal measures in clinical studies. Stat Med 2004;23: 1579–92. [4] Liquet B, Le Cao KA, Hocini H, Thiebaut R. A novel approach for biomarker selection and the integration of repeated measures experiments from two assays. BMC Bioinformatics 2012;13:325. [5] Subramanian A, Tamayo P, Mootha VK, Mukherjee S, Ebert BL, Gillette MA, et al. Gene set enrichment analysis: a knowledge-based approach for interpreting genome-wide expression profiles. Proc Nat Acad Sci USA 2005;102:15545–50.

Remerciements Cette note a e´te´ e´crite a` la suite de l’e´cole d’e´te´ d’informatique me´dicale de Corte organise´e en juillet 2013 par Marius Fieschi et Jean Chiffe, a` la demande de Franc¸ois Gremy que nous remercions vivement. Laura Richert a be´ne´ficie´ d’une bourse jeune chercheur du SIDACTION et Boris Hejblum d’une bourse de the`se du re´seau des e´coles doctorales de Sante´ Publique anime´ par l’EHESP.

[The analysis of "Big Data" in clinical research].

[The analysis of "Big Data" in clinical research]. - PDF Download Free
569KB Sizes 1 Downloads 0 Views