Disponible en ligne sur

ScienceDirect www.sciencedirect.com Revue d’E´pide´miologie et de Sante´ Publique 62 (2014) 1–4

E´ditorial

L’analyse des « Big Data » en recherche clinique The analysis of ‘‘Big Data’’ in clinical research R. Thie´baut a,b,c,d,e,*, B. Hejblum a,b,c,d,e, L. Richert a,b,c,d,e a

Inserm U8971 e´pide´miologie et biostatistique, 33000 Bordeaux, France b Inria SISTM2, 33000 Bordeaux, France c Institut de sante´ publique d’e´pide´miologie et de de´veloppement (ISPED3), universite´ Bordeaux, 33000 Bordeaux, France d Vaccine Research Institute, 94010 Cre´teil, France e Unite´ de soutien me´thodologique a` la recherche clinique et e´pide´miologique (USMR), CHU de Bordeaux, 33000 Bordeaux, France

1. Introduction Nous sommes entre´s dans l’e`re des « Big Data », comme en atteste une recherche du mot cle´ sur Google Trends1 (Fig. 1). Il s’agit de la production massive de donne´es avec un de´bit toujours plus important : 90 % des donne´es mondiales ont e´te´ produites au cours des deux dernie`res anne´es. Les plus gros pourvoyeurs sont connus : acce´le´rateur de particules (Large Hadron Collider [LHC]), le futur te´lescope (Large Synoptic Survey Telescope [LSST]), Facebook, Youtube, les courriels. . . En biologieme´decine, les « Big Data » font en premier lieu re´fe´rence aux donne´es « omiques », en particulier ge´nomiques, avec un de´bit de production des donne´es de se´quenc¸age de plus en plus rapide pour un couˆt de moins en moins e´leve´. Le premier se´quenc¸age du ge´nome humain complet a couˆte´ 3 milliards de dollars et a dure´ 10 ans. Aujourd’hui, un se´quenc¸age couˆte moins de 1000 $. Outre le se´quenc¸age, tous les types de donne´es biome´dicales sont concerne´s : des peptides (prote´omiques) aux donne´es d’imagerie. Dans cette note, nous pre´sentons les espoirs et les questions engendre´s par l’arrive´e de ces « Big Data » en recherche clinique autour d’un exemple concret. L’exemple est issu de la recherche vaccinale contre le virus de l’immunode´fience humaine (VIH). Il s’agit d’un essai de phase 1 pour l’e´valuation d’un vaccin the´rapeutique, c’est-a`dire administre´ a` des patients infecte´s par le VIH. Le but de ce type de vaccin est d’aider le syste`me immunitaire a` controˆler l’infection persistante. Aujourd’hui, on espe`re ainsi re´ussir une * Auteur correspondant. Adresse e-mail : [email protected] (R. Thie´baut). 1 http://biostat.isped.u-bordeaux2.fr. 2 http://www.inria.fr/equipes/sistm. 3 http://usmr.isped.u-bordeaux2.fr.

cure fonctionnelle ou` le virus resterait inde´tectable en l’absence de traitements antire´troviraux. L’essai DALIA (Dendritic cells And Lipo5 Immunization against Aids) a e´value´ un vaccin a` base de cellules dendritiques autologues charge´es avec des peptides du VIH. Pour re´aliser ce vaccin, une aphe´re`se est re´alise´e chez un patient pour re´cupe´rer ses cellules dendritiques, cellules immunitaires, qui sont stimule´es et charge´es avec une combinaison de peptides vaccinaux (LIPO5), puis l’ensemble est injecte´ au meˆme patient. DALIA e´tait un essai de phase I destine´ a` e´tudier la tole´rance du vaccin et d’une interruption antire´trovirale chez 19 patients infecte´s par le VIH1 (Fig. 2). Dans la mesure ou` il s’agissait du premier essai de ce type chez l’Homme, que la construction du vaccin est lourde et que la tole´rance attendue e´tait bonne, il e´tait e´galement inte´ressant de mesurer la re´ponse immunitaire a` l’injection des vaccins. L’interruption du traitement antire´troviral pendant une pe´riode limite´e apre`s les vaccinations permettait d’observer l’e´volution de la charge virale, qui autrement est inde´tectable sous traitement. La re´ponse immunitaire pouvant eˆtre assez e´tendue (c’est-a`-dire concerner plusieurs fonctions immunitaires) et un nombre important de techniques e´tant disponible, de nombreuses explorations immunologiques ont e´te´ re´alise´es dans cet essai (Fig. 3). Les cellules immunitaires ont e´te´ compte´es par cytome´trie en flux graˆce a` la reconnaissance des marqueurs de surface a` l’aide d’anticorps (par exemple, le marqueur CD3 pour les lymphocytes T). En moyenne, dans un tube donne´, un panel de 8 anticorps e´tait utilise´, correspondant a` la potentialite´ de reconnaıˆtre 28 types cellulaires. Au total, 15 tubes e´taient pre´leve´s par patient et par visite. De plus, la fonctionnalite´ des cellules e´tait e´tudie´e par une quantification de trois cytokines produites dans les cellules, et 9 autres cytokines dans le surnageant des cellules apre`s stimulation par un ensemble de peptides permettaient d’e´tudier la spe´cificite´ et

0398-7620/$ – see front matter # 2013 Elsevier Masson SAS. Tous droits re´serve´s. http://dx.doi.org/10.1016/j.respe.2013.12.021

2[(Fig._1)TD$IG]

R. Thie´baut et al. / Revue d’E´pide´miologie et de Sante´ Publique 62 (2014) 1–4

Fig. 1. Re´sultat de l’interrogation de Google Trends1 pour les mots « Big data » le 17/7/2013.

la qualite´ de la re´ponse. Ce protocole a ge´ne´re´ environ 800 mesures par patient et par visite. Ont e´galement e´te´ e´tudie´es l’expression ge´nique par micropuces (47 000 sondes/ patient/visite) et l’adaptation du virus par se´quenc¸age haut de´bit. Au total, la mise en œuvre de cet essai a ne´cessite´ l’intervention d’une cinquantaine de personnes issues de disciplines tre`s varie´es : cliniciens, immunologistes, biologistes mole´culaires, virologistes, techniciens de laboratoire, assistants de recherche clinique, me´thodologistes, informaticien-gestionnaires de bases de donne´es, biostatisticiens, bioinformaticiens. Quels sont les proble`mes pose´s par ces donne´es de grandes dimensions ? Les capacite´s d’e´valuation de la re´ponse au vaccin e´taient d’emble´e limite´es par l’impossibilite´ d’inclure un groupe te´moin non vaccine´ dans cet essai de phase I. Seule l’e´volution des parame`tres e´tait donc e´value´e (avant et apre`s vaccin, avant et apre`s interruption des antire´troviraux). De plus, la multiplicite´ des variables a` tester engendre un proble`me de multiplicite´ des tests statistiques re´alise´s. Le proble`me est alors lie´ a` l’augmentation de la probabilite´ de trouver un test statistiquement significatif alors qu’il n’y a pas de re´elle association dans la population. Il s’agit d’une augmentation ine´vitable du risque statistique de premie`re espe`ce lors de la re´pe´tition des tests statistiques, tout comme dans le cas des analyses de sous-groupes dans un essai clinique [1]. Benjamini et Hochberg ont propose´ un ajustement permettant de controˆler l’espe´rance du nombre de tests faussement significatifs [2]. Cette approche est moins conservative que l’approche de Bonferroni par exemple. Une [(Fig._2)TD$IG]autre approche pour traiter ces donne´es de grandes dimensions

consiste a` re´duire la dimension. Par exemple, Wittkowski et al. ont propose´ une statistique de rang pour l’analyse de re´ponses multivarie´es [3]. La re´duction de dimension peut eˆtre associe´e a` une se´lection des variables d’inte´reˆt comme dans l’approche sparse-Partial Least Square, ou` la pe´nalisation conduit a` exclure un certain nombre de variables [4]. Une autre approche consiste a` analyser des groupes de variables a` partir d’ensembles de´finis avant l’e´tude. Par exemple, dans l’analyse de l’expression de ge`nes par biopuces, il a e´te´ propose´ des approches par « Geneset » ou groupe de ge`nes qui sont fonctionnellement associe´s entre eux. L’association des ge`nes entre eux, voire la cascade me´canistique du lien entre les ge`nes (« pathway »), peuvent eˆtre connus a` partir des donne´es de la litte´rature et surtout des banques de donne´es comme Kyoto Encyclopedia of Genes and Genomes (KEGG). L’ide´e est donc d’e´tudier l’expression diffe´rentielle d’un ensemble de ge`nes plutoˆt que la surexpression tre`s importante d’un ge`ne spe´cifique. Biologiquement, il est plus fre´quent d’observer une faible augmentation (ou diminution) d’expression de plusieurs ge`nes sur une meˆme voie physiopathologique que l’expression diffe´rentielle tre`s marque´e d’un seul ge`ne [5]. Cette approche par groupe de ge`nes est inte´ressante et se rapproche du test d’hypothe`se plutoˆt que la fouille de donne´es, dans la mesure ou` l’on peut de´finir a priori quel ensemble de ge`nes on espe`re mobiliser avec le vaccin. L’analyse de ces diffe´rents marqueurs de la re´ponse immunitaire permet donc d’e´tudier l’impact du vaccin sur le syste`me immunitaire. Cependant, une autre question est de savoir quel est l’impact de cette re´ponse immunitaire observe´e

Fig. 2. Sche´ma d’e´tude de l’essai DALIA-1 (Highly Active Antiretroviral Therapy [HAART] – interrompu puis repris si le taux de CD4 est < 350 cellules/mm3).

[(Fig._3)TD$IG]

R. Thie´baut et al. / Revue d’E´pide´miologie et de Sante´ Publique 62 (2014) 1–4

3

Fig. 3. Marqueurs immuno-virologiques mesure´s dans l’essai DALIA-1.

au cours de la vaccination sur la dynamique virale, apre`s interruption des traitements antire´troviraux effectue´e apre`s la vaccination. Ici encore, il ne s’agissait pas de l’objectif principal de l’essai, conc¸u pour e´valuer la tole´rance du vaccin. Autrement dit, les risques d’erreur a` la re´alisation de tests statistiques deviennent importants avec d’une part un manque de puissance statistique pouvant conduire a` tort a` la conclusion d’une absence de diffe´rence, et d’autre part une re´pe´tition des tests pouvant conduire a` tort a` la conclusion de l’existence d’une diffe´rence. Doit-on alors arreˆter les analyses a` ce stade ? Ici, il a e´te´ de´cide´ d’explorer un lien potentiel entre la re´ponse immunologique au vaccin et la dynamique virale en prenant deux pre´cautions. Tout d’abord, une re´union pre´paratoire avant tout rendu de re´sultat a e´te´ re´alise´e pour de´finir quel serait le crite`re virologique d’inte´reˆt principal. En effet, la dynamique virale peut eˆtre e´tudie´e sur plusieurs parame`tres (temps jusqu’a` la mesure de charge virale de´tectable, pente de croissance, valeur maximale observe´e, valeur au plateau. . .). Ensuite, les marqueurs immunologiques primordiaux a` tester, notamment la production de cytokines, ont e´te´ pre´cise´s. Enfin, une premie`re description a e´te´ re´alise´e afin d’observer si les diffe´rences e´taient e´videntes avant toute re´alisation de test statistique. Cette description a e´te´ faite a` l’aide d’une analyse en composante principale construite a` partir des parame`tres immunologiques, puis les marqueurs virologiques ont e´te´ projete´s. Par la suite des tests sur les coefficients de corre´lation de Spearman ont e´te´ re´alise´s et ont re´ve´le´ une association entre le niveau de plusieurs cytokines et la charge virale maximale observe´e, apre`s ajustement sur la multiplicite´ des tests. 2. Quelles lec¸ons tirer de l’arrive´e des « Big data » en recherche clinique ? L’information apporte´e par l’ensemble des donne´es est bien supe´rieure au bruit des nombreuses mesures effectue´es, mais

ne´cessite souvent des me´thodes statistiques sophistique´es, adapte´es, pour les exploiter pleinement. La grande dimension des donne´es implique un important temps de calcul et une syste´matisation de la ve´rification des donne´es et des conditions d’application des me´thodes utilise´es. L’approche multidisciplinaire est fondamentale et obligatoire. Il s’agit d’un travail quotidien de collaborateurs issus d’horizons tre`s diffe´rents mais s’inte´ressant aux autres disciplines. C’est un travail qui demande beaucoup de temps a` tous. Contrairement a` l’approche classique des essais cliniques, cette abondance des donne´es donne les moyens de re´pondre non pas a` une seule, mais a` plusieurs questions. Toutefois, si ceci semble contraire au principe d’une recherche causale base´e sur le test d’une hypothe`se pre´-formule´e, ce n’est pas exactement le cas. En effet, il existe une question principale assez ge´ne´rale qui est, dans l’exemple, « Le vaccin engendre-t-il une re´ponse efficace ? ». Et quand bien meˆme il y a plusieurs questions, il reste important de bien les de´finir et de re´fle´chir aux limites de l’e´tude actuelle pour y re´pondre. On peut alors calculer le nombre de sujets ne´cessaire, y compris pour s’assurer d’une bonne puissance pour tester l’expression diffe´rentielle de centaines de ge`nes. L’analyse de l’ensemble des donne´es beaucoup plus volumineuses qu’auparavant demande plus de temps pour les ge´ne´rer, les organiser et les traiter. Cependant, plutoˆt que de devoir organiser un nouvel essai clinique pour e´valuer un nouveau parame`tre, un plus grand nombre de parame`tres peut eˆtre e´value´ sur le meˆme essai. Le bilan en terme de temps passe´ pour le de´veloppement d’une intervention donne´e n’est donc probablement pas de´ficitaire. Un nouvel essai permettra alors de confirmer les re´sultats du premier, ce qui est d’autant plus important dans ce contexte de multiplicite´ des analyses effectue´es sur une meˆme e´tude.

4

R. Thie´baut et al. / Revue d’E´pide´miologie et de Sante´ Publique 62 (2014) 1–4

De´claration d’inte´reˆts

Re´fe´rences

Les auteurs de´clarent ne pas avoir de conflits d’inte´reˆts en relation avec cet article.

[1] Lagakos SW. The challenge of subgroup analyses–reporting without distorting. N Engl J Med 2006;354:1667–9. [2] Hochberg Y, Benjamini Y. Controlling the false discovery rate: a practical and powerful approach to multiple testing. J R Stat Soc B 1995;57:289–300. [3] Wittkowski KM, Lee E, Nussbaum R, Chamian FN, Krueger JG. Combining several ordinal measures in clinical studies. Stat Med 2004;23: 1579–92. [4] Liquet B, Le Cao KA, Hocini H, Thiebaut R. A novel approach for biomarker selection and the integration of repeated measures experiments from two assays. BMC Bioinformatics 2012;13:325. [5] Subramanian A, Tamayo P, Mootha VK, Mukherjee S, Ebert BL, Gillette MA, et al. Gene set enrichment analysis: a knowledge-based approach for interpreting genome-wide expression profiles. Proc Nat Acad Sci USA 2005;102:15545–50.

Remerciements Cette note a e´te´ e´crite a` la suite de l’e´cole d’e´te´ d’informatique me´dicale de Corte organise´e en juillet 2013 par Marius Fieschi et Jean Chiffe, a` la demande de Franc¸ois Gremy que nous remercions vivement. Laura Richert a be´ne´ficie´ d’une bourse jeune chercheur du SIDACTION et Boris Hejblum d’une bourse de the`se du re´seau des e´coles doctorales de Sante´ Publique anime´ par l’EHESP.

[The analysis of "Big Data" in clinical research].

[The analysis of "Big Data" in clinical research]. - PDF Download Free
569KB Sizes 1 Downloads 0 Views

Recommend Documents


Data management by using R: big data clinical research series.
Electronic medical record (EMR) system has been widely used in clinical practice. Instead of traditional record system by hand writing and recording, the EMR makes big data clinical research feasible. The most important feature of big data research i

Clinical research of traditional Chinese medicine in big data era.
With the advent of big data era, our thinking, technology and methodology are being transformed. Data-intensive scientific discovery based on big data, named "The Fourth Paradigm," has become a new paradigm of scientific research. Along with the deve

Scientific computation of big data in real-world clinical research.
The advent of the big data era creates both opportunities and challenges for traditional Chinese medicine (TCM). This study describes the origin, concept, connotation, and value of studies regarding the scientific computation of TCM. It also discusse

Big data in gastroenterology research.
In epidemiological research, large datasets are essential to reliably capture small variations among comparative groups or detect new unsuspected associations. Although large databases of web-search information, social media, airline traffic and tele

Big data and clinical research: focusing on the area of critical care medicine in mainland China.
Big data has long been found its way into clinical practice since the advent of information technology era. Medical records and follow-up data can be more efficiently stored and extracted with information technology. Immediately after admission a pat