Comment un détective de données expose des essais médicaux suspects



Si John Carlisle avait une chatière, les fraudeurs scientifiques pourraient bien se reposer la nuit. Carlisle se lève régulièrement à 16h30 pour laisser sortir Wizard, l'animal de la famille. Puis, incapable de dormir, il s'empare de son ordinateur portable et commence à taper les données des articles publiés sur les essais cliniques. Avant que le réveil de sa femme ne sonne 90 minutes plus tard, il a généralement réussi à remplir un tableur avec les âges, les poids et les hauteurs de centaines de personnes – dont certaines, a-t-il soupçonné, n'ont jamais existé.

Pendant la journée, Carlisle est anesthésiste et travaille pour le service de santé national d’Angleterre à Torquay. Mais dans ses temps libres, il s’enracine dans le dossier scientifique des données suspectes en recherche clinique. Au cours des dix dernières années, ses recherches ont inclus des essais utilisés pour étudier un large éventail de problèmes de santé, allant des avantages d'un régime alimentaire spécifique aux directives de traitement en milieu hospitalier. Cela a conduit à la rétractation et à la correction de centaines de documents, à la fois pour inconduite et erreurs. Et cela a contribué à mettre fin à la carrière de certains grands imitateurs: sur les six scientifiques du monde qui ont enregistré le plus de rétractations, trois ont été éliminés à l’aide de variantes des analyses de données de Carlisle.

«Sa technique s’est révélée incroyablement utile», déclare Paul Myles, directeur de l’anesthésie et de la médecine périopératoire à l’hôpital Alfred de Melbourne, en Australie, qui a travaillé avec Carlisle à l’examen de documents de recherche contenant des statistiques douteuses. "Il l'a utilisé pour démontrer quelques exemples majeurs de fraude."

La ligne de touche statistique de Carlisle n’est pas populaire auprès de tout le monde. Les critiques soutiennent que cela a parfois conduit à la remise en cause de documents qui ne sont manifestement pas erronés, ce qui a entraîné des suspicions injustifiées.

Mais Carlisle pense qu’il aide à protéger les patients, c’est pourquoi il passe son temps libre à se pencher sur les études des autres. "Je le fais parce que ma curiosité me motive", dit-il, pas à cause d'un zèle insatiable à la découverte d'actes répréhensibles: "Il est important de ne pas devenir un défenseur de la mauvaise conduite."

Conjointement aux travaux d'autres chercheurs qui vérifient avec obstination les travaux universitaires, ses efforts suggèrent que les gardiens de la science – revues et institutions – pourraient faire beaucoup plus pour détecter les erreurs. Dans les essais médicaux, ceux sur lesquels se concentre Carlisle, cela peut être une question de vie ou de mort.

Anesthésistes se conduisent mal

Torquay ressemble à n’importe quelle autre ville anglaise traditionnelle de province, avec de jolies compositions florales sur les ronds-points et juste assez de cottages aux couleurs pastel pour attirer l’attention. Carlisle vit dans la région depuis 18 ans et travaille à l’hôpital général de la ville. Dans une salle d'opération vide, après qu'un patient vient juste d'être cousu et emmené, il explique comment il a commencé à rechercher de fausses données dans la recherche médicale.

Il y a plus de dix ans, Carlisle et d'autres anesthésistes ont commencé à discuter des résultats publiés par un chercheur japonais, Yoshitaka Fujii. Dans une série d’essais contrôlés randomisés (ECR), Fujii, qui travaillait ensuite à l’Université Toho de Tokyo, a affirmé avoir examiné l’impact de divers médicaments sur la prévention des vomissements et des nausées chez les patients après une chirurgie. Mais les données semblaient trop claires pour être vraies. Carlisle, l'un des nombreux intéressés, a décidé de vérifier les chiffres, en utilisant des tests statistiques pour détecter des tendances improbables dans les données. Il a montré en 2012 que, dans de nombreux cas, la probabilité que les tendances soient apparues par hasard était «infiniment petite». Invités en partie par cette analyse, les rédacteurs de revues ont demandé aux universités actuelles et anciennes de Fujii d’enquêter; Fujii a été licencié de l'Université Toho en 2012 et a vu 183 papiers rétractés, un record absolu. Quatre ans plus tard, Carlisle a publié une analyse des résultats d’un autre anesthésiste japonais, Yuhji Saitoh, co-auteur fréquent de Fujii, et a également démontré que ses données étaient extrêmement suspectes. Saitoh a actuellement 53 rétractions.

D'autres chercheurs ont rapidement cité les travaux de Carlisle dans leurs propres analyses, qui utilisaient des variantes de son approche. En 2016, des chercheurs en Nouvelle-Zélande et au Royaume-Uni, par exemple, ont signalé des problèmes dans les articles de Yoshihiro Sato, chercheur en os dans un hôpital du sud du Japon. Cela a finalement conduit à 27 retraits, et 66 articles rédigés par Sato ont été rétractés au total.

L’anesthésie avait été secouée par plusieurs scandales de fraude avant les affaires Fujii et Saitoh, notamment celle de l’anesthésiste allemand Joachim Boldt, qui a vu plus de 90 papiers rachetés. Mais Carlisle commença à se demander si seul son propre domaine était en faute. Il a donc choisi huit revues de premier plan et, travaillant à ses heures perdues, a vérifié des milliers d'essais aléatoires publiés.

En 2017, il a publié une analyse dans la revue Anesthésie déclarant qu'il avait trouvé des données suspectes dans 90 des plus de 5 000 essais publiés sur 16 ans. Depuis, au moins dix de ces articles ont été retirés et six autres corrigés, y compris une étude très médiatisée publiée dans le New England Journal of Medicine (NEJM) sur les bienfaits du régime méditerranéen pour la santé. Dans ce cas, toutefois, il n'y avait aucune suggestion de fraude: les auteurs avaient commis une erreur dans la façon dont ils avaient randomisé les participants. Après que les auteurs ont supprimé les données erronées, le document a été republié avec des conclusions similaires.

Carlisle a continué. Cette année, il a mis en garde contre des dizaines d’anesthésies réalisées par le chirurgien italien Mario Schietroma de l’Université de L’Aquila, dans le centre de l’Italie, affirmant qu’elles ne constituaient pas une base fiable pour la pratique clinique. Myles, qui a travaillé sur le rapport avec Carlisle, avait sonné l'alarme l'année dernière après avoir repéré des similitudes suspectes dans les données brutes relatives aux groupes de contrôle et aux groupes de patients dans cinq des journaux de Schietroma.

Les problèmes posés par les revendications de Schietroma ont eu un impact sur les hôpitaux du monde entier. L’organisation mondiale de la santé (OMS) a cité le travail de Schietroma lorsqu’elle a recommandé en 2016 que les anesthésistes augmentent systématiquement les niveaux d’oxygène qu’ils administrent aux patients pendant et après la chirurgie, afin de réduire les infections. C'était un appel controversé: les anesthésistes savent que dans certaines procédures, trop d'oxygène peut être associé à un risque accru de complications – et les recommandations auraient fait en sorte que les hôpitaux des pays les plus pauvres dépensent une plus grande part de leur budget en oxygène en bouteille onéreux, explique Myles.

Les cinq articles sur lesquels Myles avait mis en garde ont été rapidement retirés et l’OMS a révisé sa recommandation de «forte» à «conditionnelle», ce qui signifie que les cliniciens sont plus libres de faire des choix différents pour différents patients. Schietroma dit que ses calculs ont été évalués par un statisticien indépendant et par des pairs, et qu'il a délibérément sélectionné des groupes similaires de patients. Il n’est donc pas surprenant que les données concordent étroitement. Il a également déclaré avoir perdu des données brutes et des documents liés aux procès après le tremblement de terre survenu à L'Aquila en 2009. Un porte-parole de l'université a déclaré qu'il avait laissé les enquêtes "aux organes d'enquête compétents", sans préciser lesquels. étaient ou si des enquêtes étaient en cours.

Repérer des données non naturelles

L’approche de Carlisle n’est pas nouvelle, dit-il: c’est simplement que les données réelles ont des schémas naturels que des données artificielles ont du mal à reproduire. Ces phénomènes, apparus dans les années 1880, ont été popularisés par l'ingénieur électricien et physicien américain Frank Benford en 1938 et ont depuis été utilisés par de nombreux vérificateurs statistiques. Les politologues, par exemple, utilisent depuis longtemps une approche similaire pour analyser les données d’enquête – une technique qu’ils appellent la méthode de Stouffer d’après le sociologue Samuel Stouffer, qui l’a popularisée dans les années 1950.

Dans le cas des ECR, Carlisle examine les mesures de base décrivant les caractéristiques des groupes de volontaires participant à l’essai, généralement les groupes contrôle et intervention. Celles-ci incluent la taille, le poids et les caractéristiques physiologiques pertinentes, généralement décrites dans le premier tableau d'un document.

Dans un véritable ECR, les volontaires sont affectés au hasard au groupe de contrôle ou au (un ou plusieurs) groupe d’intervention. En conséquence, la moyenne et l'écart type de chaque caractéristique devraient être à peu près identiques, mais pas trop identiques. Ce serait étrangement parfait.

Carlisle construit d'abord un P valeur pour chaque paire: mesure statistique de la probabilité des points de données de base déclarés si l'on suppose que les volontaires ont en fait été répartis de manière aléatoire dans chaque groupe. Il regroupe alors tous ces P valeurs pour avoir une idée de la façon dont les mesures sont aléatoires. Un combiné P une valeur qui semble trop élevée suggère que les données sont étrangement bien équilibrées; trop bas et cela pourrait montrer que les patients ont été randomisés de manière incorrecte.

La méthode n’est pas infaillible. Les contrôles statistiques exigent que les variables du tableau soient réellement indépendantes, alors qu’en réalité elles ne le sont pas souvent. (La taille et le poids sont liés, par exemple.) En pratique, cela signifie que certains papiers marqués comme incorrects ne le sont pas en réalité – et pour cette raison, certains statisticiens ont critiqué le travail de Carlisle.

Mais Carlisle dit que l’application de sa méthode est une bonne première étape et peut permettre de mettre en évidence des études qui mériteraient d’être examinées de plus près, telles que la demande des données individuelles des patients derrière le papier.

«Cela peut mettre en place un drapeau rouge. Ou un drapeau orange, ou cinq ou dix drapeaux rouges indiquant qu'il est très peu probable que ce soit des données réelles », déclare Myles.

Erreurs contre mécréants

Carlisle dit qu'il fait attention à ne pas attribuer une cause aux problèmes possibles qu'il identifie. Cependant, en 2017, lorsque l'analyse de 5 000 procès de Carlisle a été publiée Anesthésie – dont il est l'éditeur – un éditorial d'accompagnement des anesthésistes John Loadsman et Tim McCulloch de l'Université de Sydney en Australie a adopté une ligne plus provocante.

Il a parlé des «auteurs malhonnêtes» et des «scélérats» et a suggéré que «plus d'auteurs d'auteurs d'ECR déjà publiés finiront par se faire taper sur les épaules». Il a également déclaré: "Un argument solide pourrait être avancé pour que toutes les revues dans le monde doivent maintenant appliquer la méthode de Carlisle à tous les ECR qu'elles ont jamais publiés."

Cela a provoqué une réponse très ferme de la part des rédacteurs en chef d’un journal, Anesthésiologie, qui avait publié 12 des articles soulignés par Carlisle comme étant problématiques. «L’article de Carlisle est éthiquement douteux et nuisible aux auteurs des articles précédemment publiés qui y sont appelés», a écrit le rédacteur en chef du journal, Evan Kharasch, anesthésiste à la Duke University de Durham, en Caroline du Nord. Son éditorial, coécrit avec Timothy Houle, anesthésiste, au Massachusetts General Hospital de Boston, consultant en statistiques pour Anesthésiologie, a mis en évidence des problèmes tels que le fait que la méthode puisse signaler des faux positifs. «Une méthode valable pour détecter la fabrication et la falsification (assimilable à un logiciel de contrôle du plagiat) serait la bienvenue. La méthode Carlisle n’est pas telle », écrivent-ils dans une correspondance à Anesthésie.

En mai, Anesthésiologie corrigea un des papiers que Carlisle avait mis en évidence, notant qu'il avait rapporté «systématiquement inexact» Pvaleurs dans deux tableaux et que les auteurs avaient perdu les données originales et ne pouvaient pas recalculer les valeurs. Kharasch, cependant, dit qu'il maintient son point de vue dans l'éditorial. Carlisle a déclaré que l’éditorial de Loadsman et McCulloch était «raisonnable» et que les critiques de son travail ne minent pas sa valeur. "Je suis à l'aise de penser que l'effort en vaut la peine alors que d'autres ne le pourraient pas", dit-il.

Les vérificateurs de données

Carlisle n’est pas la seule méthode apparue ces dernières années pour la double vérification des données publiées.

Michèle Nuijten, qui étudie les méthodes analytiques à l'Université de Tilburg aux Pays-Bas, a développé ce qu'elle appelle un «correcteur orthographique de statistiques» qui permet de parcourir les articles de journaux pour vérifier la cohérence interne des statistiques décrites. Appelé statcheck, il vérifie, par exemple, que les données reportées dans la section des résultats concordent avec les valeurs calculées. P valeurs. Il a été utilisé pour signaler des erreurs, généralement des fautes de frappe numériques, dans des articles de revues datant de plusieurs décennies.

Nick Brown, étudiant diplômé en psychologie à l'Université de Groningue, également aux Pays-Bas, et James Heathers, qui étudie les méthodes scientifiques à la Northeastern University de Boston, au Massachusetts, ont utilisé un programme appelé GRIM pour vérifier le calcul des statistiques signifie, comme un autre moyen de signaler les données suspectes.

Aucune de ces techniques ne fonctionnerait avec des articles décrivant les ECR, telles que les études évaluées par Carlisle. Statcheck fonctionne sur le format de présentation de données strict utilisé par l'American Psychological Association. GRIM ne fonctionne que lorsque les données sont des entiers, tels que les nombres discrets générés dans les questionnaires de psychologie, lorsqu'une valeur est notée de 1 à 5.

John Ioannidis, de l’Université de Stanford en Californie, s'intéresse de plus en plus à ces types de contrôles et étudie les méthodes scientifiques et plaide pour un meilleur usage des statistiques afin d’améliorer la reproductibilité scientifique. "Ce sont des outils merveilleux et très ingénieux." Mais il met en garde sur le fait de tirer des conclusions hâtives sur la raison des problèmes trouvés. «C’est un paysage complètement différent si nous parlons de fraude et de faute de frappe», dit-il.

Brown, Nuijten et Carlisle s'accordent à dire que leurs outils ne peuvent que mettre en évidence des problèmes qui nécessitent une enquête. «Je ne veux vraiment pas associer statcheck à la fraude», déclare Nuijten. Selon M. Ioannidis, la véritable valeur de ces outils sera d'analyser les documents avant leur publication afin de détecter les données problématiques, et d'éviter ainsi que des fraudes ou des erreurs ne parviennent à la littérature.

Carlisle dit qu'un nombre croissant d'éditeurs de journaux l'ont contacté pour utiliser sa technique de cette manière. Actuellement, la plupart de ces efforts sont effectués de manière non officielle sur une base ad hoc et uniquement lorsque les éditeurs sont déjà méfiants.

Au moins deux revues ont poussé plus loin les choses et utilisent maintenant les contrôles statistiques dans le cadre du processus de publication de tous les articles. Le propre journal de Carlisle, Anesthésie, l’utilise régulièrement, comme le font les éditeurs du NEJM. "Nous cherchons à prévenir un événement négatif rare, mais potentiellement impactant", un porte-parole de la NEJM dit. "Cela vaut le temps et les dépenses supplémentaires."

Carlisle se dit très impressionné par le fait qu'un journal ayant le statut de NEJM a introduit ces contrôles, dont il sait de première main qu’ils sont laborieux, prennent beaucoup de temps et ne sont pas universellement populaires. Mais il faudrait une automatisation pour les présenter à l’échelle requise pour contrôler même une fraction des quelque deux millions de documents publiés dans le monde chaque année, a-t-il déclaré. Il pense que cela pourrait être fait. Statcheck fonctionne de cette manière et est couramment utilisé par plusieurs revues de psychologie pour examiner les soumissions, dit Nuijten. Et les techniques d’extraction de texte ont permis aux chercheurs d’évaluer, par exemple, P valeurs dans des milliers d'articles comme moyen d'enquêter P-hacking – dans lequel les données sont peaufinées pour produire des P valeurs.

Un problème, selon plusieurs chercheurs dans le domaine, est que les bailleurs de fonds, les revues et de nombreux membres de la communauté scientifique accordent une priorité relativement basse à ces contrôles. «Ce n'est pas un travail très gratifiant à faire», déclare Nuijten. "C’est vous qui essayez de trouver des failles dans le travail des autres, et ce n’est pas quelque chose qui vous rendra très populaire."

Même le fait de conclure qu'une étude est frauduleuse ne résout pas toujours le problème. En 2012, des chercheurs en Corée du Sud ont soumis à Anesthésie et Analgésieun compte rendu d'un essai clinique sur la manière dont le tonus musculaire facial pourrait indiquer le meilleur moment pour insérer des tubes respiratoires dans la gorge. Invité, officieusement, à jeter un coup d'œil, Carlisle trouva des divergences entre les données patient et les données récapitulatives, et le document fut rejeté.

Remarquablement, il a ensuite été soumis au journal de Carlisle avec différentes données de patients, mais Carlisle a reconnu le document. Il a de nouveau été rejeté et les éditeurs des deux revues ont contacté les auteurs et leurs institutions avec leurs préoccupations. À l’étonnement de Carlisle, quelques mois plus tard, le document – inchangé par rapport à la version précédente – a été publié dans la Journal européen d'anesthésiologie. Après que Carlisle ait partagé l’histoire douteuse du journal avec l’éditeur de la revue, celle-ci s’est rétractée en 2017 en raison «d’irrégularités dans leurs données, y compris de fausses déclarations des résultats».

Après avoir constaté de nombreux cas de fraude, ainsi que des fautes de frappe et des fautes de frappe, Carlisle a développé sa propre théorie sur ce qui pousse certains chercheurs à créer leurs données. «Ils pensent que le hasard a eu un impact sur la vérité, sur la manière dont ils savent que l’Univers fonctionne vraiment», dit-il. "Donc, ils changent le résultat en ce qu'ils pensent qu'il aurait dû être."

Comme Carlisle l'a montré, il faut un vérificateur de données déterminé pour détecter la supercherie.

Cet article est reproduit avec autorisation et a été publié le 23 juillet 2019.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *