Résumé d'une publication scientifique importante pour les urgentistes

 

Dans un test statistique (statistique inférentielle), la probabilité critique (p-value) est utilisée pour savoir si les résultats d’une expérience se trouvent dans la gamme normale des valeurs pour un événement observé (gamme qui dépend d’une hypothèse particulière appelée hypothèse nulle). Cette valeur est souvent utilisée dans les études biomédicales pour rapporter la significativité statistique des résultats obtenus. Cependant, la p-value est souvent mal interprétée et son utilisation biaisée en faveur des résultats dits significatifs. Une étude récente d’exploration de la littérature biomédicale issue des bases de données MEDLINE et PubMed Central (PMC) a analysé l’évolution de l’utilisation des p-values de 1990 à 2015.

La proportion d’articles rapportant au moins une p-value est en constante augmentation depuis 1990, pour récemment atteindre, dans la littérature sur les essais cliniques randomisés par exemple, 54,8 % des résumés des articles de la base MEDLINE et 75,4 % des articles de la base PMC. Cette augmentation montre que de plus en plus d’études utilisent des analyses statistiques pour orienter leurs conclusions. Cependant, il est important de rappeler que la p-value ne permet pas d’estimer la vraisemblance de l’hypothèse nulle ou la significativité biologique et clinique des résultats (par exemple, avec un échantillon suffisamment grand une différence de 1 mmHg entre deux traitements anti-hypertenseur pourra être statistiquement significative alors que l’intérêt clinique est nul). Les conclusions ne doivent donc pas dépendre uniquement du résultat d’un test statistique mais devraient se faire à la lumière de la description des observations. Or les outils permettant de décrire les données, comme les intervalles de confiance (mesure de l’incertitude) ou les tailles d’effets (mesure de l’intensité d’un évènement) sont peu rapportés : par exemple dans un échantillon aléatoire de résumés d’articles de la base MEDLINE, 2,3 % seulement rapportaient un intervalle de confiance.

L’analyse de la littérature biomédicale a également montré que les p-values étaient rapportées de plus en plus précisément, même si certaines sont toujours représentées par des inégalités (« p-value inférieur à »). Malgré cette précision, la valeur 0,05 est très présente dans la littérature, à cause de son utilisation massive comme valeur seuil dans les tests d’hypothèses. Or la p-value dépend de nombreux paramètres, comme le test utilisé, la taille des échantillons ou le nombre de variables mesurées. De plus, la valeur seuil qui est comparée à cette p-value représente le risque pris lors de la conclusion statistique, et dépendra donc des implications liés à cette conclusion. L’utilisation d’une valeur seuil universelle n’est donc pas adaptée.

Il convient donc, dans le cadre d’études inférentielles en biomédecine, que cliniciens et méthodologistes travaillent ensemble sur :

  • La combinaison des données cliniques et statistiques
  • L’interprétation et la présentation des résultats statistiques
  • Le choix d’un seuil de décision adapté (ou le choix d’absence de seuil de décision ?)

Une pratique adaptée des statistiques inférentielles en biomédecine pourrait limiter une partie des dérives, comme le « p-value hacking » (manipulation de données dans le but d’obtenir une valeur en dessous de 0,05) ou la course à la significativité statistique (parmi les articles rapportant une p-value dans MEDLINE, 96 % contenaient au moins une p-value inférieure à 0,05).

Chavalarias D, Wallach J, Li A, Ioannidis JA. Evolution of Reporting P Values in the Biomedical Literature, 1990-2015. JAMA. 2016;315(11):1141-1148. doi:10.1001/jama.2016.1952.

Claire Morvan