Un petit thread sur les stats "à la Perronne" et les erreurs à ne pas commettre en stats. Parce que j'ai vu passer plusieurs fois un argument qui repose sur une erreur courante (car intuitive).
On est tous d'accord pour dire que si on interprète les propos de Perronne en termes de "puissance statistique" (au sens technique du terme : la probabilité qu'a notre test de détecter un effet d'une taille donnée), ce qu'il dit est naze. La puissance augmente avec l'échantillon.
Mais d'autres ont (à mon avis à raison) proposé une autre interprétation des propos de notre statisticien national : si un effet apparaît dans un petit échantillon, alors il a de grandes chances d'être théoriquement/pratiquement important (= avoir une grande taille d'effet).
Mais ça ne marche pas comme ça, ce qui est vrai, c'est qu'un effet qui a une grande taille a plus de chances qu'un effet faible de sortir significatif quand l'échantillon est faible. Autrement dit : p(effet significatif dans petit échantillon/effet est fort) est forte.
Mais ce qui dit Perronne, ce n'est pas la même chose : ce qu'il dit c'est que p(effet est fort/effet significatif dans petit échantillon) est forte. Il confond donc p(A/B) et p(B/A).
Par exemple, la probabilité que je sois mouillé sachant que je me baigne dans du lait d’ânesse est forte, mais ça ne veut pas dire que la probabilité que je sois en train de me baigner dans du lait d'ânesse étant donné que je suis mouillé est forte (elle est très faible).
Prenons un exemple : imaginons que la population soit divisée en trois tailles : grande, moyenne , petite. Et que j'ai un test imparfait qui me permet de déterminer si quelqu'un est grand.
Si la personne est grande, il se déclenche dans 100% des cas. Si la personne est moyenne, dans 40% des cas, et si la personne est petite, dans 20% des cas.
p(test significatif/personne testée est grande) est donc élevée. Mais qu'en est-il de p(personne testée est grande/test significatif) ? Est-elle du coup nécessairement forte ?
En fait, pas forcément. Imaginons que les tailles ne sont pas également réparties. Que sur 100 personnes, 10 soit grandes, 60 moyennes et 30 petites. Et imaginons que je teste ces 100 personnes avec mon test.
Au final, le test se déclenchera pour 1*10 = 10 personnes grandes, 0.4*60 = 24 personnes moyennes et 0.2*30 = 6 personnes petites. Il se sera déclenché en tout 40 fois.
En tout, ça veut dire que sur 40 personnes qui auront déclenché le test, seules 10 seront effectivement grandes. En fait, p(personne taille moyenne/test déclenché) > p(personne taille grande/test déclenché).
Pour une illustration célèbre de ce problème, allez voir le "taxicab problem" : https://en.wikipedia.org/wiki/Representativeness_heuristic#:~:text=The%20taxicab%20problem,and%20run%20accident%20at%20night.&text=There%20is%20a%2017%25%20chance,a%20green%20cab%20as%20blue.
C'est pareil pour le cas des essais randomisés : ce n'est pas parce qu'un effet fort a plus de chances d'apparaître dans un petit échantillon qu'un effet qui apparaît dans un échantillon a de fortes chances d'être fort.
Surtout si l'on suppose que la plupart des médicaments ont des effets faibles (ou nuls) et que seuls une poignée d'entre eux ont un effet réellement intéressant. (C'est comme les moyens et les petits dans mon exemple).
Du coup, non, ce n'est pas parce qu'un effet sort dans un petit échantillon qu'il a de bonnes chances d'être fort ou thérapeutiquement intéressant.
Par contre, un petit échantillon, parce qu'il conduit à une moins bonne estimation de la taille de l'effet, a plus de chance de détecter comme "important" un effet qui est en fait très faible (voire inexistant).
Ces dernières années, il y au beaucoup de recherches sur ce qui empêchent les études de pouvoir être répliquées dans divers domaines, et les faibles tailles d'échantillon sont un facteur souvent pointé du doigt.
Et c'est sans compter que les petits échantillons favorisent la multiplication de petites études avec beaucoup de bruits, et donc la prolifération de faux positifs (surtout quand elles sont couplées avec d'autres pratiques douteuses : comme le fait de s'arrêter quand on veut).
Donc voilà : non, les petits échantillons ne présentent pas d'avantage statistique, et ce n'est pas parce que un effet est significatif dans un petit échantillon qu'il a de bonnes chances d'être important.
Notez cependant que je ne suis pas spécialiste en statistiques, alors si un statisticien voit des choses à corriger, qu'il n'hésite pas.
PS : Au passage, je précise que c'est le même genre d'erreur qui parasite l'interprétation des p-values. On entend souvent que p < .05 veut dire "qu'il y a moins de 5% de chances que ces résultats soient dus au hasard".
Ce qui s'interpreterait comme p(résultats dus au hasard/résultats observés sont aussi extrêmes) < .05
Alors qu'en fait, ce que ça veut dire c'est : p(résultats observés aussi extrêmes/résultats dus au hasard) < .05.
Ce qui peut avoir l'air d'être la même chose, mais est en fait très différent (là encore, p(A/B) n'est pas p(B/A)).
Ce qui peut avoir l'air d'être la même chose, mais est en fait très différent (là encore, p(A/B) n'est pas p(B/A)).