Je vais essayer de faire un petit peu de vulgarisation sur la difficulté d'interpréter causalement des statistiques de corrélation avec un exemple inventé tout simple. On cherche à savoir si les baguettes magiques étaient mieux avant. •1/19
Pour ça, on a fait des statistiques sur 100 bagues selon trois dimensions:
⁃ l'âge: la baguette est ancienne (A) ou récente (R);
⁃ la complexité: la baguette est simple (S) ou complexe (C);
⁃ si elle fonctionne bien (B) ou mal (M).
Ceci fait donc 2×2×2=8 possibilités. •2/19
Voici les statistiques qu'on a obtenues, sur un échantillon de 100 baguettes tirées au hasard:
⁃ ASM: 10
⁃ ACB: 30
⁃ ACM: 10
⁃ RSB: 10
⁃ RSM: 30
⁃ RCB: 10
(les deux autres possibilités, ASB et RCM, ne sont pas représentées). •3/19
Au vu de ces chiffres, diriez-vous que les baguettes anciennes (A) fonctionnent mieux que les récentes (R)? L'analyse la plus évidente est de se dire qu'il y a 50 baguettes A et 50 R, que sur les 50 A on a 30 qui fonctionnent bien (B), contre 20 pour les R. Donc oui! •4/19
Maintenant, cette analyse ignore complètement le fait qu'il y a des baguettes simples (S) et complexes (C). Or manifestement les baguettes complexes fonctionnent beaucoup mieux que les simples (40 CB sur 50 C contre 10 SB sur 50 S)! •5/19
Donc en fait on peut soupçonner que les baguettes anciennes (A) fonctionnent mieux que les récentes (R) parce qu'elles sont plus souvent complexes (40 AC sur 50 A contre 10 RC sur 10 R). •6/19
Or si on regarde dans chacune des catégories «simple (S)» et «complexe (C)», les baguettes récentes (R) fonctionnent mieux que les anciennes (A). Donc dans chaque catégorie on arrive à la conclusion opposée qu'en agrégeant les données (comme au tweet 4). •7/19
Ce phénomène s'appelle le «paradoxe de Simpson». Maintenant, quelle est la bonne lecture des données? À la vue des statistiques ci-dessus, faut-il dire que les baguettes anciennes fonctionnent mieux que les récentes ou le contraire? Eh bien… ça dépend! •8/19
Manifestement, les baguettes anciennes sont plus souvent complexes que les récentes, or les baguettes complexes marchent beaucoup mieux que les simples. Maintenant, la question qui se pose est: sont-elles complexes parce qu'anciennes, ou le contraire? •9/19
Et ça, mes données ne le disent pas du tout. Une lecture possible: «on a toujours fabriqué environ 80% de baguettes simples (S) et 20% de complexes (C), mais parmi les anciennes (A), la grande majorité des S a été perdues, de toute façon elles marchaient toujours mal … •10/19
… alors que les complexes, elles, on les a toujours gardées; il faut donc faire des statistiques pour S et C séparément, et on voit que les baguettes récentes (R) marchent mieux!» On dit alors que la complexité est une variable «confondante», … •11/19
… et il est alors logique de chercher à corriger ce facteur confondant dans le phénomène qu'on cherche à mesurer. •12/19
Mais une autre lecture possible est: «les baguettes anciennes sont (et étaient dès l'origine) plus souvent complexes (C) que simples (S), et c'est JUSTEMENT pour cette raison qu'elles sont meilleures». Chercher à «corriger» le biais rendrait l'analyse aberrante: … •13/19
… certes, on a un petit peu fait des progrès dans chaque catégorie de baguettes, mais globalement les baguettes récentes marchent moins bien que les anciennes parce qu'elles sont plus souvent simples. On parle alors de variables en collision. •14/19
Et la morale de l'histoire, c'est surtout qu'il n'y a pas une «bonne» analyse: l'interprétation «correcte» dépend de notre compréhension d'un lien causal, qui n'est lui-même pas déductible des données, et qui n'a même pas forcément de sens évident. •15/19
Une autre façon de le dire, c'est que quand on dit «X est plus Truc que Y», on sous-entend implicitement que certaines choses restent constantes: ce sont les variables «contrôlées». Mais le choix de ces variables contrôlées modifie énormément le sens de la phrase. •16/19
Ici j'ai choisi un exemple simplissime où les variables sont discrètes (booléennes: oui/non — marche bien on mal, ancien ou récent, simple ou complexe), mais évidemment les mêmes phénomènes se produisent avec des variables continues, juste plus difficiles à illustrer. •17/19
On se doute bien que quand on a affaire à des phénomènes complexes où les liens causaux ne sont pas du tout clairs, où les données sont en plus bruitées, cela rend immensément difficile de répondre à des questions du type «est-ce que X améliore Y?». •18/19
C'est aussi là l'intérêt de mener des études randomisées plutôt qu'observationnelles: si on peut imposer la valeur de certaines variables, en tirant au hasard, on évite de subir des corrélations dont on ignorera le lien causal et qu'on ne saura pas s'il faut corriger. •19/19
You can follow @gro_tsen.
Tip: mention @twtextapp on a Twitter thread with the keyword “unroll” to get a link to it.

Latest Threads Unrolled:

By continuing to use the site, you are consenting to the use of cookies as explained in our Cookie Policy to improve your experience.