Ce sujet fait l'objet de nombreuses réflexions (voir par exemple le billet que lui a consacré A. Charpentier sur son blog), mais aussi de nombreuses et récurrentes erreurs dans les modèles ; c'est pourquoi nous apportons ici une contribution supplémentaire.
1-Que mesure le coefficient de corrélation ?
Le coefficient de corrélation linéaire (introduit par K. Pearson en 1896) a pour objectif de quantifier le degré de dépendance entre deux variables. La pertinence de cette mesure a très vite été contestée (notamment par M. Fréchet en 1934) et il s'est avéré que le coefficient de corrélation n'est pas au sens mathématique du terme une mesure de dépendance. Il suffit pour s'en convaincre de considérer une variable symétrique X et Y=X^2. Y est évidemment extrêmement dépendante de X, puisque la connaissance de X détermine Y, mais pourtant r(X,Y)=0. D'autres mesures mathématiquement rigoureuses de la dépendance ont depuis été introduites (le t de Kendall et le r de Spearmann étant les plus connues). Le coefficient de corrélation linéaire ne mesure la dépendance que dans le cas très particulier de vecteurs gaussiens.
Au global, on peut conclure que la référence au taux de corrélation pour mesurer l'intensité de la dépendance entre variables aléatoires est très contestable et que l'usage de cette mesure conduit à des erreurs d'interprétation récurrentes.
2- Dépendance et causalité
Une fois mesurée l'intensité de la dépendance entre deux variables, une autre question est de savoir s'il existe un lien de causalité entre ces variables. Si l'existence d'un lien de causalité induit la dépendance entre les 2 variables, la réciproque n'est pas vraie.
Ainsi les 3 situations ci-dessous (reprises de MOORE et McCABE [2001]) représentant différents liens de causalité (matérialisés par les flèches) peuvent conduire à une mesure de dépendance identique :
Une autre manière de se convaincre que la mesure d'une dépendance ne permet en aucun cas de conclure à un lien de causalité est de remarquer que les mesures de dépendance sont symétriques, mais pas les liens de causalité, qui ont évidemment un sens.
3- En conclusion
Déduire de l'existence d'une corrélation entre deux séries de données une relation de causalité entre les deux variables constitue une erreur de raisonnement : l'existence de la corrélation implique simplement que les deux variables ne sont pas indépendantes, mais ne renseigne en rien sur un éventuel lien de causalité. On sait d'ailleurs depuis les travaux de K. Popper sur la connaissance que celle-ci étant un processus hypothético-déductif, l'observation des seuls faits ne permet pas de faire des prédictions.
Références :
FRECHET M. [1934], « Sur l’usage du soi-disant coefficient de corrélation », Rapport pour la 22e session de l’IIS à Londres, Bulletin de l’IIS.
MOORE D.S., McCABE G.P. [2001] Introduction to the Practice of Statistics, W.H. Freeman & Company, New York, 3ème édition, page 208