Le paradoxe de Simpson ou effet de Yule-Simpson est un paradoxe statistique décrit par Edward Simpson en 1951 et George Udny Yule en 1903, dans lequel un phénomène observé de plusieurs groupes semble s’inverser lorsque les groupes sont combinés. Ce résultat qui semble impossible au premier abord est lié à des éléments qui ne sont pas pris en compte (comme la présence de variables non indépendantes ou de différences d’effectifs entre les groupes, etc.) est souvent rencontré dans la réalité, en particulier dans les sciences sociales et les statistiques médicales. voir Wikipédia
Ici nous allons tenter de comprendre ce phénomène en explorons les données Iris inclu dans R. Nous travaillerons donc avec 3 espèces d’iris (Setosa, Versicolor et Virginica) Chaque fleur aura pour traits ou encore features 4 éléments:
- la longueur des pétales
- la largeur des pétales
- la longueur des sépales
- la largeur des sépales
Import de la librairie Tidyverse regroupant d’autres modules
# Import de la librairie Tidyverse
library(tidyverse)
Chargeons les données Iris inclus dans R
data(iris)
# Affichons les données
print(iris)
Corrélation des espèces
correlation <- cor(iris[-5])
correlation
Sepal.Length Sepal.Width Petal.Length Petal.Width
Sepal.Length 1.0000000 -0.1175698 0.8717538 0.8179411
Sepal.Width -0.1175698 1.0000000 -0.4284401 -0.3661259
Petal.Length 0.8717538 -0.4284401 1.0000000 0.9628654
Petal.Width 0.8179411 -0.3661259 0.9628654 1.0000000
conclusion: Nous pouvons voir des corrélations négatives par exemple entre : - La largeur des sépales et la longueur des sépales - La largeur des sépales et la longueur des pétales - La largeur des sépales et la largeur des pétales - etc…
Affichons la corrélation entre la longueur des pétales et la largeur des sépales (toutes espèces confondus)
iris %>% ggplot(aes( Sepal.Width, Petal.Length)) + geom_point(color = "red") + ggtitle(" Corrélation entre la longeur des pétales et la largeur des sépales (toutes espèces)") + theme_minimal() + geom_smooth(method = "lm")

Conclusion: De ce qui précède, on peut voir que on étudiant la corrélation entre la longueur des pétales et la largeur des sépales, sans bien sûre séparer les espèces( Ce qui est très important à notifier), on peut observer deux (2) clusters de données qui engendre des corrélations négatives cités un peu plus haut.
Question: Aurons nous les mêmes résultats négatives si on étudie la corrélation de chaque espèce séparément!? voyons cela
Corrélation pour chaque espèce
# Récupérons la liste de chaque espèce
liste_especes = unique(iris$Species)
# affichons les coorélations
for( espece in liste_especes){
dataframe <- iris %>% filter(Species == espece)
message(espece)
print(cor(dataframe[-5]))
}
setosa
Sepal.Length Sepal.Width Petal.Length Petal.Width
Sepal.Length 1.0000000 0.7425467 0.2671758 0.2780984
Sepal.Width 0.7425467 1.0000000 0.1777000 0.2327520
Petal.Length 0.2671758 0.1777000 1.0000000 0.3316300
Petal.Width 0.2780984 0.2327520 0.3316300 1.0000000
versicolor
Sepal.Length Sepal.Width Petal.Length Petal.Width
Sepal.Length 1.0000000 0.5259107 0.7540490 0.5464611
Sepal.Width 0.5259107 1.0000000 0.5605221 0.6639987
Petal.Length 0.7540490 0.5605221 1.0000000 0.7866681
Petal.Width 0.5464611 0.6639987 0.7866681 1.0000000
virginica
Sepal.Length Sepal.Width Petal.Length Petal.Width
Sepal.Length 1.0000000 0.4572278 0.8642247 0.2811077
Sepal.Width 0.4572278 1.0000000 0.4010446 0.5377280
Petal.Length 0.8642247 0.4010446 1.0000000 0.3221082
Petal.Width 0.2811077 0.5377280 0.3221082 1.0000000
Conclusion : D’après notre seconde analyse, on peut voir que nos corrélations négatives sont passées positives. (Voyons quelque graph pour plus de détails)
Corrélations en séparant toutes les espèces
iris %>% ggplot(aes( Sepal.Width, Petal.Length, colour = Species)) + geom_point() + ggtitle("Corrélation entre la longeur des pétales et la largeur des sépales (chaque espèce)") + theme_minimal() + geom_smooth(method = "lm")

Conclusion: Ici on peut se rendre compte qu’il y’a enfait 3 clusters et qu’il y’a une forte corrélation entre deux espèces: Versicolor et Virginica. Il nous était impossible de le voir si on ne prenait pas en compte l’importance de la variable Species! D’où le fait de faire très attention lors de nos analyses. Il y’a bien des coorélations.
Analysons cette corrélation de plus près en regroupant ces deux espèces qui semblent corrélés. Obtiendra t-on quelque chose?
iris %>% mutate(regroupement = ifelse(Species %in% c("virginica","versicolor"), 'virginica et versicolor', 'setosa')) %>%
ggplot(aes(Sepal.Width, Petal.Length, color = regroupement)) + geom_point() +
ggtitle("Corrélation par regroupement") + geom_smooth(method = 'lm')

Conclusion: On peut nettement voir que nous avons un model linéaire pour notre regroupement entre l’iris Virginica et l’iris Versicolor. le cluster du haut était bien significatif, mais celui du Sétosa qui était en bas et très éloigné de la population d’en haut était très faible.
Conclusion finale:
On peut conclure au final que, Nous devons bien segmenter nos analyses avant de tirer des conclusions hâtives et cela passe par la compréhension besoin, du business, de notre target, donc de l’insight à faire ressortir! D’où le paradoxe de Simpson.
LS0tDQp0aXRsZTogIkxlIHBhcmFkb3hlIGRlIFNpbXBzb24gKElyaXMgY2FzZSkiDQpvdXRwdXQ6IGh0bWxfbm90ZWJvb2sNCi0tLQ0KDQpMZSBwYXJhZG94ZSBkZSBTaW1wc29uIG91IGVmZmV0IGRlIFl1bGUtU2ltcHNvbiBlc3QgdW4gcGFyYWRveGUgc3RhdGlzdGlxdWUgZMOpY3JpdCBwYXIgRWR3YXJkIFNpbXBzb24gZW4gMTk1MSBldCBHZW9yZ2UgVWRueSBZdWxlIGVuIDE5MDMsIGRhbnMgbGVxdWVsIHVuIHBow6lub23DqG5lIG9ic2VydsOpIGRlIHBsdXNpZXVycyBncm91cGVzIHNlbWJsZSBzJ2ludmVyc2VyIGxvcnNxdWUgbGVzIGdyb3VwZXMgc29udCBjb21iaW7DqXMuIENlIHLDqXN1bHRhdCBxdWkgc2VtYmxlIGltcG9zc2libGUgYXUgcHJlbWllciBhYm9yZCBlc3QgbGnDqSDDoCBkZXMgw6lsw6ltZW50cyBxdWkgbmUgc29udCBwYXMgcHJpcyBlbiBjb21wdGUgKGNvbW1lIGxhIHByw6lzZW5jZSBkZSB2YXJpYWJsZXMgbm9uIGluZMOpcGVuZGFudGVzIG91IGRlIGRpZmbDqXJlbmNlcyBkJ2VmZmVjdGlmcyBlbnRyZSBsZXMgZ3JvdXBlcywgZXRjLikgZXN0IHNvdXZlbnQgcmVuY29udHLDqSBkYW5zIGxhIHLDqWFsaXTDqSwgZW4gcGFydGljdWxpZXIgZGFucyBsZXMgc2NpZW5jZXMgc29jaWFsZXMgZXQgbGVzIHN0YXRpc3RpcXVlcyBtw6lkaWNhbGVzLiB2b2lyDQpbV2lraXDDqWRpYV0oaHR0cHM6Ly9mci53aWtpcGVkaWEub3JnL3dpa2kvUGFyYWRveGVfZGVfU2ltcHNvbikgDQoNCg0KSWNpIG5vdXMgYWxsb25zIHRlbnRlciBkZSBjb21wcmVuZHJlIGNlIHBow6lub23DqG5lIGVuIGV4cGxvcm9ucyBsZXMgZG9ubsOpZXMgSXJpcyBpbmNsdSBkYW5zIFIuDQpOb3VzIHRyYXZhaWxsZXJvbnMgZG9uYyBhdmVjIDMgZXNww6hjZXMgZCdpcmlzIChTZXRvc2EsIFZlcnNpY29sb3IgZXQgVmlyZ2luaWNhKQ0KQ2hhcXVlIGZsZXVyIGF1cmEgcG91ciB0cmFpdHMgb3UgZW5jb3JlIGZlYXR1cmVzIDQgw6lsw6ltZW50czoNCjxicj4NCi0gbGEgbG9uZ3VldXIgZGVzIHDDqXRhbGVzDQo8YnI+DQotIGxhIGxhcmdldXIgZGVzIHDDqXRhbGVzDQo8YnI+DQotIGxhIGxvbmd1ZXVyIGRlcyBzw6lwYWxlcw0KPGJyPg0KLSBsYSBsYXJnZXVyIGRlcyBzw6lwYWxlcw0KDQojIEltcG9ydCBkZSBsYSBsaWJyYWlyaWUgVGlkeXZlcnNlIHJlZ3JvdXBhbnQgZCdhdXRyZXMgbW9kdWxlcw0KYGBge3J9DQojIEltcG9ydCBkZSBsYSBsaWJyYWlyaWUgVGlkeXZlcnNlDQpsaWJyYXJ5KHRpZHl2ZXJzZSkNCmBgYA0KDQojIENoYXJnZW9ucyBsZXMgZG9ubsOpZXMgSXJpcyBpbmNsdXMgZGFucyBSDQpgYGB7cn0NCmRhdGEoaXJpcykNCg0KIyBBZmZpY2hvbnMgbGVzIGRvbm7DqWVzDQpwcmludChpcmlzKQ0KYGBgDQoNCg0KIyBDb3Jyw6lsYXRpb24gZGVzIGVzcMOoY2VzDQpgYGB7cn0NCmNvcnJlbGF0aW9uIDwtIGNvcihpcmlzWy01XSkNCmNvcnJlbGF0aW9uDQpgYGANCg0KDQpjb25jbHVzaW9uOiBOb3VzIHBvdXZvbnMgdm9pciBkZXMgY29ycsOpbGF0aW9ucyBuw6lnYXRpdmVzIHBhciBleGVtcGxlIGVudHJlIDogDQotIExhIGxhcmdldXIgZGVzIHPDqXBhbGVzIGV0IGxhIGxvbmd1ZXVyIGRlcyBzw6lwYWxlcw0KLSBMYSBsYXJnZXVyIGRlcyBzw6lwYWxlcyBldCBsYSBsb25ndWV1ciBkZXMgcMOpdGFsZXMNCi0gTGEgbGFyZ2V1ciBkZXMgc8OpcGFsZXMgZXQgbGEgbGFyZ2V1ciBkZXMgcMOpdGFsZXMNCi0gZXRjLi4uDQoNCiMgQWZmaWNob25zIGxhIGNvcnLDqWxhdGlvbiBlbnRyZSBsYSBsb25ndWV1ciBkZXMgcMOpdGFsZXMgZXQgbGEgbGFyZ2V1ciBkZXMgc8OpcGFsZXMgKHRvdXRlcyBlc3DDqGNlcyBjb25mb25kdXMpDQpgYGB7cn0NCmlyaXMgJT4lIGdncGxvdChhZXMoIFNlcGFsLldpZHRoLCBQZXRhbC5MZW5ndGgpKSArIGdlb21fcG9pbnQoY29sb3IgPSAicmVkIikgKyBnZ3RpdGxlKCIgQ29ycsOpbGF0aW9uIGVudHJlIGxhIGxvbmdldXIgZGVzIHDDqXRhbGVzIGV0IGxhIGxhcmdldXIgZGVzIHPDqXBhbGVzICh0b3V0ZXMgZXNww6hjZXMpIikgKyB0aGVtZV9taW5pbWFsKCkgKyBnZW9tX3Ntb290aChtZXRob2QgPSAibG0iKQ0KYGBgDQoNCkNvbmNsdXNpb246IERlIGNlIHF1aSBwcsOpY8OoZGUsIG9uIHBldXQgdm9pciBxdWUgb24gw6l0dWRpYW50IGxhIGNvcnLDqWxhdGlvbiBlbnRyZSBsYSBsb25ndWV1ciBkZXMgcMOpdGFsZXMgZXQgbGEgbGFyZ2V1ciBkZXMgc8OpcGFsZXMsIHNhbnMgYmllbiBzw7tyZSBzw6lwYXJlciBsZXMgZXNww6hjZXMoIENlIHF1aSBlc3QgdHLDqHMgaW1wb3J0YW50IMOgIG5vdGlmaWVyKSwgb24gcGV1dCBvYnNlcnZlciBkZXV4ICgyKSBjbHVzdGVycyBkZSBkb25uw6llcyBxdWkgZW5nZW5kcmUgZGVzIGNvcnLDqWxhdGlvbnMgbsOpZ2F0aXZlcyBjaXTDqXMgdW4gcGV1IHBsdXMgaGF1dC4NCg0KUXVlc3Rpb246IEF1cm9ucyBub3VzIGxlcyBtw6ptZXMgcsOpc3VsdGF0cyBuw6lnYXRpdmVzIHNpIG9uIMOpdHVkaWUgbGEgY29ycsOpbGF0aW9uIGRlIGNoYXF1ZSBlc3DDqGNlIHPDqXBhcsOpbWVudCE/DQp2b3lvbnMgY2VsYQ0KDQojIENvcnLDqWxhdGlvbiBwb3VyIGNoYXF1ZSBlc3DDqGNlDQpgYGB7cn0NCiMgUsOpY3Vww6lyb25zIGxhIGxpc3RlIGRlIGNoYXF1ZSBlc3DDqGNlDQpsaXN0ZV9lc3BlY2VzID0gdW5pcXVlKGlyaXMkU3BlY2llcykNCg0KIyBhZmZpY2hvbnMgbGVzIGNvb3LDqWxhdGlvbnMNCmZvciggZXNwZWNlIGluIGxpc3RlX2VzcGVjZXMpew0KICANCiAgZGF0YWZyYW1lIDwtIGlyaXMgJT4lIGZpbHRlcihTcGVjaWVzID09IGVzcGVjZSkNCiAgbWVzc2FnZShlc3BlY2UpDQogIHByaW50KGNvcihkYXRhZnJhbWVbLTVdKSkNCn0NCmBgYA0KDQpDb25jbHVzaW9uIDogRCdhcHLDqHMgbm90cmUgc2Vjb25kZSBhbmFseXNlLCBvbiBwZXV0IHZvaXIgcXVlIG5vcyBjb3Jyw6lsYXRpb25zIG7DqWdhdGl2ZXMgc29udCBwYXNzw6llcyBwb3NpdGl2ZXMuIChWb3lvbnMgcXVlbHF1ZSBncmFwaCBwb3VyIHBsdXMgZGUgZMOpdGFpbHMpDQoNCiMgQ29ycsOpbGF0aW9ucyBlbiBzw6lwYXJhbnQgdG91dGVzIGxlcyBlc3DDqGNlcw0KYGBge3J9DQppcmlzICU+JSBnZ3Bsb3QoYWVzKCBTZXBhbC5XaWR0aCwgUGV0YWwuTGVuZ3RoLCBjb2xvdXIgPSBTcGVjaWVzKSkgKyBnZW9tX3BvaW50KCkgKyBnZ3RpdGxlKCJDb3Jyw6lsYXRpb24gZW50cmUgbGEgbG9uZ2V1ciBkZXMgcMOpdGFsZXMgZXQgbGEgbGFyZ2V1ciBkZXMgc8OpcGFsZXMgKGNoYXF1ZSBlc3DDqGNlKSIpICsgdGhlbWVfbWluaW1hbCgpICsgZ2VvbV9zbW9vdGgobWV0aG9kID0gImxtIikNCmBgYA0KDQpDb25jbHVzaW9uOiBJY2kgb24gcGV1dCBzZSByZW5kcmUgY29tcHRlIHF1J2lsIHknYSBlbmZhaXQgMyBjbHVzdGVycyBldCBxdSdpbCB5J2EgdW5lIGZvcnRlIGNvcnLDqWxhdGlvbiBlbnRyZSBkZXV4IGVzcMOoY2VzOiBWZXJzaWNvbG9yIGV0IFZpcmdpbmljYS4NCklsIG5vdXMgw6l0YWl0IGltcG9zc2libGUgZGUgbGUgdm9pciBzaSBvbiBuZSBwcmVuYWl0IHBhcyBlbiBjb21wdGUgbCdpbXBvcnRhbmNlIGRlIGxhIHZhcmlhYmxlIFNwZWNpZXMhIEQnb8O5IGxlIGZhaXQgZGUgZmFpcmUgdHLDqHMgYXR0ZW50aW9uIGxvcnMgZGUgbm9zIGFuYWx5c2VzLiBJbCB5J2EgYmllbiBkZXMgY29vcsOpbGF0aW9ucy4NCg0KDQojIEFuYWx5c29ucyBjZXR0ZSBjb3Jyw6lsYXRpb24gZGUgcGx1cyBwcsOocyBlbiByZWdyb3VwYW50IGNlcyBkZXV4IGVzcMOoY2VzIHF1aSBzZW1ibGVudCBjb3Jyw6lsw6lzLiBPYnRpZW5kcmEgdC1vbiBxdWVscXVlIGNob3NlPw0KYGBge3J9DQppcmlzICU+JSBtdXRhdGUocmVncm91cGVtZW50ID0gaWZlbHNlKFNwZWNpZXMgJWluJSBjKCJ2aXJnaW5pY2EiLCJ2ZXJzaWNvbG9yIiksICd2aXJnaW5pY2EgZXQgdmVyc2ljb2xvcicsICdzZXRvc2EnKSkgJT4lIA0KICBnZ3Bsb3QoYWVzKFNlcGFsLldpZHRoLCBQZXRhbC5MZW5ndGgsIGNvbG9yID0gcmVncm91cGVtZW50KSkgKyBnZW9tX3BvaW50KCkgKyANCiAgZ2d0aXRsZSgiQ29ycsOpbGF0aW9uIHBhciByZWdyb3VwZW1lbnQiKSArIGdlb21fc21vb3RoKG1ldGhvZCA9ICdsbScpDQpgYGANCg0KDQpDb25jbHVzaW9uOiBPbiBwZXV0IG5ldHRlbWVudCB2b2lyIHF1ZSBub3VzIGF2b25zIHVuIG1vZGVsIGxpbsOpYWlyZSBwb3VyIG5vdHJlIHJlZ3JvdXBlbWVudCBlbnRyZSBsJ2lyaXMgVmlyZ2luaWNhIGV0IGwnaXJpcyBWZXJzaWNvbG9yLiBsZSBjbHVzdGVyIGR1IGhhdXQgw6l0YWl0IGJpZW4gc2lnbmlmaWNhdGlmLCBtYWlzIGNlbHVpIGR1IFPDqXRvc2EgcXVpIMOpdGFpdCBlbiBiYXMgZXQgdHLDqHMgw6lsb2lnbsOpIGRlIGxhIHBvcHVsYXRpb24gZCdlbiBoYXV0IMOpdGFpdCB0csOocyBmYWlibGUuDQoNCg0KIyBDb25jbHVzaW9uIGZpbmFsZTogDQpPbiBwZXV0IGNvbmNsdXJlIGF1IGZpbmFsIHF1ZSwgTm91cyBkZXZvbnMgYmllbiBzZWdtZW50ZXIgbm9zIGFuYWx5c2VzIGF2YW50IGRlIHRpcmVyIGRlcyBjb25jbHVzaW9ucyBow6J0aXZlcyBldCBjZWxhIHBhc3NlIHBhciBsYSBjb21wcsOpaGVuc2lvbiBiZXNvaW4sIGR1IGJ1c2luZXNzLCBkZSBub3RyZSB0YXJnZXQsIGRvbmMgZGUgbCdpbnNpZ2h0IMOgIGZhaXJlIHJlc3NvcnRpciENCkQnb8O5IGxlIHBhcmFkb3hlIGRlIFNpbXBzb24uDQo=