14
2014
Des paradoxes statistiques plus répandus qu'on ne croit
Les paradoxes statistiques sont des pièges sur lesquels on tombe bien plus souvent que ce que l'on pourrait penser à première vue. Illustrations avec le paradoxe de Simpson, un cas de politique fiction, et quelques exemples.
Quand les pourcentages se contredisent
Le paradoxe de Simpson, aussi appelé effet de Yule-Simpson, est sans doute le plus célèbre de ces pièges statistiques. On l'observe lorsque les succès d'un groupe s'inversent une fois ces derniers combinés.
Plus concrètement, prenons l'exemple d'un traitement de calculs (autre qu'une calculatrice :-)), directement inspiré par la page Wikipédia consacrée à ce paradoxe.
Si on compare, sur 350 essais chacun, le traitement A et le traitement B, le succès de B ne fait a priori aucun doute :
Mais si on segmente les essais entre "petits calculs" et "gros calculs", la tendance s'inverse comme par magie, et c'est le traitement A qui devient le plus efficace pour les deux types de calculs :
Comment cette inversion des succès peut-elle se produire ? Sans trop entrer dans les détails, on a parlé jusqu'à présent en pourcentages, donc en valeurs relatives.
Une grande partie de l'explication vient quand on observe le détail de ces tests, échecs inclus, en valeur absolue :
Les échantillons comparés pour chaque type de calculs sont très inégaux, ce qui est l'une des clés pour comprendre ce paradoxe.
Plus concrètement
Imaginons qu'un institut quelconque diffuse une étude à la conclusion tranchée : les Alsaciens sont 2,5% plus nombreux à mourir de malaises cardiaques que l'ensemble des Français.
Avant de se creuser la tête pour imaginer d'éventuelles causes (choucroutes trop garnies, Route des vins, etc...), le bon réflexe serait peut-être d'essayer de voir si une segmentation des résultats existe.
Par exemple, peut-être que les Alsaciens meurent plus souvent de malaises cardiaques car les individus de plus de 70 ans sont surreprésentés dans l'étude par rapport aux autres tranches d'âge.
Autre exemple : ceux qui lisent régulièrement ce blog se souviennent peut-être d'un autre exemple de paradoxe où, à partir des mêmes chiffres, on pouvait à la fois affirmer que la France accueillait beaucoup et peu de réfugiés. En ayant raison à chaque fois.
Le paradoxe apparaissait notamment parce que certains pays de l'UE avaient un volume de dossiers traités ridicule par rapport à celui de la France, et qu'ils les acceptaient quasiment tous.
Premier en moyenne, mais deuxième en tout
Lors des européennes du 25 mai, on a assisté à un triomphe du FN (et aussi de l'abstention, mais passons pour cette fois) dans la plupart des grandes circonscriptions françaises.
Dans le Grand-Est, le Bas-Rhin ne faisait pas exception, comme on peut le voir sur cette carte des résultats provisoires (en noir, les villes où le FN est en tête, en bleu l'UMP, et en rose le PS) :
Avec cette seule vue d'ensemble, on peut déjà estimer au doigt mouillé que :
- le PS était le grand perdant de ce scrutin
- le FN et l'UMP sont assez difficiles à départager
Les moyennes des suffrages de chacun de ces partis confirment cette tendance : le PS est loin derrière avec une moyenne de 8,87%, l'UMP deuxième avec 27%, et le FN légèrement en tête avec 29,87%.
Et les nombres d'électeurs dans le département étayent aisément ces observations :
Maintenant, rêvons un peu d'une démocratie parfaite, où il y aurait eu 100% de participation et 100% de bulletins exprimés à Strasbourg, la grande ville du département.
Si l'on projette les mêmes pourcentages pour le FN, le PS et l'UMP, les moyennes des uns et des autres ne changent pas et le FN a toujours près de 30%. En revanche, les deux premières places du podium s'inversent comme par enchantement :
Encore une fois, on a absolument pas touché aux valeurs relatives, en revanche on a copieusement élargi les valeurs absolues, ce qui nous a donné à l'arrivée un beau paradoxe.
Dans cas, on doit expliquer que le FN a dominé territorialement le scrutin, mais a largement perdu le plus gros réservoir de voix, ce qui a sapé son résultat dans le département. Ce qui peut sembler paradoxal s'explique aisément avec un poil de contextualisation !
Quelques conseils pour détecter ces paradoxes
- ne jamais s'arrêter aux pourcentages dans les comparaisons, mais prendre également les chiffres bruts, quitte à les demander directement à la source
- si des échantillons de taille très différente apparaissent, essayer de les segmenter autour d'une variable de confusion (la taille des calculs pour le traitement médical, l'âge des répondants pour l'étude sur les malaises cardiaques, etc...) pour vérifier si oui ou non on est face à un paradoxe de Simpson
- ne jamais s'interdire une contextualisation des données que l'on traite
Related Posts
Contact
Les auteurs
Commentaires récents
- L'incrackable document Word ... dans
- L'incrackable document Word ... dans
- L'incrackable document Word ... dans
- L'incrackable document Word ... dans
- L'incrackable document Word ... dans
- L'incrackable document Word ... dans
- L'incrackable document Word ... dans
- Nono's vrac 10 dans
- Nono's vrac 18 dans
- L'incrackable document Word ... dans
- L'incrackable document Word ... dans
- Créez vos propres Geojson avec OpenStreetMap dans
- Backup avec Borg via ssh(fs) sur Synology dans
- Va te faire foutre Disqus ! dans
- Saloperie de TrendMicro OfficeScan ! dans
Étiquettes
Archives
- octobre 2020 (1)
- juin 2018 (1)
- avril 2018 (1)
- mars 2018 (1)
- décembre 2015 (1)
- avril 2015 (3)
- mars 2015 (2)
- février 2015 (3)
- janvier 2015 (1)
- décembre 2014 (5)
- novembre 2014 (4)
- octobre 2014 (4)
- septembre 2014 (5)
- août 2014 (4)
- juin 2014 (7)
- mai 2014 (14)
- avril 2014 (8)
- mars 2014 (10)
- février 2014 (9)
- janvier 2014 (3)
- décembre 2013 (2)
- novembre 2013 (5)
- octobre 2013 (6)
- septembre 2013 (8)
- août 2013 (6)
- juillet 2013 (6)
- juin 2013 (11)
- mai 2013 (7)
- avril 2013 (8)
- mars 2013 (10)
- février 2013 (9)
- janvier 2013 (9)
- décembre 2012 (7)
- novembre 2012 (16)
- octobre 2012 (11)
- septembre 2012 (9)
- août 2012 (19)
- juillet 2012 (19)
- juin 2012 (20)
- mai 2012 (24)
- avril 2012 (20)
- mars 2012 (23)
- février 2012 (27)
- janvier 2012 (28)
- décembre 2011 (28)
- novembre 2011 (28)
- octobre 2011 (1)