Des paradoxes statistiques plus répandus qu'on ne croit

Jun 14, 2014

Les paradoxes statistiques sont des pièges sur lesquels on tombe bien plus souvent que ce que l'on pourrait penser à première vue. Illustrations avec le paradoxe de Simpson, un cas de politique fiction, et quelques exemples.

Quand les pourcentages se contredisent

Le paradoxe de Simpson, aussi appelé effet de Yule-Simpson, est sans doute le plus célèbre de ces pièges statistiques. On l'observe lorsque les succès d'un groupe s'inversent une fois ces derniers combinés.

Plus concrètement, prenons l'exemple d'un traitement de calculs (autre qu'une calculatrice :-)), directement inspiré par la page Wikipédia consacrée à ce paradoxe.

Si on compare, sur 350 essais chacun, le traitement A et le traitement B, le succès de B ne fait a priori aucun doute :

Mais si on segmente les essais entre "petits calculs" et "gros calculs", la tendance s'inverse comme par magie, et c'est le traitement A qui devient le plus efficace pour les deux types de calculs :

Comment cette inversion des succès peut-elle se produire ? Sans trop entrer dans les détails, on a parlé jusqu'à présent en pourcentages, donc en valeurs relatives.

Une grande partie de l'explication vient quand on observe le détail de ces tests, échecs inclus, en valeur absolue :

Les échantillons comparés pour chaque type de calculs sont très inégaux, ce qui est l'une des clés pour comprendre ce paradoxe.

Plus concrètement

Imaginons qu'un institut quelconque diffuse une étude à la conclusion tranchée : les Alsaciens sont 2,5% plus nombreux à mourir de malaises cardiaques que l'ensemble des Français.

Avant de se creuser la tête pour imaginer d'éventuelles causes (choucroutes trop garnies, Route des vins, etc...), le bon réflexe serait peut-être d'essayer de voir si une segmentation des résultats existe.

Par exemple, peut-être que les Alsaciens meurent plus souvent de malaises cardiaques car les individus de plus de 70 ans sont surreprésentés dans l'étude par rapport aux autres tranches d'âge.

Autre exemple : ceux qui lisent régulièrement ce blog se souviennent peut-être d'un autre exemple de paradoxe où, à partir des mêmes chiffres, on pouvait à la fois affirmer que la France accueillait beaucoup et peu de réfugiés. En ayant raison à chaque fois.

Le paradoxe apparaissait notamment parce que certains pays de l'UE avaient un volume de dossiers traités ridicule par rapport à celui de la France, et qu'ils les acceptaient quasiment tous.

Premier en moyenne, mais deuxième en tout

Lors des européennes du 25 mai, on a assisté à un triomphe du FN (et aussi de l'abstention, mais passons pour cette fois) dans la plupart des grandes circonscriptions françaises.

Dans le Grand-Est, le Bas-Rhin ne faisait pas exception, comme on peut le voir sur cette carte des résultats provisoires (en noir, les villes où le FN est en tête, en bleu l'UMP, et en rose le PS) :

Avec cette seule vue d'ensemble, on peut déjà estimer au doigt mouillé que :

le PS était le grand perdant de ce scrutin
le FN et l'UMP sont assez difficiles à départager

Les moyennes des suffrages de chacun de ces partis confirment cette tendance : le PS est loin derrière avec une moyenne de 8,87%, l'UMP deuxième avec 27%, et le FN légèrement en tête avec 29,87%.

Et les nombres d'électeurs dans le département étayent aisément ces observations :

Maintenant, rêvons un peu d'une démocratie parfaite, où il y aurait eu 100% de participation et 100% de bulletins exprimés à Strasbourg, la grande ville du département.

Si l'on projette les mêmes pourcentages pour le FN, le PS et l'UMP, les moyennes des uns et des autres ne changent pas et le FN a toujours près de 30%. En revanche, les deux premières places du podium s'inversent comme par enchantement :

Encore une fois, on a absolument pas touché aux valeurs relatives, en revanche on a copieusement élargi les valeurs absolues, ce qui nous a donné à l'arrivée un beau paradoxe.

Dans cas, on doit expliquer que le FN a dominé territorialement le scrutin, mais a largement perdu le plus gros réservoir de voix, ce qui a sapé son résultat dans le département. Ce qui peut sembler paradoxal s'explique aisément avec un poil de contextualisation !

Quelques conseils pour détecter ces paradoxes

ne jamais s'arrêter aux pourcentages dans les comparaisons, mais prendre également les chiffres bruts, quitte à les demander directement à la source
si des échantillons de taille très différente apparaissent, essayer de les segmenter autour d'une variable de confusion (la taille des calculs pour le traitement médical, l'âge des répondants pour l'étude sur les malaises cardiaques, etc...) pour vérifier si oui ou non on est face à un paradoxe de Simpson
ne jamais s'interdire une contextualisation des données que l'on traite