Quelques limites de l'utilisation des données

Aug 1, 2013

Les données cachent en elles certains pièges insoupçonnés au premier abord. Petit tour d'horizon d'une poignée de ces derniers.

panneaux

Les biais statistiques

Le biais statistique est, dans la jungle des données, l'arbre qui cache la forêt. Mais qu'est donc un biais statistique ? Une sirène à laquelle on peut facilement céder lorsqu'une donnée isolée semble mettre en lumière un fait.

Exemple : en juillet 2008, le film Bienvenue chez les Ch'tis dépasse assez confortablement les 20 millions d'entrées. On crie au record : La Grande Vadrouille, film populaire par excellence, semble être un petit joueur avec ses "seulement" 17 millions d'entrées.

Sauf qu'en réalité ce film sorti en 1966 conserve bien le record du plus grand succès cinématographique en France, car il n'y avait alors dans la métropole un peu plus 49 millions de Français, contre un peu plus de 62 millions de gens à la sortie des Ch'tis.

En clair, 35% de la population française avaient vu les frasques de Bourvil et de Funès, contre 33% pour le duo Boon-Merad. Le constat du détrônement de La Grande Vadrouille par les Ch'tis est donc biaisé, puisqu'il aurait fallu pour cela approcher les 22 millions d'entrées.

Prendre en référence une valeur absolue sans tenir compte des durées d'écart est un biais statistique très courant, que l'on a également vu récemment avec le dépassement symbolique, en avril dernier, du nombre de demandeurs d'emplois de 1997. En 16 ans, les rangs des Français pouvant travailler ont forcément grossi, et la valeur absolue dépassée est relative.

Deux autre biais statistiques, très utilisés pour porter les analyses les plus extrêmes, doivent être connus :

tirer des grandes conclusions à partir d'un échantillon trop réduit. Un exemple récent : une enquête de l'Ifop montre l'inclination des musulmans de France à voter à gauche. Au-delà de l'analyse politique, l'article du Figaro sous-entend clairement que dans le cas d'une élection serrée comme 2012, ces électeurs ont pu faire la différence. Sauf que c'est un poil plus compliqué, notamment parce que François Hollande a aussi progressé dans des territoires très catholiques, sans lesquels il aurait de toute façon perdu. Ensuite, parce que ces électeurs de confession musulmane représentent... 5% des électeurs français, soit un quart des abstentionnistes. Et ce ne sont évidemment pas les seuls ingrédients de cette complexe alchimie électorale !
confondre corrélation et causalité à partir de données évoluant de la même façon. Ce biais est particulièrement vicieux, et revient plus à énoncer des sophismes que des vérités incontestables. L'un des plus utilisés par les partis d'extrême droite est simple : l'immigration et l'insécurité augmentent de la même façon, donc la cause de l'insécurité est l'immigration. En réalité, les chiffres cités par ces partis sont très souvent (surprise) biaisés et un raisonnement par l'absurde montre les limites de ce genre d'analyse. Le politologue Thomas Guénolé donne, avec un certain humour, cet exemple : comme 97% des détenus français sont des hommes, c'est que les hommes sont prédisposés "naturellement" au crime, et qu'il faut donc les surveiller avec zèle. Étonnant, non ?

Des données parfois contestables

Je cherchais il y a plusieurs mois des données pour m'entraîner à la cartographie. Après avoir un peu prospecté, je suis tombé sur ce qui paraissait être une mine d'or avec une carte interactive consacrée à la protection du Grand hamster d'Alsace.

Les données géographiques pouvaient être triées, formatées pour différents logiciels, et elles émanaient de l'Office national de la chasse et de la faune sauvage (ONCFS). Que du bon, en somme.

Mon idée était, après quelques tâtonnements techniques, de commenter ces cartes avec des membres d'associations écologistes. Au fil de la discussion, je me suis très vite rendu compte que les données que je pensais difficilement contestables, étaient en fait sujettes à caution.

Le principal problème soulevé était les zones de prospection. Mon interlocuteur m'expliquait que l'ONCFS ne prospectait pas certaines zones où des hamsters pouvaient se trouver assez isolés, comme par exemple sur les bords de sentiers.

Du coup, l'exploitation brute des données de recensement de terriers pouvaient être contestée, parce que toutes les zones habitables par l'animal n'avaient pas été quadrillées.

Un autre exemple de données contestables m'est apparu plus tard avec un récit relaté par le chercheur Sylvain Parasie. Il explique à Philippe Couve qu'une équipe de journalistes américains avait procédé à un travail de vérification titanesque sur une BDD d'écoles à risques.

Ce recensement numérique des écoles situées sur la faille de San Andreas était en fait devenu obsolète après le redécoupage de la zone à risques. Il fallait donc vérifier auprès de centaines d'écoles si elles étaient toujours concernées ou non.

Bref, attention aux données qui ont dépassé les 2-3 ans, elles peuvent cacher bon nombre de pièges !

Edit

Je suis retombé il y a peu sur cette chronique de l'éloquent François Morel. Avec le recul, elle résume assez bien ce que je pense de certaines analyses statistiques 🙂 !

Un peu plus compliqué que ça ! par franceinter

Comments

Comment by Gilles on 2013-08-02 10:17:32 +0200

Tu veux dire qu'il faut toujours avoir du recul et du sens critique par rapport à ce qu'on nous dit ?
Pas le temps, Koh-Lantah et le JT de PErnault commencent bientôt 🙂

Comment by Clem on 2013-08-03 13:21:32 +0200

Je réagis juste pour souligner un point: attention au vocabulaire ici. Dans la plupart des exemples donnés, il n'y a pas de biais. La notion de biais statistique a une définition assez stricte. Il existe plusieurs définition du biais, mais pour faire simple, nous avons biais lorsque l'estimée diffère du paramètre cible de façon systématique (par exemple, on a biais si je veux estimer la proportion de français votant Hollande aux élections, et que je calcule mon estimation à partir d'un échantillon pris uniquement dans une population de profs -- si je prends 1000 échantillons aléatoires de ce type, dans la majorité de ces échantillons l'estimée sera supérieure à la vraie proportion).

À mon avis, le principal problème des exemples donnés ici est que la question est mal identifiée. Dans toute étude d'analyse de données, l'important est de déterminer, avant toute chose, la question à laquelle on veut répondre. Donc:

Si, les Ch'tis ont dépassé la grande vadrouille en termes de nombre d'entrées. D'accord, ça ne veut pas dire que l'engouement des français est supérieur à celui entraîné par la grande vadrouille. En fait, c'est vrai que je ne vois pas bien l'intérêt d'une telle info formulée en termes de nombre d'entrées. Mais si la question est celle de l'engouement, alors la métrique utilisée pour le mesurer (le nombre d'entrées) est mal choisie. Ce n'est pas un problème de biais, mais de question mal posée (le nombre d'entrée n'est pas biaisé, pour une raison simple, c'est que c'est une mesure -- quantité connue -- et non une estimation -- quantité estimée).
Si, les musulmans tendent en majorité à voter à gauche. La question est: les musulmans tendent-ils en majorité à voter à gauche? la réponse est oui. J'ai été voir l'article, il est expliqué clairement que "La proportion est relativement faible, mais en cas de vote serré, comme ce fut le cas en 2012, le comportement électoral des musulmans peut revêtir une plus grande importance. Si on considère qu'au second tour de la présidentielle le «sur-vote» à gauche de cet électorat a représenté 34,4 % par rapport à l'ensemble de la population, cela revient à dire que cette différence représente environ 1,5 % de l'ensemble du corps électoral français." C'est vrai. Tout comme il est vrai que, toutes choses étant égales par ailleurs, si l'ensemble de la population musulmane avait voté Sarkozy en 2012, Hollande n'aurait pas été élu. Tout comme il est vrai que si n'importe quelle catégorie de français majoritairement "de gauche" et représentant au moins 1.7% de la population (les profs, les moustachus, les chevelus, voire les militants socialistes, etc.) avait voté Sarkozy au lieu de Hollande, ben c'est Sarkozy qui aurait été élu. Et ce, quel que soit les progrès de Hollande dans les milieux cathos. Sur ce point, c'est vous qui modifiez la question initiale en "Hollande a-t-il été élu avec les seules voix des musulmans?". Ce qui n'était pas la question initiale.
Concernant les comptages de grand hamster, il y a un rapport décrivant les comptages en question (http://www.oncfs.gouv.fr/IMG/pdf/Bilan_Comptage_ONCFS_2012.pdf, page 6), qui indique clairement que les terriers dénombrés "ne représente qu'une partie des terriers présents sur les territoires prospectés car le protocole de comptage est semi-quantitatif. Celui-ci ne nous fournit qu'un indice d'abondance à ne pas confondre avec l'effectif réel de hamster en Alsace". La question ici n'est pas "où sont les terriers de hamster?", mais "quelle est l'évolution de la population?". L'objectif n'est donc pas d'être exhaustif ici, mais d'avoir un indice d'abondance. Si le nombre de terriers *dénombré* est multiplié par deux, il est raisonnable de conclure que la population de hamster augmente. Si le nombre de terriers *dénombré* est divisé par deux, il est raisonnable de conclure que la population diminue. À moins de supposer à priori que la population des hamsters isolés au bord des chemins augmente alors que le reste de la population diminue, ce qui, dans ce cas introduirait effectivement des biais... Mais vous avez probablement entendu parler du rasoir d'Ockham ou principe de parcimonie (http://fr.wikipedia.org/wiki/Rasoir_d%27Ockham). Vous indiquez que la donnée est contestable, mais ce qui est contestable n'est jamais la donnée (sauf dans les cas de malhonnêteté des collecteurs), mais l'utilisation que vous pouvez en faire.

Sinon, merci pour ce site qui est une source d'info sans borne.

Comment by Clem on 2013-08-03 13:46:00 +0200

Sur ce point, c'est vous qui modifiez la question initiale en "Hollande a-t-il été élu avec les seules voix des musulmans?". Ce qui n'était pas la question initiale.

Cela dit, je comprends l'agacement causé par un tel article. Ce n'est pas tant l'article qui est tendancieux, mais la ligne éditoriale de ce bien beau journal. Comme vous l'indiquez, tout est dans les sous-entendus. Bon, je frôle le point Godwin, donc je m'arrête. Mais juste pour insister que là, on n'est plus dans la statistique, et encore moins dans la question du biais.

Comment by Raphi on 2013-08-03 16:41:28 +0200

Salut Clem, et merci pour vos longs commentaires ! Je vais y répondre avec zèle comme vous avez pris le temps de le faire.

Il me semble que vous ayez mal interprété ce que j'entendais par "biais statistique". Si tel est le cas, c'est peut-être que je me suis mal exprimé, et je vais donc profiter de ce commentaire pour clarifier tout ça.

J'entendais par biais statistique pas forcément une information fausse (ou une réponse à une question mal posée comme vous dites), mais une information largement orientée. Pour reprendre votre énumération :

évidemment, 21 millions d'entrée est un nombre supérieur à 17 millions, mais il est biaisé de comparer le succès de films sortis avec plus de 40 ans d'écart
oui, les Français de confession musulmane votent majoritairement à gauche. Vous avez raison de dire que s'ils n'avaient pas voté majoritairement Hollande, ce dernier aurait perdu, tout comme j'ai raison lorsque je dis que sans le soutien de territoires très catholique, le candidat socialiste n'aurait jamais gagné. Ce que je critiquais, en l'occurrence, c'est le fait de tenter d'expliquer un phénomène complexe (le résultat serré d'une élection) par un échantillon très faiblard. Je ne crois sincèrement pas que 5% d'électeurs puissent largement modifier le choix exprimé par les 95% restants, aussi convertis soient-ils à un bord politique et aussi serré soit le résultat final.
dans le cas du Grand hamster, vous estimez que la non exhaustivité des comptages ne change rien à l'appréciation de la population de cet animal, et surtout de son évolution. Je vous suis, mais le problème est aussi un poil plus complexe car un peu politique. En effet, un terrier trouvé = un rayon de protection stricte de 600 m autour (http://www.actu-environnement.com/ae/news/grand-hamster-recours-conseil-etat-maires-alsace-arretes-zones-protection-17243.php4), avant dérogation communale. Le biais que je tentais de pointer s'accordait donc plus à la zone de protection dessinée à partir de comptages potentiellement incomplets qu'à un modèle d'évolution de la population de hamsters. Cela dit, je ne l'avais effectivement pas précisé dans le corps de l'article.

Vous avez enfin raison d'affirmer que le souci vient plus de l'utilisation des données que d'elles-mêmes. Cependant, on ne se penche (à mon sens) jamais assez sur la méthodologie de beaucoup d'enquêtes statistiques, comme les sondages dont on nous abreuve régulièrement.

Merci encore pour votre attention et vos encouragements à propos de ce blog, et à bientôt.

Comment by Raphi on 2013-08-03 16:44:07 +0200

😉

Comment by Clem on 2013-08-03 18:41:15 +0200

Merci pour cette réponse.

Si tel est le cas, c'est peut-être que je me suis mal exprimé.

Non, non, le propos était très clair. Mon commentaire était plus sur la forme (clarification des concepts stats et du vocabulaire associé) que sur le fond, avec lequel je suis d'accord, à savoir:

Cependant, on ne se penche (à mon sens) jamais assez sur la méthodologie de certaines enquêtes, comme les sondages dont on nous abreuve régulièrement.

tutafait.

Comment by noname on 2013-08-04 11:41:48 +0200

Bonjour,

"Sauf qu'en réalité ce film sorti en 1966 conserve bien le record du plus grand succès cinématographique en France, car il n'y avait alors dans la métropole un peu plus 49 millions de Français, contre un peu plus de 62 millions de gens à la sortie des Ch'tis."

En fait vous faite la même erreur car comparer le nombre de d'entrée versus le nombre d'habitant n'a pas plus de sens pour montrer le plus grand succes.

Votre comparaison montre uniquement que le nombre de vente vs le nombre d'habitant était plus important.

Le nombre d'entrée est clairement plus important et à l'époque si il y avait eu 60m d'habitant est ce plus de personnes seraient aller voir le film, personne ne le sais ?

La question porte finalement sur la définition elle même de ce que l'on cherche à démontrer et c'est exactement sur ce point que chacun fait ce qu'il entend, ce qui porte clairement à discussion et interprétation puisque jamais clair ...

Comment by Raphi on 2013-08-04 13:16:56 +0200

Je pense que vous vous trompez cher(chère) noname, la proportion d'habitants spectateurs est un bien meilleur indice que les nombres d'entrées brutes pour apprécier le succès de deux films sortis avec quatre décennies d'écart.

Je n'ai jamais dit que j'allais photographier entièrement le succès cinématographique de ces deux œuvres. Mon propos était plus d'affirmer, et vous pourrez difficilement ne pas me suivre, que quand une population a 13 millions d'habitants de plus qu'une autre, il est plus "facile" de rassembler plus de 20 millions d'entre eux au cinéma. C'est ce biais et ce biais seul que j'entendais déconstruire.

De plus, accumuler les paramètres comme vous le faites n'est pas forcément une meilleure manière d'apprécier ledit succès. Les places étaient plus chères, les transports moins nombreux, le marketing moins global, soit, et alors ?

Merci en tout cas pour le commentaire et un beau dimanche à vous.