;
Nov
3
2013

Les trop nombreux défauts des sondages

L'inférence statistique sert régulièrement les sondeurs, qui peuvent grâce à elle s'abriter derrière la légitimité incontestable des sciences. Sauf que, comme souvent, la beauté de la théorie se heurte toujours aux difficultés de la pratique.

500px-Cretan-labyrinth-circular-disc.svg

Mais qu'est-ce que l'inférence statistique ? Pour rapidement résumer, elle consiste à induire, grâce à des résultats récoltés au hasard sur un échantillon d'une population, une règle générale de l'ensemble de cette population.

Si vous souhaitez, par exemple, connaître le nombre d'habitants de votre rue qui ont une voiture verte, vous allez descendre à heure fixe interroger les passants et leur demander :

  • s'ils habitent effectivement votre rue
  • la couleur de leur voiture
  • (et aussi bien sûr s'ils veulent bien vous répondre :-))

Ensuite, vous allez répéter l'expérience autant de fois que nécessaire pour affiner vos données. Enfin, vous allez passer les données recueillies dans différentes moulinettes pour obtenir une estimation des possesseurs de voitures vertes chez les habitants de votre rue.

Les sondeurs sont très forts à ce petit jeu, notamment parce qu'ils ont des moyens d'enquête très poussés. Malgré tout, je crois que les sondages ont à peu près les mêmes défauts que les micro-trottoirs, à savoir :

  • une pauvreté informationnelle (tant ont dit "oui", tant ont dit "non", ok, et alors ?)
  • une tendance à conforter chacun dans ses opinions plutôt que de décrire toutes les faces d'un problème
  • un remplissage facile et avéré de l'espace

Mais, là où on peut facilement hausser les épaules après l'écoute d'un micro-trottoir en se disant que quatre personnes ne peuvent pas exprimer une tendance générale, les sondages, par l'utilisation de statistiques très poussées, peuvent prendre le noble apparat de la science impartiale.

En réalité, les choses sont, comme toujours, un peu plus compliquées que dans la théorie.

Tout est dans la méthodo

Généralement, les médias s'empressent plus de livrer une interprétation hâtive d'un sondage qu'ils ont commandé plutôt que de se pencher un tant soit peu sur la méthodologie. Pourtant, celle-ci peut, à elle seule, expliquer les nombreux défauts des sondages.

Impossible hasard

Pour que l'inférence statistique ait un sens, il faut que les données que l'on traite aient été récoltées au hasard. Dans la pratique, ce hasard est quasiment impossible à atteindre.

Par exemple, si l'on souhaite contacter des gens au hasard dans la journée :

  • si l'on utilise exclusivement les Pages jaunes, on va tomber essentiellement sur des retraités ou des non actifs, autrement dit un échantillon peu représentatif de l'ensemble du pays
  • si l'on utilise exclusivement Internet, on va tomber essentiellement sur des gens plus jeunes, autrement dit un échantillon peut représentatif de l'ensemble du pays

Certes, les sondeurs utilisent plus la "méthode des quotas" pour tenter d'harmoniser les sociologies des personnes interrogées : s'il y a dans le pays 15% de retraités, on va faire en sorte d'interroger 15% de retraités dans le sondage.

Mais même cette méthode peut révéler très vite des faiblesses : Mediapart relevait par exemple dans un sondage très orienté sur le voile à l'université des échantillons unanimes, ce qui est franchement très très suspect.

Impossibles questions neutres

On entre plus dans le domaine de la psychologie dans cette partie, avec les questions orientées. Ceux qui ont dû faire dans leur vie des questionnaires le savent, on a très vite fait d'induire une réponse directement dans une question.

Concrètement, demander "Pensez-vous payer trop d'impôts ?" n'induira pas du tout les mêmes réponses que "Êtes-vous prêts à payer des impôts pour avoir des services publics gratuits ?".

Impossible analyse

Nous allons retrouver notre comparaison avec le micro-trottoir avec cet aveu : il est souvent ardu, voire impossible, d'analyser les résultats d'un sondage.

Une première raison est que les gens ne peuvent être experts en tout, et qu'on puisse se demander quelle valeur accorder à leur réponse sur une question très pointue.

Par exemple, quand un institut révèle que 67% des Français jugent la suspension de l'écotaxe "justifiéee", il ne dit pas pourquoi ces derniers la trouvent "justifiée". Ahem...

Autre raison, les conclusions non détaillées. L'exemple suivant est formidable : 34% des Français se sentent proches des idées du FN, ça fait froid dans le dos, non ?

Pourtant, le curieux réalisera bien vite que dans le sondage, on ne sait pas à quelles idées précises les gens pensent (anti-immigration, anti-euro, protectionnisme), alors que le chiffre de 34% favorables va insidieusement marquer les esprits...

Autre raison encore, le sondage d'anticipation : par exemple, quand le Nouvel Obs nous dit que le FN est le premier parti en intentions de votes des prochaines européennes, il serait peut-être bien inspiré d'attendre qu'au moins les programmes des uns et des autres soient déclarés...

Impossible redressement

Autre joyeuseté des sondages, les redressement a posteriori. Illustrons-le avec un constat connu : on ne sait pas sonder le FN en France.

La raison principale vient du fait qu'une partie des électeurs de ce parti a des scrupules à se déclarer, et qu'on doit donc corriger après coup pour avoir la "vraie" proportion du Front National.

Mais là, on entre dans un domaine proche de la boule de cristal : quel.s pourcentage.s retirer à quel.s parti.s pour ensuite le.s redonner au FN et qu'est-ce qui le justifie ? Mystère...

Tout est dans les marges

Oublions tout ce que nous venons de dire et admettons que l'on ait réussi à avoir une méthodologie absolument parfaite pour effectuer un sondage.

Un institut souhaite se servir de cette prouesse pour répondre à une question absolument essentielle : combien de Français sont "vraiment vraiment pour", et combien sont "très très contre" ?

Pendant la première récolte de données, je vais être interrogé. 19 autres personnes, qui ont à peu près le même passé et profil que moi, sont catégoriques : ils sont "très très contre", tandis que les 980 autres sondés vont se prononcer "vraiment vraiment pour".

Sauf que les sondeurs, très appliqués, savent que ce résultat est sûrement faux, car, redressant régulièrement le pourcentage des Français "vraiment vraiment pour", ils obtiendraient un résultat unanime.

Ce graphique, très précis, est trop incertain pour être retenu.

Il faut donc répéter l'expérience jusqu'à obtenir une estimation fiable à 95%, autrement dit un sondage qui sera faux cinq fois sur 100. Sauf ce qu'on gagne en certitude, on le perd en précision.

Ce que l'on publie

Finalement, on trouve ce résultat éloquent dans la presse : 34% des Français sont "vraiment vraiment pour".

Incroyable, plus d'un tiers des Français "vraiment vraiment pour" ? Sauf qu'encore une fois, la réalité est un poil plus complexe.

Ce que l'on devrait publier

En réalité, l'imprécision que l'on récolte en répétant l'expérience s'appelle la (ou les) marge.s d'erreur, et pourrait se visualiser comme suit (en prenant cette fois des pourcentages) :

Il est du coup impossible de trancher dans cette marge : assurer qu'il n'y a que 15% ou au contraire affirmer qu'il y a 34% de Français "vraiment vraiment pour" serait une erreur, mais ce serait évidemment bien moins vendeur.

Raphi

A propos de l'auteur: Raphi

6 Comments + Add Comment

  • "si l'on utilise exclusivement Internet, on va tomber essentiellement sur des gens plus jeunes" -> non, un tiers des internautes ont plus de 50 ans (Etude des usages de l'Internet... Médiamétrie :)) Les préjugés ont la vie dure, surtout envers la génération qui a... créé Internet :p

    • Raphi

      Mouais, je reste malgré tout assez réservé. C'est pas parce que vous êtes internaute que vous répondez forcément aux sondages sur Internet, et je serai curieux de savoir l'activité de ces plus de 50 ans que vous citez. Posséder l'outil est une chose, les usages en sont une autre.

  • Analyse trés bien menée et qui démontre bien la réalité des sondages et leur mode de fonctionnement en démontant leur fiabilité.
    Merci pour cet article.

  • Il faut noter aussi que la précision d'un sondage dépend de la taille d'un échantillon mais pas seulement elle dépend aussi du ciblage qui a été effectué pour la sélection de cette échantillon ce qui demande au préalable beaucoup plus de temps. Ainsi que la manière dont le questionnaire a été constitué et administrer. Il faut dire que lors des traitements des résultats il y aura bien sur toujours une marge d'erreur parce qu'on fait fasse à l'individu et à son comportement, ce n'est donc pas une science exacte. Toutefois, les sondages ont toute leur utilité et lorsqu'ils sont bien menés ont peut constater très rapidement que les résultats coïncident entre différentes agences qui travaillent sur un même sondage de façon distincte et sans collaboration mutuelle bien évidemment. C'est le cas par exemple des sondages politiques qui déclarent un candidat favoris par rapport à un autre ou sa côte de popularité.

    On ne peut donc pas affirmer que les sondages sont inutiles bien au contraire toutefois en fonction de l’échantillon pré-établie et de la nature de l'étude il convient d'être prudent et d'avoir un recul pour mieux apprécier la qualité et la fiabilité des résultats

    • Raphi

      Cher vous (oui, parce que "cher Sondage sur Internet" ça fait un peu tarte :-)), plusieurs choses.

      Sur la forme d'abord, ne le prenez pas mal, mais faites gaffe à votre orthographe (on dit "faire face" et pas "faire fasse", notamment), car cela discrédite largement votre contribution.

      Sur le fond, maintenant. Hum, j'ai l'impression que vous n'avez pas bien lu mon article. J'y explique précisément les "nombreux" défauts des sondages, et pas uniquement celui de l'échantillonnage. Vous pouvez avoir le meilleur échantillon du monde, le sondage qui en découlera sera totalement biaisé si les questions posées le sont.

      De plus, si l'on publie les marges d'erreur, on pourra plus facilement conclure par un "on ne sait pas vraiment" que par "oula, tel parti vachement dangereux pour la démocratie promet de faire un score dingue dans 12 ans, 3 mois et deux jours !!!".

      Et ce n'est pas parce que des instituts séculaires ont parfois des résultats équivalents que leur photographie de la société à l'instant t est parfaite. Toute production scientifique a ses limites, surtout celle qui invoque les sciences humaines.

      Quant à l'intérêt des sondages, ma foi il sert surtout aux stratégies de pubards (et en cliquant sur le lien de votre site, je me rends compte que vous faites plus dans le marketing que dans l'information, ce qui n'est pas une tare, mais il faut être honnête et dire de quel point de vue on se place), mais pas spécialement à informer convenablement les citoyens.

      Vous affirmez, en gros, qu'une photo floue prise en pleine nuit sans flash avec une légende incomplète vaut autant qu'une fresque de Michel-Ange, libre à vous. Mais je profite de ce comm' pour vous dire que je n'en crois rien.

  • Persistez dans cette direction, c'est un veritable bonheur de vous suivre.

Leave a comment