26
2013
Les données sont-elles si objectives que ça ?
Les données sont assez naturellement considérées comme objectives. Sauf que ce pétrole du début du XXIe siècle ne saurait être récolté sans un minimum de recul, sans quoi on pourra toujours affirmer quelque chose et son inverse à partir des mêmes chiffres.
Image : Jeremykemp (CC - BY SA)
Dans leur passionnant Doing Data Science, Rachel Schutt et Cathy O'Neil affirment que les données ne sont pas objectives comme on le prétend assez naturellement. Elles mettent en garde contre ce mythe qui pourrait être largement conforté par l'avènement de Big Data.
Leur raisonnement, très clair et limpide, peut se résumer comme suit :
- même si les moyens de collecte de données augmentent en volume et en efficacité, il y a trop de paramètres à prendre en compte pour atteindre l'objectivité. Aucune machine, aussi puissante soit-elle, ne pourra jamais capter la complexité du monde dans son ensemble
- les données brutes ne servent absolument à rien. Il convient de les trier, de les visualiser, de les mettre en perspective. Or, le tri est un choix, et comme lorsque le journaliste choisit l'angle de son papier, ce choix est éminemment subjectif
Les deux auteures illustrent les risques d'une confiance aveugle en Big Data avec un exemple concret : le recrutement de talents via des algorithmes spécialisé dans les données.
L'un des effets pervers de ce cas est le suivant : à compétences égales, l'algorithme vous dira de préférer un homme à une femme, parce que cette dernière aura mis plus de temps à gravir les échelons et aura perçu son travail d'une moins bonne manière.
Sauf que le problème vient plus d'une attitude sexiste dans le monde de l'entreprise que des données "objectives" rattachées à la candidate...
On pourrait multiplier les exemples, mais arrêtons-nous sur un intéressant paradoxe de la statistique descriptive : pouvoir affirmer une chose et son contraire, en ayant toujours raison.
Exemple : les demandeurs d'asile en Europe
La statistique descriptive est jugée être ultra simple pour les profanes pour une raison : on part d'une observation assidue des chiffres, sans trop de traitements alambiqués comme dans l'inférentielle.
Pourtant, on peut très souvent affirmer une chose et son contraire à partir des mêmes chiffres. Prenons par exemple le tableau page 12 de ce doc trouvé sur EuroStat, et qui concerne les demandeurs d'asile en Europe.
A partir de données très basiques (nombre de demandes total, nombre de demandes acceptées, nombre de demandes refusées), on va successivement affirmer que la France accueille beaucoup et peu de réfugiés. En ayant à chaque fois raison :-).
La France accueille beaucoup de réfugiés
La carte suivante montre le nombre de demandeurs d'asile acceptés par plusieurs pays d'Europe. On voit que la France, sans être le pays qui accueille le plus (elle est 10e), est plutôt dans le peloton de tête :
On peut donc affirmer que la France est plutôt une terre d'accueil de réfugiés, et avoir parfaitement raison.
La France accueille peu de réfugiés
La carte suivante montre à présent, à partir des mêmes chiffres, le pourcentage de réfugiés acceptés par rapport au nombre total de demandes.
En rouge se trouvent les pays qui acceptent moins de 50% des demandes, en vert ceux qui en acceptent plus de 50% :
On vient d'affirmer l'exact inverse de ce que l'on disait avant et on a encore une fois raison, car la France se classe alors que comme le 6e pays le moins accueillant d'Europe.
Comparer des carottes à des potirons
Les plus observateurs auront déjà remarqué un petit problème : l'Estonie se retrouve 2e pays le plus accueillant (plus de 66% de réfugiés acceptés) avec un total ridicule.
C'est d'autant plus frappant que ses 10 demandeurs d'asile ne représente qu'à peine 1% du total de la France, pourtant classé dans les pays moins accueillants (moins de 9% de demandes acceptées).
Sous prétexte d'utiliser des données "objectives", on peut affirmer une chose et son contraire en ayant toujours raison, et en croyant sincèrement avoir cloué le bec de l'autre partie.
Mais en réalité, c'est un peu comme si on comparait des carottes à des potirons en arguant le fait, recevable, que les deux sont des légumes de couleurs orange !
Assumer son angle
Beaucoup de visualisations de données que je vois ces derniers temps ne consistent qu'en une belle présentation de données, comme si elles pouvaient par enchantement livrer leurs secrets toutes seules.
Sans minimiser la performance technique et les efforts qu'il faut pour coder les plus belles, je trouve dommage de passer à côté d'une vraie analyse en assumant une part de subjectivité.
Dans le cas précédent, une seule des deux cartes ne livrerait qu'une partie du problème, elle le rendrait simpliste au lieu de le rendre simple, le but premier d'une visualisation de données.
Pour aller plus loin, on pourrait par exemple pointer le fait que ce sont les pays les plus peuplés d'Europe qui accueillent le plus de réfugiés, et ajouter qu'ils en refusent à la fois beaucoup parce qu'ils reçoivent un total conséquent de dossiers par rapport aux autres.
On pourrait également minimiser ces chiffres en les ramenant aux populations totales des pays et se rendre compte qu'ils sont franchement dérisoires, ou encore se pencher sur les critères de refus des dossiers.
Ce qu'une visualisation seule, aussi léchée soit-elle, ne pourra jamais faire.
Pour aller plus loin
La démonstration des cartes s'inspire en partie d'un chapitre du livre de Nicolas Gauvrit, Statistiques : méfiez-vous !.
Related Posts
Contact
Les auteurs
Commentaires récents
- L'incrackable document Word ... dans
- Nono's vrac 10 dans
- Nono's vrac 18 dans
- L'incrackable document Word ... dans
- L'incrackable document Word ... dans
- Créez vos propres Geojson avec OpenStreetMap dans
- Backup avec Borg via ssh(fs) sur Synology dans
- Va te faire foutre Disqus ! dans
- Saloperie de TrendMicro OfficeScan ! dans
- Va te faire foutre Disqus ! dans
- Va te faire foutre Disqus ! dans
- Va te faire foutre Disqus ! dans
- La fin du tracking ... commence -aussi- sur le m0le-o-blog dans
- La fin du tracking ... commence -aussi- sur le m0le-o-blog dans
- La fin du tracking ... commence -aussi- sur le m0le-o-blog dans
Étiquettes
Archives
- juin 2018 (1)
- avril 2018 (1)
- mars 2018 (1)
- décembre 2015 (1)
- avril 2015 (3)
- mars 2015 (2)
- février 2015 (3)
- janvier 2015 (1)
- décembre 2014 (5)
- novembre 2014 (4)
- octobre 2014 (4)
- septembre 2014 (5)
- août 2014 (4)
- juin 2014 (7)
- mai 2014 (14)
- avril 2014 (8)
- mars 2014 (10)
- février 2014 (9)
- janvier 2014 (3)
- décembre 2013 (2)
- novembre 2013 (5)
- octobre 2013 (6)
- septembre 2013 (8)
- août 2013 (6)
- juillet 2013 (6)
- juin 2013 (11)
- mai 2013 (7)
- avril 2013 (8)
- mars 2013 (10)
- février 2013 (9)
- janvier 2013 (9)
- décembre 2012 (7)
- novembre 2012 (16)
- octobre 2012 (11)
- septembre 2012 (9)
- août 2012 (19)
- juillet 2012 (19)
- juin 2012 (20)
- mai 2012 (24)
- avril 2012 (20)
- mars 2012 (23)
- février 2012 (27)
- janvier 2012 (28)
- décembre 2011 (28)
- novembre 2011 (28)
- octobre 2011 (1)
[…] => Surveiller les algorithmes…. 23/10/2013. «De plus en plus souvent, des algorithmes décident de notre rapport au monde. Que ce soit pour nous mettre en relation avec d’autres sur des sites de rencontres ou pour estimer notre capacité de crédit, pour nous diriger dans la ville via nos GPS voir même pour nous autoriser à retirer de l’argent à un distributeur automatique… (…).» Date du 08/10, mais j’étais passé à côté la semaine dernière. Source : http://www.internetactu.net/2013/10/08/surveiller-les-algorithmes/ Billets en relation : 25/10/2013. Projections algorithmiques : alliancegeostrategique.org/2013/10/25/projections-algorithmiques-thierry-bertier/ 26/10/2013. Les données sont-elles si objectives que ça ? : blog.m0le.net/2013/10/26/les-donnees-sont-elles-si-objectives-que-ca/ […]
[…] […]
A titre indicatif, je pense que vous aviez vu 🙂
RSLN évoque l'article de Raphi : http://www.rslnmag.fr/post/2013/11/05/quelle-objectivite-pour-les-donnees-.aspx
Et non Gof, pour ma part j'étais passé complètement à côté. Merci beaucoup pour ta vigilance 😉 !
Merci pour cet article fort intéressant, l'interprétation de statistique est toujours source de problèmes, et que ce soit un chef d'état, un dirigeant ou bien la presse en général, personne n'y échappe.
[…] les variances, être tatillon sur la manière dont les données ont été collectées, se rappeler que les données traitées ne sont pas objectives, sont autant de connaissances qui empêcheront de faire de belles erreurs et donneront un résultat […]