Le diable est dans les chiffres

Écrit par Étienne Ghys

Publié le 20 août 2009

Maths et société

J’écoutais ce matin une émission à la radio sur les récentes élections présidentielles en Iran ¹ . J’entends une intervenante dire que la fraude a été prouvée statistiquement. Intrigué par cette affirmation, je ne tarde pas à trouver la référence à un article du Washington Post daté du 20 juin et intitulé :

The Devil is in the Digits.

Le diable est dans les chiffres…

Diable ? !

L’article est signé par Bernd Beber et Alexandra Scacco, doctorants en sciences politiques à l’Université de Columbia à New York ².

La méthode employée est astucieuse. Les auteurs consultent les résultats officiels des élections, pour chacune des 29 provinces iraniennes et pour chacun des quatre candidats. Par exemple, dans la province de Hormozgan, Moussavi a obtenu 241 988 voix. Ils ne retiennent de ces résultats que le chiffre des unités, 8 sur cet exemple. Evidemment, les 116 chiffres obtenus, compris entre 0 et 9, n’ont pas grand chose à voir avec le résultat de l’élection. Les auteurs affirment (avec raison) que si les élections avaient été justes, ces 116 chiffres seraient aléatoires. Mais ils affirment également que les 116 chiffres constatés ne sont pas répartis aléatoirement. Ils en concluent que ces chiffres ont été fabriqués, en rappelant que lorsqu’on demande à quelqu’un de choisir un chiffre, il ne le choisit en fait presque jamais au hasard (nous avons paraît-il une tendance à choisir souvent le chiffre 7). Admettons la méthode, et cherchons à comprendre pourquoi les auteurs pensent que la distribution des 116 chiffres est suspecte.

Voici (une traduction de) ce qu’ils écrivent ³:

« Ces chiffres paraissent suspects. Nous trouvons trop de 7 et pas assez de 5. On espère trouver chaque chiffre (0,1,2 etc.) dans 10 % des cas. Mais dans les provinces d’Iran, le chiffre 7 apparaît dans 17 % des cas et on a seulement 4 % pour le chiffre 5. Deux tels écarts à la moyenne — un pic supérieur à 17 % et un creux de moins de 4 % — sont extrêmement peu probables. Moins de 4 % d’élections non frauduleuses produiraient de tels résultats. »

Que penser de cela ? Que ce n’est pas sérieux tout simplement. La probabilité de trouver un 7 par exemple est bien sûr 1/10. Si l’on considère 116 nombres entiers pris au hasard, on devrait effectivement trouver qu’environ 10 % d’entre eux se terminent par 7. On peut même déterminer un « intervalle de confiance » dans lequel on peut affirmer que le pourcentage constaté se situe avec une probabilité d’erreur de 5 % : le calcul montre qu’il s’agit de l’intervalle compris entre 6,5 % et 15,5 % ⁴. Le 17 % constaté n’est pas dans cet intervalle de confiance : voilà l’argument des auteurs. Mais ils ont choisi le chiffre 7 a posteriori et ils ont pris celui qui allait dans leur sens ! S’il y a 95 % de chances pour qu’un pourcentage soit compris entre 6,5 % et 15,5 %, alors la probabilité pour que dix tentatives successives et indépendantes ⁵ donnent un résultat dans cet intervalle est de 0,95 à la puissance 10, c’est-à-dire à peu près 0,6. On peut donc dire qu’il y a 40 % de chances pour qu’au moins l’un des dix chiffres mène à un pourcentage « suspect » en dehors de cet intervalle de confiance. Ici ce sont les pourcentages de 5 et de 7 qui sortent de l’intervalle, voilà tout. Les auteurs ignorent, ou feignent d’ignorer, qu’il existe des méthodes statistiques qui permettent de comparer des « distributions » plutôt que des nombres. La plus célèbre s’appelle le test du \(\chi^2\) qui permet de déterminer si une distribution de nombres est « suspecte » par rapport à une distribution théorique. Dans le cas présent, le test en question ne détecte rien de particulièrement suspect.

Lisons la « conclusion » de l’article ⁶ ⁷ :

« La probabilité qu’une élection juste puisse produire […] la déviation suspecte sur le dernier chiffre que nous avons décrite est inférieure à 5 pour 1000. En d’autres termes, un pari que les résultats [des élections] sont honnêtes serait de 1 contre 200. »

Bien sûr, je ne suis pas le premier à protester contre les méthodes de cet article ! Voyez par exemple ce blog dans lequel le calcul du⁸ \(\chi^2\) est bien expliqué. Il est intéressant de lire la réponse de l’un des auteurs (Bernd Beber) à ces critiques (qu’on trouve sur sa page internet). Il écrit :

« Le test du \(\chi^2\) est-il plus adapté pour ce type de données ? Oui ! »

Ainsi, il reconnaît son erreur… Mais il continue ⁹:

« Mais ce test est-il le plus adapté pour le pour le public général ? Ce serait le cas s’il n’y avait pas d’alternative plus transparente qui contienne la même intuition et qui donne le même résultat en substance. Notre opinion est que le test statistique que nous avons proposé est précisément une telle alternative. »

La science devrait donc être modifiée lorsqu’il s’agit du « public général »…

Ce n’est évidemment pas la première fois — ni la dernière — qu’on fait dire à des statistiques ce qu’elles ne peuvent pas dire. En 1904, les trois célèbres mathématiciens Appell, Darboux et Poincaré sont consultés à propos de l’usage de la théorie des probabilités dans l’affaire Dreyfus. Les « arguments » de Bertillon concernant le document appelé « bordereau » sont-ils justifiés ?

L’article de Laurent Rollet « Autour de l’affaire Dreyfus – Henri Poincaré et l’action politique » sur cet épisode de l’histoire des rapports entre mathématiciens et politique est très intéressant.

Le rapport (de 100 pages !) écrit par nos trois mathématiciens est d’une précision incroyable. En voici la conclusion :

En résumé, tous ces systèmes sont absolument dépourvus de toute valeur scientifique :

1° Parce que l’application du calcul des probabilités à ces matières n’est pas légitime ;

2° Parce que la reconstitution du bordereau est fausse ;

3° Parce que les règles du calcul des probabilités n’ont pas été correctement appliquées.

En un mot, parce que les auteurs ont raisonné mal sur des documents faux.

Signé : Poincaré, Darboux, Appell

Aujourd’hui, plus de cent ans plus tard, le point 1° de cette conclusion est très certainement discutable ¹⁰… Mais l’exemple du Washington Post montre qu’il arrive encore en 2009 de raisonner mal sur le calcul de probabilités !

Le diable se cache dans les chiffres…

Commentaires

Quentin AGREN

août 20, 2009
19h47

J’ai beaucoup aimé ce billet, qui rappelle, je pense, le devoir critique que nous avons tous vis à vis de la masse d’information que l’on nous assène au quotidien.Ici, ce sont des méthodes mathématiques qui sont critiquées, et on ne peut qu’apprécier la précision et la légitimité des objections que cela autorise ! Malheureusement, en général, je trouve que lire la presse et décider ou non d’y croire, relève plus d’un acte de foi que d’une délibération raisonnable. Enfin, heureusement, quand ça touche au grands sujets de notre temps, comme les fluctuations du pouls de notre cher président, ou les dernières vacances de la famille Obama, la précision des chroniques et les nombreux documents à l’appui ne peuvent que nous convaincre que tout cela est parfaitement transparent !

Mais pour revenir à l’article du Washington Post, il y est aussi question de l’occurence de paires de chiffres consécutifs à la fin des données.Vous n’en faites pas mention dans le billet. Est-ce parce que les arguments quant à l’apparition de telles paires dans des suites de nombres données par des hommes, ne vous paraîssent pas très pertinents ?

Merci encore pour ce billet très intéressant !

Connectez-vous pour répondre

Étienne Ghys

août 22, 2009
17h07

Merci pour votre retour.

Pour ce qui est des deux chiffres consécutifs, je dois avouer que je n’ai pas du tout regardé cela.

Il est vrai que si on continue à chercher toutes sortes de tests : dernier chiffre, second chiffre, premier chiffre, paires de chiffes consécutifs, il est bien probable qu’on va finir par trouver quelque chose qui cloche !

Voyez ma réponse au commentaire suivant.

Connectez-vous pour répondre

AdrienK

août 21, 2009
23h59

Aurait-il été possible d’utiliser le premier chiffre (au lieu du dernier) et de comparer les résultats à la loi de Benford ?

Connectez-vous pour répondre

par Étienne Ghys

août 22, 2009
17h04

Cela a été fait !

D’abord un mot sur cette loi de Benford selon laquelle les premiers chiffres d’une série aléatoire de nombres ne sont pas équidistribués : le chiffre 1 par exemple apparaît dans 30 % des cas… Cette « loi » méritera probablement un article dans Images des Maths un de ces jours ! Une chose est importante cependant : pour pouvoir l’appliquer, il faut que les nombres considérés s’étalent sur un grand nombre d’ordres de grandeurs, ce qui ne me semble pas vraiment le cas ici ! Affirmer « a priori » que la loi de Benford devrait être satisfaite pour une élection juste me semble pour le moins discutable… Alors déduire du fait qu’elle n’est pas satisfaite la « conséquence » qu’il y a eu fraude me semble un peu rapide….

En tous les cas, je vous recommande deux prépublications récentes (en n’oubliant jamais qu’une pré-publication signifie précisément que le contenu n’a pas été avalisé par une revue scientifique, et que même si elle était publiée dans une revue respectable, ce ne serait pas pour autant la preuve que son contenu est correct :-))

Boudewijn F. Roukema, « Benford’s Law Anomalies in the 2009 Iranian Presidential Elections ». Ceci pour l’analyse du premier chiffre.

Walter R. Mebane, Note on the presidential election in Iran, June 2009 pour le second chiffre.

Je n’ai pas trouvé d’article analysant le troisième chiffre…

Je vous laisse vous faire votre opinion vous même : science ou numérologie ?

Connectez-vous pour répondre

Écrire un commentaire

Il est possible d’utiliser des commandes LaTeX pour rédiger des commentaires — mais nous ne recommandons pas d’en abuser ! Les formules mathématiques doivent être composées avec les balises .
Par exemple, on pourra écrire que sont les deux solutions complexes de l’équation .

Si vous souhaitez ajouter une figure ou déposer un fichier ou pour toute autre question, merci de vous adresser au secrétariat.

Le diable est dans les chiffres

ÉCRIT PAR

Étienne Ghys

Commentaires

Écrire un commentaire