Comment estimer la taille d’une population lorsque l’on ne peut pas la recenser ?
Ceci se produit très souvent : par exemple pour estimer le nombre de morts dans un incendie, un tremblement de terre ou une guerre ; comment estimer le nombre de prostitué-e-s, de clandestins ou de sans-abris sur un territoire ? Enfin en écologie et en gestion des ressources naturelles il est important de savoir le nombre de poissons dans la mer, de cerfs dans la forêt de Brotonne, ou d’escargots dans le jardin du voisin.
C’est là qu’il va falloir faire preuve d’un peu d’imagination et de connaissance en statistique.
Il est fréquent d’avoir plusieurs décomptes partiels. Regardons quelques exemples (voir ici ou là par exemple) :
- Le nombre de cas de diabètes dans une ville peut être estimé à partir des rapports cliniques, des ventes de médicaments, des ventes d’insuline ou d’autres sources (voir ici pour une liste de publications sur le sujet).
- Le nombre de personnes présentes dans les tours du World Trade Center (WTC) le 9 septembre 2001 peut être estimé à partir des auto-identifications, de la liste des survivants établie au port de New York ou des listes fournies par les sociétés du WTC (voir ici).
- Le nombre de morts au Kosovo pendant la guerre peut être estimé par différentes organisations internationales (voir ici).
Il existe évidemment plein d’autres exemple comme le nombre de prostitués, de sans-abris ou d’enfants avec des malformations.
Pour simplifier nous allons considérer le cas où nous avons une information partielle provenant de deux sources, c’est-à-dire que deux organisations ont répertorié une partie des individus (ceux qu’elles ont pu voir) : certains individus sont repérés par les deux sources, d’autres par une seule source et enfin certains n’ont été vus par aucune des deux sources. Reprenons l’exemple de la guerre au Kosovo et croisons les listes de Human Right Watch (HRW) et de l’organisation pour la sécurité et la coopération (OSCE) : L’OSCE a recensé 1786 victimes et HRW en a recensé 685. Parmi les 2247 victimes recensées par les deux organisations, 224 victimes ont été recensées à la fois par l’OSCE et HRW. Nous avons donc le tableau suivant :
Le travail du statisticien est ici de proposer une valeur \(z\) pour le point d’interrogation ?? qui correspond au nombre de victimes recensées par aucune des deux organisations. Pour cela il va falloir poser un modèle et faire quelques hypothèses. Le cas le plus simple (et le seul que nous allons traiter ici) est de supposer que les deux organisations ont travaillé complètement indépendamment. Un petit calcul montre alors que la probabilité de recenser une victime sur une liste n’est pas influencée par la probabilité de recenser (ou non) la victime sur l’autre liste. Ceci permet d’écrire :
\[1562 ⁄ (224+1562) = z ⁄ (461+z)\]
et un rapide calcul donne z= 3214.65. Le nombre total de victimes peut donc être estimé à 2247+3214.65 c’est à dire environ 5462 victimes au printemps 1999 au Kosovo. À partir de là, il faut quantifier l’incertitude de l’estimation mais c’est au-delà de notre propos. Pour mémoire les auteurs de l’étude estiment qu’entre le 20 mars 1999 et le 22 juin 1999 il y a eu un peu plus de 10 000 morts au Kosovo.
Revenons à des exemples moins tragiques : si vous voulez estimer le nombre de thons rouges en Méditerranée, il est possible pêcher les thons et de les relâcher. On peut évidemment effectuer cette opération une deuxième fois, mais il va être difficile d’identifier ceux qui ont été vus lors des deux campagnes. Pour cela il est classique de marquer les animaux lors du premier recensement (marque à dard pour les thons ou bague pour un oiseau) et donc il devient possible de reconstruire le tableau précédent avec le nombre d’animaux vus deux fois et le nombre d’animaux vus une seule fois. Ceci permet donc d’estimer le nombre d’animaux non vus. Les méthodes de capture-marquage-recapture sont aussi très utiles pour estimer la tailler des populations d’oiseaux (voir ici par exemple).
Notons que l’on suppose, dans les exemples précédents, que la population ne varie pas entre les deux campagnes. On parle de population fermée. Dans la pratique il faut aussi estimer la variation de population (mortalité, migration, etc..) et ceci complique un peu l’histoire.
Pour finir, la méthode présentée est appelée estimateur de Petersen du nom de l’écologiste qui l’a présenté en 1894 mais on attribue en général l’idée à Pierre Simon Laplace (1749–1827) qui a estimé en 1786 le nombre de naissances en France à partir du nombre de naissances de quelques paroisses. Il faudra attendre le 20 septembre 1792 pour la création de l’état civil.
Post-scriptum
Ce billet est également paru sur le blog Statisquement Vôtre de Sciences et Avenir.
Il est possible d’utiliser des commandes LaTeX pour rédiger des commentaires — mais nous ne recommandons pas d’en abuser ! Les formules mathématiques doivent être composées avec les balises .
Par exemple, on pourra écrire que sont les deux solutions complexes de l’équation .
Si vous souhaitez ajouter une figure ou déposer un fichier ou pour toute autre question, merci de vous adresser au secrétariat.