Un problème de sondage simplifié

C. Robert


Une urne contient une proportion p de boules numérotées 1, les autres étant numérotées 0. On ne peut pas compter les boules et tout ce que l'on peut faire pour connaître p est de tirer des boules (tirages avec remise). Si on fait n tirages et qu'on recueille la fréquence de 1 obtenue, quelle information cela apporte-t-il sur p ?

On appellera sondage de taille n dans une urne l'expérience consistant à faire n tirages avec remise (donc indépendants) dans cette urne.

Le résultat d'un sondage est un échantillon de la loi de Bernoulli de paramètre p. Dans la pratique réelle des sondages, où un tirage au hasard d'individus dans une population importante est matériellement impossible, on remplace ce tirage par le choix d'une sous-population, appelée échantillon représentatif.

Cas où p est connu

Dans un premier temps, nous allons, comme souvent en mathématiques, supposer le problème résolu : on fait un sondage dans une urne pour laquelle p est connu.

Un tel sondage peut aisément être simulé avec une suite de nombres au hasard.

Nous appellerons résultat d'un sondage la fréquence de 1 obtenue.

On simule 50 sondages de taille n pour diverses valeurs de n. Pour chaque valeur de n, on a donc une série de taille 50 de nombres compris entre 0 et 1 , dont on peut calculer certaines statistiques (moyenne, écart-type, etc...)
Voici les caractéristiques de séries de 50 sondages pour différentes valeurs de n. La valeur de p est 0.5.

n Moyenne Médiane Interquartile Minimum Maximum Etendue Ecart-type
10 0.5 0.5 0.2 0.3 0.8 0.5 0.146
100 0.497 0.5 0.08 0.39 0.59 0.2 0.051
1000 0.497 0.498 0.024 0.463 0.534 0.071 0.016

Les 50 observations sont résumées pour chaque valeur de $n$ dans la figure ci-dessous. les croix noires correspondent à n=10, les ronds bleus à n=100, les croix rouges à n=1000.

Voici les diagrammes en boîtes des trois échantillons.

On a recommencé ensuite cette étude en fixant p successivement à 0.8 puis à 0.3.

Les résultats suivants ont été observés :

$ p = 0.8$
50 sondages pour chaque valeur de n.
n Moyenne Médiane Interquartile Minimum Maximum Etendue Ecart-type
10 0.792 0.8 0.2 0.5 1 0.5 0.123
100 0.802 0.8 0.07 0.72 0.89 0.17 0.045
1000 0.799 0.799 0.016 0.77 0.826 0.056 0.012

$ p = 0.3$
50 sondages pour chaque valeur de n.
n Moyenne Médiane Interquartile Minimum Maximum Etendue Ecart-type
10 0.298 0.3 0.2 0.1 0.5 0.4 0.11
100 0.292 0.285 0.06 0.2 0.41 0.21 0.045
1000 0.301 0.299 0.023 0.27 0.336 0.066 0.016


Les six échantillons sont représentés sur la figure ci-dessous (les conventions de couleurs sont celles de la figure précédente.


Voici les diagrammes en boîtes des six échantillons.


On fait maintenant 1000 sondages de taille n= 100 pour p=0.5.

$ p = 0.5$
1000 sondages de taille 100
n Moyenne Médiane Interquartile Minimum Maximum Etendue Ecart-type
100 0.499 0.5 0.06 0.32 0.65 0.33 0.05


Dans le graphique ci-dessus, chaque point représente la fréquence f des 1 pour un des 1000 sondages de taille 100. Des intervalles de dispersion symétriques par rapport à 0,5 ont été représentés.

Quelle proportion des données contiennent-ils ? Théoriquement, cette proportion est donné par le théorème de de Moivre-Laplace. Par exemple, 95% des sondages de taille n seront inclus dans l'intervalle :

p  +  1,96 (p(1-p)/n)(1/2) ;  p  -  1,96 (p(1-p)/n)(1/2) ]


Cas où p est inconnu



En pratique le problème n'est pas de trouver quelle proportion de fréquences est dans un intervalle donné autour de la valeur de p (que l'on cherche à déterminer), mais plutôt de donner, au vu d'un sondage, de donner un intervalle raisonnable pouvant contenir p. On utilise le même théorème de de Moivre-Laplace pour calculer un intervalle de confiance. pour p. Dans le cas des sondages un intervalle de confiance est appelé une fourchette. Si f est la fréquence observée sur un sondage de taille n, alors l'intervalle de confiance (fourchette) de niveau 0,95 pour p sera :

f  +  1,96 (f(1-f)/n)(1/2) ;  f  -  1,96 (f(1-f)/n)(1/2) ]


Concrètement, si on calcule l'intervalle de confiance ci-dessus pour 100 sondages indépendants de taille n sur la même urne, on peut s'attendre à ce qu'environ 95 contiennent la vraie valeur de p, et environ 5 ne la contiennent pas. Ceci est illustré dans les deux figures suivantes, où les fourchettes pour chaque sondage sont représentées en vert si elles contiennent p=0,5, en rouge sinon.

Remarquons que le produit f(1-f) est toujours inférieur à 1/4. On élargit donc la fourchette de sondage (on augmente le niveau de confiance) en la remplaçant par :

f  +  (n)(-1/2) ;  f  -  (n)(-1/2) ]

C'est le calcul qui a été effectué pour les figures ci-dessous.