Une urne contient une proportion p de boules numérotées 1, les autres étant numérotées 0. On ne peut pas compter les boules et tout ce que l'on peut faire pour connaître p est de tirer des boules (tirages avec remise). Si on fait n tirages et qu'on recueille la fréquence de 1 obtenue, quelle information cela apporte-t-il sur p ?
On appellera sondage de taille n dans une urne l'expérience consistant à faire n tirages avec remise (donc indépendants) dans cette urne.
Le résultat d'un sondage est un échantillon de la loi de Bernoulli de paramètre p. Dans la pratique réelle des sondages, où un tirage au hasard d'individus dans une population importante est matériellement impossible, on remplace ce tirage par le choix d'une sous-population, appelée échantillon représentatif.
Dans un premier temps, nous allons, comme souvent en mathématiques, supposer le problème résolu : on fait un sondage dans une urne pour laquelle p est connu.
Un tel sondage peut aisément être simulé avec une
suite de nombres au hasard.
Nous appellerons résultat d'un sondage la
fréquence
de 1 obtenue.
On simule 50 sondages de taille n pour diverses valeurs de n.
Pour
chaque valeur de n, on a donc une série de taille 50 de nombres
compris entre 0 et 1 , dont on peut calculer certaines
statistiques
(moyenne,
écart-type, etc...)
Voici les caractéristiques de séries de 50 sondages pour différentes
valeurs de n. La valeur de p est 0.5.
n | Moyenne | Médiane | Interquartile | Minimum | Maximum | Etendue | Ecart-type |
10 | 0.5 | 0.5 | 0.2 | 0.3 | 0.8 | 0.5 | 0.146 |
100 | 0.497 | 0.5 | 0.08 | 0.39 | 0.59 | 0.2 | 0.051 |
1000 | 0.497 | 0.498 | 0.024 | 0.463 | 0.534 | 0.071 | 0.016 |
Les 50 observations sont résumées pour chaque valeur de $n$ dans la figure ci-dessous. les croix noires correspondent à n=10, les ronds bleus à n=100, les croix rouges à n=1000.
On a recommencé ensuite cette étude en fixant p successivement à 0.8 puis à 0.3.
Les résultats suivants ont été observés :
n | Moyenne | Médiane | Interquartile | Minimum | Maximum | Etendue | Ecart-type |
10 | 0.792 | 0.8 | 0.2 | 0.5 | 1 | 0.5 | 0.123 |
100 | 0.802 | 0.8 | 0.07 | 0.72 | 0.89 | 0.17 | 0.045 |
1000 | 0.799 | 0.799 | 0.016 | 0.77 | 0.826 | 0.056 | 0.012 |
n | Moyenne | Médiane | Interquartile | Minimum | Maximum | Etendue | Ecart-type |
10 | 0.298 | 0.3 | 0.2 | 0.1 | 0.5 | 0.4 | 0.11 |
100 | 0.292 | 0.285 | 0.06 | 0.2 | 0.41 | 0.21 | 0.045 |
1000 | 0.301 | 0.299 | 0.023 | 0.27 | 0.336 | 0.066 | 0.016 |
On fait maintenant 1000 sondages de taille n= 100 pour p=0.5.
n | Moyenne | Médiane | Interquartile | Minimum | Maximum | Etendue | Ecart-type |
100 | 0.499 | 0.5 | 0.06 | 0.32 | 0.65 | 0.33 | 0.05 |
Quelle proportion des
données
contiennent-ils ?
Théoriquement, cette proportion est donné par le
théorème de de Moivre-Laplace.
Par exemple, 95% des sondages de taille n seront inclus dans
l'intervalle :
En pratique le problème n'est pas de trouver quelle proportion de fréquences
est dans un intervalle donné autour de la valeur de p (que l'on cherche
à déterminer),
mais plutôt de donner, au vu d'un sondage, de donner un intervalle
raisonnable pouvant contenir p. On utilise le même
théorème de de Moivre-Laplace
pour calculer un
intervalle de confiance.
pour
p. Dans le cas des sondages un intervalle de confiance est appelé une
fourchette. Si f est la
fréquence
observée sur un sondage
de taille n, alors l'intervalle de confiance (fourchette) de niveau 0,95 pour
p sera :
Concrètement, si on calcule l'intervalle de confiance ci-dessus pour
100 sondages
indépendants
de taille n sur la même urne, on peut
s'attendre à ce qu'environ 95 contiennent la
vraie valeur de p, et environ 5 ne la contiennent pas. Ceci est illustré dans les
deux figures suivantes, où les fourchettes pour chaque sondage
sont représentées en vert si elles contiennent p=0,5, en rouge sinon.
Remarquons que le produit f(1-f) est toujours inférieur à 1/4. On élargit donc la fourchette de sondage (on augmente le niveau de confiance) en la remplaçant par :
C'est le calcul qui a été effectué pour les figures ci-dessous.