Dans cette section, nous illustrons les notions d'estimateur, de convergence et de biais sur trois exemples, l'estimation d'une variance, le problème des questions confidentielles, et les comptages par capture-recapture.
Estimateurs de la variance.
Soit
un
échantillon
d'une loi inconnue
, qui sera
supposée admettre des moments de tous ordres. Nous
avons vu que la
moyenne empirique
est un
estimateur convergent
de
l'espérance.
C'est un
estimateur sans biais,
et sa
variance
est égale à la
variance
de la loi
, divisée par
. Comment estimer la
variance
de
?
L'estimateur
le plus naturel
est le suivant.
Si
Démonstration : Calculons tout d'abord
.
Par définition d'un
échantillon,
sont
indépendantes
et de même loi. Donc
et
.
En reportant ces valeurs on obtient :
On a donc :
Pour transformer en un
estimateur
non
biaisé,
il suffit de corriger
le
biais
par un facteur multiplicatif.
On peut estimer
l'écart-type
par
ou bien
. Notons
qu'en général aussi bien
que
sont des
estimateurs
biaisés
de
.
La différence entre les deux
estimateurs
tend vers
0 quand la taille
de
l'échantillon
tend vers l'infini. Néanmoins,
la plupart des calculatrices proposent les deux
estimateurs
de
l'écart-type
(touches
et
). Certains logiciels
(en particulier Scilab) calculent par défaut la valeur de
ou
, d'autres
ou
. Dans la suite, nous
utiliserons surtout
, malgré l'inconvénient du
biais.
Questions confidentielles.
Certains sujets abordés dans les enquêtes d'opinion sont parfois
assez intimes, et on court le risque que les personnes interrogées
se refusent à répondre franchement à l'enquêteur, faussant ainsi le
résultat. On peut alors avoir recours à une astuce consistant à
inverser aléatoirement les réponses . Considérons une question
confidentielle pour laquelle on veut estimer la
probabilité
de
réponses positives. L'enquêteur demande à chaque personne interrogée
de lancer un dé. Si le
dé tombe sur
, la personne doit
donner sa réponse sans mentir, sinon elle doit donner l'opinion contraire
à la sienne. Si l'enquêteur ignore le résultat du dé, il ne pourra
pas savoir si la réponse est franche ou non, et on peut espérer
que la personne sondée acceptera de jouer le jeu. Généralisons
légèrement la situation en tirant pour chaque personne une variable
de
Bernoulli
de paramètre
. Si le résultat de cette variable
est 1, la réponse est franche, sinon, elle est inversée.
Soit
le nombre de personnes interrogées.
L'enquêteur ne recueille que la
fréquence empirique
des ``oui''.
La proportion inconnue des ``oui'' à l'issue de la procédure est
, et la
fréquence
observée
par l'enquêteur est un
estimateur sans biais
et convergent de
.
Remarquons que si
,
vaut 1/2 quel
que soit
. Mais si
1/2, on peut exprimer
en fonction
de
:
L'espérance
de est
.
La
variance
de
vaut :
L'estimateur
est sans
biais, sa
variance
tend vers 0, il
est donc convergent.
Pour fixé,
la
variance
de
tend vers l'infini quand
tend vers 1/2.
Elle est minimale si
0 ou 1 (mais alors la procédure
perd tout son intérêt). Le problème est donc de choisir
une valeur de
qui soit assez grande pour que la confidentialité
soit crédible, mais suffisamment éloignée de 1/2 pour ne pas
trop augmenter la
variance
de l'estimateur.
Pour le dé, la
valeur de
est 1/6 et le terme additionnel de la variance
est proportionnel à
0.3125.
Comptages par capture-recapture
Comment estimer le nombre d'espèces d'insectes vivant sur la terre,
alors que de nombreuses espèces sont encore inconnues ? Comment
connaît-on la
population
de baleines dans les océans ? Le comptage
par capture-recapture permet d'évaluer des tailles de
population
pour
lesquelles un recensement exhaustif est impossible. La méthode est basée
sur une idée simple. Considérons une
population, de taille inconnue.
On prélève dans un premier temps un
groupe d'individus, de taille
fixée. Ces individus sont
recensés et marqués de façon à être reconnus ultérieurement.
Plus tard,
on prélève un nouveau groupe de taille
, et on observe
le nombre
d'individus marqués dans ce nouveau groupe. Si
le deuxième prélèvement est indépendant du premier, la loi
de
est la
loi hypergéométrique
de paramètres
,
et
,
d'espérance
. On peut s'attendre à ce que la proportion
d'individus marqués dans le deuxième
échantillon
soit
proche de la proportion d'individus marqués dans l'ensemble de la
population,
. Il est donc raisonnable de proposer comme estimateur
de
la quantité suivante :
L'inconvénient de cet
estimateur
est qu'il n'est pas défini
si prend la valeur 0, ce qui arrive avec une
probabilité
strictement
positive. On peut corriger ce défaut de deux manières. La première
consiste à remplacer
par
, ce qui ne devrait pas fausser trop
le résultat si les nombres envisagés sont assez grands. Posons donc :
La seconde manière consiste à décider de rejeter a priori les
échantillons
pour lesquels on n'obtiendrait pas
d'individu
marqué.
Ceci revient à remplacer par une autre
variable aléatoire
dont la loi est la loi conditionnelle de
sachant que
est strictement
positif. Posons donc
Les deux
estimateurs
sont
biaisés,
le premier a tendance à sous-estimer
, le deuxième à le sur-estimer.
L'écart-type
augmente plus rapidement
que
. Il est naturel que la précision relative soit d'autant plus
faible que les
échantillons
recueillis sont petits devant la taille
inconnue de la population.