Dans cette section, nous illustrons les notions d'estimateur, de convergence et de biais sur trois exemples, l'estimation d'une variance, le problème des questions confidentielles, et les comptages par capture-recapture.
Estimateurs de la variance.
Soit 
 un 
échantillon
 d'une loi inconnue 
, qui sera
supposée admettre des moments de tous ordres. Nous
avons vu que la 
moyenne empirique
 
est un 
estimateur convergent
 de 
l'espérance.
 C'est un 
estimateur sans biais,
et sa 
variance
 est égale à la 
variance
 de la loi 
, divisée par 
. Comment estimer la 
variance
 de 
 ? 
L'estimateur
 le plus naturel
est le suivant.
Si
Démonstration : Calculons tout d'abord 
.
Par définition d'un 
échantillon, 
 sont 
indépendantes
et de même loi. Donc 
 et 
.
En reportant ces valeurs on obtient :
 
On a donc :
Pour transformer 
 en un 
estimateur
 non 
biaisé, 
il suffit de corriger
le 
biais
 par un facteur multiplicatif.
On peut estimer 
l'écart-type
 par 
 ou bien 
. Notons
qu'en général aussi bien 
 que 
 sont des 
estimateurs
 
biaisés
 de 
.
La différence entre les deux 
estimateurs
 tend vers
0 quand la taille 
 de 
l'échantillon
 tend vers l'infini. Néanmoins,
la plupart des calculatrices proposent les deux 
estimateurs
 de 
l'écart-type
 (touches 
 et 
). Certains logiciels 
(en particulier Scilab) calculent par défaut la valeur de 
 ou 
, d'autres 
 ou 
. Dans la suite, nous 
utiliserons surtout 
, malgré l'inconvénient du 
biais.
Questions confidentielles.
Certains sujets abordés dans les enquêtes d'opinion sont parfois
assez intimes, et on court le risque que les personnes interrogées 
se refusent à répondre franchement à l'enquêteur, faussant ainsi le
résultat. On peut alors avoir recours à une astuce consistant à  
inverser aléatoirement les réponses . Considérons une question 
confidentielle pour laquelle on veut estimer la 
probabilité
 
 de 
réponses positives. L'enquêteur demande à chaque personne interrogée 
de lancer un dé. Si le 
dé tombe sur 
, la personne doit
donner sa réponse sans mentir, sinon elle doit donner l'opinion contraire
à la sienne. Si l'enquêteur ignore le résultat du dé, il ne pourra
pas savoir si la réponse est franche ou non, et on peut espérer
que la personne sondée acceptera de jouer le jeu. Généralisons
légèrement la situation en tirant pour chaque personne une variable
de 
Bernoulli
 de paramètre 
. Si le résultat de cette variable
est 1, la réponse est franche, sinon, elle est inversée.
Soit 
 le nombre de personnes interrogées. 
L'enquêteur  ne recueille que la 
fréquence empirique
 
 des ``oui''.
La proportion inconnue des ``oui'' à l'issue de la procédure est
, et la 
fréquence
 
 observée
par l'enquêteur est un 
estimateur sans biais
 et convergent de 
. 
Remarquons que si 
, 
 vaut 1/2 quel
que soit 
. Mais si 
 1/2, on peut exprimer 
 en fonction
de 
 :
L'espérance
 de 
 est 
. 
La 
variance
 de 
 vaut :
L'estimateur
 
 est sans 
biais, sa 
variance
 tend vers 0, il
est donc convergent.
Pour 
 fixé,
la 
variance
 de 
 tend vers l'infini quand 
 tend vers 1/2.
Elle est minimale si 
0 ou 1 (mais alors la procédure
perd tout son intérêt). Le problème est donc de choisir
une valeur de 
 qui soit assez grande pour que la confidentialité
soit crédible, mais suffisamment éloignée de 1/2 pour ne pas
trop augmenter la 
variance
 de l'estimateur. 
Pour le dé, la
valeur de 
 est 1/6 et le terme additionnel de la variance
est proportionnel à 
0.3125.
Comptages par capture-recapture
Comment estimer le nombre d'espèces d'insectes vivant sur la terre,
alors que de nombreuses espèces sont encore inconnues ? Comment
connaît-on la 
 population 
 de baleines dans les océans ? Le comptage
par capture-recapture permet d'évaluer des tailles de 
 population 
 pour
lesquelles un recensement exhaustif est impossible. La méthode est basée 
sur une idée simple. Considérons une 
population, de taille 
 inconnue. 
On prélève dans un premier temps un
groupe d'individus, de taille 
 fixée. Ces individus sont
recensés et marqués de façon à être reconnus ultérieurement. 
Plus tard,
on prélève un nouveau groupe de taille 
, et on observe
le nombre 
 d'individus marqués dans ce nouveau groupe. Si
le deuxième prélèvement est indépendant du premier, la loi
de 
 est la 
loi hypergéométrique
 de paramètres 
, 
 et 
,
d'espérance
 
. On peut s'attendre à ce que la proportion 
d'individus marqués dans le deuxième 
échantillon
 soit
proche de la proportion d'individus marqués dans l'ensemble de la
population, 
. Il est donc raisonnable de proposer comme estimateur
de 
 la quantité suivante :
L'inconvénient de cet 
estimateur
 est qu'il n'est pas défini
si 
 prend la valeur 0, ce qui arrive avec une 
probabilité
 strictement
positive. On peut corriger ce défaut de deux manières. La première
consiste à remplacer 
 par 
, ce qui ne devrait pas fausser trop
le résultat si les nombres envisagés sont assez grands. Posons donc :
La seconde manière consiste à décider de rejeter a priori les
échantillons 
 pour lesquels on n'obtiendrait pas 
d'individu
 marqué.
Ceci revient à remplacer 
 par une autre 
variable aléatoire
 
dont la loi est la loi conditionnelle de 
 sachant que 
 est strictement
positif. Posons donc
Les deux 
estimateurs
 sont 
biaisés,
 le premier a tendance à sous-estimer
, le deuxième à le sur-estimer. 
L'écart-type
 augmente plus rapidement
que 
. Il est naturel que la précision relative soit d'autant plus
faible que les 
échantillons 
 recueillis sont petits devant la taille 
inconnue de la population.