En
statistique, tout comme en physique, en chimie ou en biologie, donner
un résultat sans indication sur sa précision n'a que peu d'intérêt
car il n'est pas reproductible. Reprenons l'exemple d'un lancer
de pièce truquée, pour laquelle la
probabilité
de pile est
inconnue. La
fréquence empirique
des pile est
l'estimateur
naturel
de
. Si sur 100 lancers on obtient 60 pile,
l'estimation
(ponctuelle)
proposée pour
est 0.60. Mais ce résultat n'est pas reproductible. Si
on renouvelle les 100 lancers, on obtiendra probablement des estimations
différentes.
Plutôt que de donner une
estimation
ponctuelle, on
proposera un intervalle, choisi de manière à contrôler par un
niveau de confiance, les
chances
que le résultat aurait d'être
confirmé si on renouvelait l'expérience.
On cherche à distinguer les valeurs du paramètre pour lesquelles
l'observation (60 pile sur 100 lancers) est plausible, des valeurs pour
lesquelles elle est trop peu vraisemblable. Notons la fréquence
empirique et
le nombre de lancers. La
variable aléatoire
suit la
loi binomiale
. Le calcul numérique donne les
valeurs suivantes.
Pour toute valeur de inférieure à 0.523, la
probabilité
d'observer sur 100 tirages une
fréquence
supérieure à 0.60
est inférieure à 0.05.
Pour toute valeur de
supérieure à 0.682, la
probabilité
d'observer sur 100 tirages une
fréquence
inférieure à 0.60
est inférieure à 0.05. En d'autres termes, pour tout
dans l'intervalle [0.523,0.682], on a :
c'est-à-dire que 60 est dans
l'intervalle de dispersion
symétrique de niveau 0.9 pour la loi
.
Il est donc raisonnable de proposer [0.523,0.682]
comme intervalle
d'estimation
pour la
valeur de
.
La définition d'un intervalle de confiance est la suivante.
En général, les
intervalles de confiance
se construisent à partir
des
intervalles de dispersion
d'un
estimateur. Soit un
estimateur
de
. Parmi les
intervalles de dispersion
de
, nous devons effectuer
un choix cohérent (le même pour toutes les valeurs de
). Le
plus facile est de considérer
l'intervalle de dispersion
symétrique :
Si est un
estimateur convergent
de
et la taille de
l'échantillon
est assez grande, nous avons vu (proposition
1.10) que
et
sont proches de
. En pratique, si
est une loi
continue, ce sont des fonctions strictement croissantes de
.
On peut donc définir leurs inverses
et
.
Démonstration : La fonction
étant croissante, on a :
Ces deux évènements étant équivalents, leur
probabilité
est
la même, à savoir
, par définition de
l'intervalle de dispersion
.
Exemple :
loi uniforme
sur
.
Considérons un
échantillon
de la loi
, et
l'estimateur convergent
.
Nous avons vu que
l'intervalle de dispersion
optimal de niveau
est l'intervalle
unilatéral
. On a donc :
Ces fonctions sont strictement croissantes et donc inversibles.
Il est inutile de donner plus de chiffres significatifs que n'en a
l'estimation.
Les arrondis doivent toujours aller dans le sens
de la garantie du niveau de confiance (agrandissement de l'intervalle).
Les bornes inférieures seront donc arrondies par défaut et les
bornes supérieures par excès. Ici, on donnera [1.23,1.27]
comme
intervalle de confiance
pour
au niveau 0.95.
Quand la loi est discrète,
l'échantillon
et
donc
l'estimateur
ne peuvent prendre que certaines valeurs particulières.
Dans ce cas, la
fonction quantile
de
est une fonction en escalier et
les fonctions
et
ne sont
pas strictement croissantes. Pour une
loi discrète,
le niveau des
intervalles de dispersion
n'est pas exact. Tout ce qu'on
pourra garantir, c'est que :
Quand il y a ambiguïté sur la valeur prise par un intervalle de confiance, les choix à effectuer iront toujours vers la garantie du niveau de confiance. La procédure de calcul devra être telle que :