En statistique, tout comme en physique, en chimie ou en biologie, donner un résultat sans indication sur sa précision n'a que peu d'intérêt car il n'est pas reproductible. Reprenons l'exemple d'un lancer de pièce truquée, pour laquelle la probabilité de pile est inconnue. La fréquence empirique des pile est l'estimateur naturel de . Si sur 100 lancers on obtient 60 pile, l'estimation (ponctuelle) proposée pour est 0.60. Mais ce résultat n'est pas reproductible. Si on renouvelle les 100 lancers, on obtiendra probablement des estimations différentes.
Plutôt que de donner une estimation ponctuelle, on proposera un intervalle, choisi de manière à contrôler par un niveau de confiance, les chances que le résultat aurait d'être confirmé si on renouvelait l'expérience. On cherche à distinguer les valeurs du paramètre pour lesquelles l'observation (60 pile sur 100 lancers) est plausible, des valeurs pour lesquelles elle est trop peu vraisemblable. Notons la fréquence empirique et le nombre de lancers. La variable aléatoire suit la loi binomiale . Le calcul numérique donne les valeurs suivantes.
Pour toute valeur de inférieure à 0.523, la probabilité d'observer sur 100 tirages une fréquence supérieure à 0.60 est inférieure à 0.05. Pour toute valeur de supérieure à 0.682, la probabilité d'observer sur 100 tirages une fréquence inférieure à 0.60 est inférieure à 0.05. En d'autres termes, pour tout dans l'intervalle [0.523,0.682], on a :
c'est-à-dire que 60 est dans l'intervalle de dispersion symétrique de niveau 0.9 pour la loi . Il est donc raisonnable de proposer [0.523,0.682] comme intervalle d'estimation pour la valeur de .
La définition d'un intervalle de confiance est la suivante.
En général, les intervalles de confiance se construisent à partir des intervalles de dispersion d'un estimateur. Soit un estimateur de . Parmi les intervalles de dispersion de , nous devons effectuer un choix cohérent (le même pour toutes les valeurs de ). Le plus facile est de considérer l'intervalle de dispersion symétrique :
Si est un estimateur convergent de et la taille de l'échantillon est assez grande, nous avons vu (proposition 1.10) que et sont proches de . En pratique, si est une loi continue, ce sont des fonctions strictement croissantes de . On peut donc définir leurs inverses et .
Démonstration : La fonction étant croissante, on a :
Ces deux évènements étant équivalents, leur probabilité est la même, à savoir , par définition de l'intervalle de dispersion .
Exemple :
loi uniforme
sur
.
Considérons un échantillon de la loi , et l'estimateur convergent . Nous avons vu que l'intervalle de dispersion optimal de niveau est l'intervalle unilatéral . On a donc :
Ces fonctions sont strictement croissantes et donc inversibles.
Il est inutile de donner plus de chiffres significatifs que n'en a l'estimation. Les arrondis doivent toujours aller dans le sens de la garantie du niveau de confiance (agrandissement de l'intervalle). Les bornes inférieures seront donc arrondies par défaut et les bornes supérieures par excès. Ici, on donnera [1.23,1.27] comme intervalle de confiance pour au niveau 0.95.
Quand la loi est discrète, l'échantillon et donc l'estimateur ne peuvent prendre que certaines valeurs particulières. Dans ce cas, la fonction quantile de est une fonction en escalier et les fonctions et ne sont pas strictement croissantes. Pour une loi discrète, le niveau des intervalles de dispersion n'est pas exact. Tout ce qu'on pourra garantir, c'est que :
Quand il y a ambiguïté sur la valeur prise par un intervalle de confiance, les choix à effectuer iront toujours vers la garantie du niveau de confiance. La procédure de calcul devra être telle que :