Section : Intervalles de confiance
Précédent : Intervalles de confiance
Suivant : Echantillons gaussiens

Définitions

En statistique, tout comme en physique, en chimie ou en biologie, donner un résultat sans indication sur sa précision n'a que peu d'intérêt car il n'est pas reproductible. Reprenons l'exemple d'un lancer de pièce truquée, pour laquelle la probabilité $ p$ de pile est inconnue. La fréquence empirique des pile est l'estimateur naturel de $ p$. Si sur 100 lancers on obtient 60 pile, l'estimation (ponctuelle) proposée pour $ p$ est 0.60. Mais ce résultat n'est pas reproductible. Si on renouvelle les 100 lancers, on obtiendra probablement des estimations différentes.

Plutôt que de donner une estimation ponctuelle, on proposera un intervalle, choisi de manière à contrôler par un niveau de confiance, les chances que le résultat aurait d'être confirmé si on renouvelait l'expérience. On cherche à distinguer les valeurs du paramètre pour lesquelles l'observation (60 pile sur 100 lancers) est plausible, des valeurs pour lesquelles elle est trop peu vraisemblable. Notons $ F$ la fréquence empirique et $ n$ le nombre de lancers. La variable aléatoire $ nF$ suit la loi binomiale $ {\cal B}(n,p)$. Le calcul numérique donne les valeurs suivantes.

$\displaystyle Q_{{\cal B}(100,0.523)}(0.95) = 60$   et$\displaystyle \quad
Q_{{\cal B}(100,0.682)}(0.05) = 60\;.
$

Pour toute valeur de $ p$ inférieure à 0.523, la probabilité d'observer sur 100 tirages une fréquence supérieure à 0.60 est inférieure à 0.05. Pour toute valeur de $ p$ supérieure à 0.682, la probabilité d'observer sur 100 tirages une fréquence inférieure à 0.60 est inférieure à 0.05. En d'autres termes, pour tout $ p$ dans l'intervalle [0.523,0.682], on a :

$\displaystyle 60\in [\,Q_{{\cal B}(100,p)}(0.05)\,,\,Q_{{\cal B}(100,p)}(0.05)\,]\;,
$

c'est-à-dire que 60 est dans l'intervalle de dispersion symétrique de niveau 0.9 pour la loi $ {\cal B}(100,p)$. Il est donc raisonnable de proposer [0.523,0.682] comme intervalle d'estimation pour la valeur de $ p$.

La définition d'un intervalle de confiance est la suivante.

Définition 3.1   Soit $ (X_1,\ldots,X_n)$ un échantillon de la loi $ P_\theta$. On appelle intervalle de confiance de niveau $ 1\!-\!\alpha$ un intervalle aléatoire $ [T_1,T_2]$, où $ T_1\leq T_2$ sont deux statistiques, fonction de l'échantillon, telles que :

$\displaystyle \mathbb{P}[\, \theta\in[T_1\,,\, T_2]\,]= 1-\alpha\;.
$

Si on réalise $ n$ simulations indépendantes de la loi $ P_\theta$, les variables aléatoires $ T_1$ et $ T_2$ prendront des valeurs particulières $ t_1$ et $ t_2$. L'encadrement $ \theta\in [t_1,t_2]$ sera alors vrai ou faux. Pour $ \alpha=$0.05, si on répète 100 fois la série de $ n$ expériences pour obtenir 100 intervalles, on peut s'attendre à ce que cinq d'entre eux ne contiennent pas $ \theta$.

En général, les intervalles de confiance se construisent à partir des intervalles de dispersion d'un estimateur. Soit $ T$ un estimateur de $ \theta$. Parmi les intervalles de dispersion de $ T$, nous devons effectuer un choix cohérent (le même pour toutes les valeurs de $ \theta$). Le plus facile est de considérer l'intervalle de dispersion symétrique :

$\displaystyle [Q_T(\alpha/2)\,,\,Q_T(1-\alpha/2)]\;.
$

Sauf si la loi de $ T$ est symétrique (les intervalles symétriques sont alors optimaux), on obtiendra des résultats plus précis en calculant les intervalles de dispersion optimaux (dont l'amplitude est minimale). Ce choix étant effectué, fixons le niveau $ 1\!-\!\alpha$ et notons $ [\underline{q}(\theta)\,,\,\overline{q}(\theta)]$ l'intervalle de dispersion pour la loi de $ T$. Pour toute valeur de $ \theta$, on a :

$\displaystyle \mathbb{P}[\,T\in[\underline{q}(\theta)\,,\, \overline{q}(\theta)]\,] = 1-\alpha\;.
$

Si $ T$ est un estimateur convergent de $ \theta$ et la taille de l'échantillon est assez grande, nous avons vu (proposition 1.10) que $ \underline{q}(\theta)$ et $ \overline{q}(\theta)$ sont proches de $ \theta$. En pratique, si $ P_\theta$ est une loi continue, ce sont des fonctions strictement croissantes de $ \theta$. On peut donc définir leurs inverses $ \underline{q}^{-1}(t)$ et $ \overline{q}^{-1}(t)$.

Proposition 3.2   Si $ \underline{q}$ et $ \overline{q}$ sont strictement croissantes, l'intervalle $ [\overline{q}^{-1}(T)\,,\,\underline{q}^{-1}(T)]$ est un intervalle de confiance de niveau $ 1\!-\!\alpha$ pour $ \theta$.

Démonstration : La fonction $ \underline{q}(\theta)$ étant croissante, on a :

$\displaystyle \theta\leq \underline{q}^{-1}(T) \;\Longleftrightarrow\;
T\geq \underline{q}(\theta)\;,
$

et de même :

$\displaystyle \theta\geq \overline{q}^{-1}(T) \;\Longleftrightarrow\;
T\leq \overline{q}(\theta)\;,
$

soit :

$\displaystyle \theta\in [ \overline{q}^{-1}(T)\,,\,\underline{q}^{-1}(T)]
\;\Longleftrightarrow\;
T\in [\underline{q}(\theta)\,,\,\overline{q}(\theta)]\;.
$

Ces deux évènements étant équivalents, leur probabilité est la même, à savoir $ 1\!-\!\alpha$, par définition de l'intervalle de dispersion $ [\underline{q}(\theta)\,,\,\overline{q}(\theta)]$.$ \square$


Exemple : loi uniforme sur $ [0,\theta]$.


Considérons un échantillon $ (X_1,\ldots,X_n)$ de la loi $ {\cal U}(0,\theta)$, et l'estimateur convergent $ T=\max\{X_1,\ldots,X_n\}$. Nous avons vu que l'intervalle de dispersion optimal de niveau $ 1\!-\!\alpha$ est l'intervalle unilatéral $ [\theta\alpha^{1/n},\theta]$. On a donc :

$\displaystyle \underline{q}(\theta) = \theta \alpha^{1/n}$   et$\displaystyle \quad
\overline{q}(\theta)=\theta\;.
$

Ces fonctions sont strictement croissantes et donc inversibles.

$\displaystyle \overline{q}^{-1}(t) = t$   et$\displaystyle \quad
\underline{q}^{-1}(t)=t\alpha^{-1/n}\;.
$

L'intervalle $ [T,T\alpha^{-1/n}]$ est un intervalle de confiance de niveau $ 1\!-\!\alpha$ pour $ \theta$. Remarquons que l'amplitude de l'intervalle diminue (la précision augmente) si $ n$ et $ \alpha$ augmentent (le niveau de confiance diminue). Supposons par exemple que pour 100 tirages de la loi $ {\cal U}(0,\theta)$, le maximum $ T$ ait pris la valeur 1.23. Pour $ \alpha=0.05$, la valeur numérique de la borne supérieure est :

$\displaystyle 1.23\,(0.05)^{-1/100} = 1.267405\;.
$

Il est inutile de donner plus de chiffres significatifs que n'en a l'estimation. Les arrondis doivent toujours aller dans le sens de la garantie du niveau de confiance (agrandissement de l'intervalle). Les bornes inférieures seront donc arrondies par défaut et les bornes supérieures par excès. Ici, on donnera [1.23,1.27] comme intervalle de confiance pour $ \theta$ au niveau 0.95.


Quand la loi $ P_\theta$ est discrète, l'échantillon $ (X_1,\ldots,X_n)$ et donc l'estimateur $ T$ ne peuvent prendre que certaines valeurs particulières. Dans ce cas, la fonction quantile de $ T$ est une fonction en escalier et les fonctions $ \underline{q}(\theta)$ et $ \overline{q}(\theta)$ ne sont pas strictement croissantes. Pour une loi discrète, le niveau des intervalles de dispersion n'est pas exact. Tout ce qu'on pourra garantir, c'est que :

$\displaystyle \mathbb{P}[\,T\in [\underline{q}(\theta)\,,\,\overline{q}(\theta)]\,]\geq 1-\alpha\;.
$

Quand il y a ambiguïté sur la valeur prise par un intervalle de confiance, les choix à effectuer iront toujours vers la garantie du niveau de confiance. La procédure de calcul devra être telle que :

$\displaystyle \mathbb{P}[\, \theta\in[T_1\,,\, T_2]\,] \geq 1-\alpha.
$



Section : Intervalles de confiance
Précédent : Intervalles de confiance
Suivant : Echantillons gaussiens