Section : Estimation ponctuelle
Précédent : Qualités d'un estimateur
Suivant : Exemples d'estimateurs

Intervalles de dispersion

L'erreur quadratique mesure la concentration d'un estimateur autour de la valeur du paramètre. Les intervalles de dispersion sont un autre moyen de mesurer la plus ou moins grande concentration d'une loi de probabilité. Ils s'expriment à l'aide de la fonction quantile. Si $ T$ est une variable aléatoire, la fonction quantile de la loi de $ T$ est la fonction de [0,1] dans $ \mathbb{R}$ qui à $ u\in$ [0,1] associe :

$\displaystyle Q_T(u) = \inf\{t$ t.q. $\displaystyle \mathbb{P}[T\leq t]\geq u\}\;.
$

Définition 1.9   Soit $ T$ une variable aléatoire $ \alpha$ un réel compris entre 0 et 1. On appelle intervalle de dispersion de niveau $ 1\!-\!\alpha$ tout intervalle de la forme :

$\displaystyle [\,Q_T(\beta),Q_T(1-\alpha+\beta)\,]\;,$   avec $\displaystyle 0\leq \beta\leq \alpha\;.
$

En statistique, les réels $ \alpha$ compris entre 0 et 1 sont de tradition. La même tradition leur affecte prioritairement les valeurs 0.05 et 0.01, plus rarement 0.02, 0.005 ou 0.001. Il faut donc lire $ \alpha$ comme ''une faible proportion'', et $ 1\!-\!\alpha$ comme ''une forte proportion''. Un intervalle de dispersion de niveau $ 1\!-\!\alpha$ pour $ T$ est tel que $ T$ appartient à cet intervalle avec probabilité $ 1\!-\!\alpha$. Il contient donc une forte proportion des valeurs que prendra $ T$, même s'il est en général beaucoup plus petit que le support de la loi.

Selon les valeurs de $ \beta$, on dit qu'un intervalle de dispersion de niveau $ 1\!-\!\alpha$ est :

$ \bullet$
unilatéral inférieur si $ \beta=0$,
$ \bullet$
unilatéral supérieur si $ \beta=\alpha$,
$ \bullet$
symétrique si $ \beta=\alpha/2$,
$ \bullet$
optimal si son amplitude est la plus courte parmi tous les intervalles de dispersion de niveau $ 1\!-\!\alpha$.
Déterminer un intervalle de dispersion optimal requiert en général un calcul numérique particulier, sauf dans le cas où la loi est symétrique, comme une loi normale ou une loi de Student. On dit que la loi de $ T$ est symétrique si pour tout $ u\in$ [0,1],

$\displaystyle Q_T(u) - Q_T(0.5) = Q_T(0.5) - Q_T(1-u)\;.
$

On démontre que si la loi de $ T$ est symétrique, alors l'intervalle de dispersion symétrique est optimal.

La notion de convergence se traduit en termes d'intervalles de dispersion de la façon suivante.

Proposition 1.10   Soit $ (T_n)$ un estimateur du paramètre $ \theta$. L'estimateur $ (T_n)$ est convergent si et seulement si pour tout $ (\alpha,\beta)$, avec $ 0<\beta<\alpha$, et pour tout $ \varepsilon >0$, l'intervalle de dispersion $ [\,Q_{T_n}(\beta),Q_{T_n}(1-\alpha+\beta)\,]$ est inclus dans l'intervalle $ [\theta-\varepsilon , \theta+\varepsilon]$ à partir d'un certain $ n$.

Démonstration : Dire qu'un estimateur $ (T_n)$ est convergent, c'est dire que la probabilité que $ T_n$ appartienne à l'intervalle $ [\theta-\varepsilon , \theta+\varepsilon]$ tend vers 1 quand la taille $ n$ de l'échantillon tend vers l'infini. Si $ \beta$ est différent de 0, il existe $ n_0$ tel que pour $ n$ supérieur à $ n_0$, la probabilité que $ T_n$ soit inférieur à $ \theta-\varepsilon$, est inférieure à $ \beta$. Ceci équivaut à dire que $ \theta-\varepsilon$ est inférieur à $ Q_{T_n}(\beta)$. De même si $ \alpha\!-\!\beta$ est différent de 0, il existe $ n_1$ tel que pour $ n$ supérieur à $ n_1$, la probabilité que $ T_n$ soit inférieur à $ \theta+\varepsilon$, est supérieure à $ 1\!-\!\alpha\!+\!\beta$. Ceci équivaut à dire que $ \theta+\varepsilon$ est supérieur à $ Q_{T_n}(1-\alpha+\beta)$. Donc pour $ n$ supérieur à $ n_0$ et $ n_1$, l'intervalle de dispersion $ [\,Q_{T_n}(\beta),Q_{T_n}(1-\alpha+\beta)\,]$ est inclus dans l'intervalle $ [\theta-\varepsilon , \theta+\varepsilon]$.

Réciproquement, si $ [\,Q_{T_n}(\beta),Q_{T_n}(1-\alpha+\beta)\,]$ est inclus dans $ [\theta-\varepsilon , \theta+\varepsilon]$ à partir d'un certain $ n$, alors la probabilité que $ T_n$ soit compris entre $ \theta-\varepsilon$ et $ \theta+\varepsilon$ est supérieure à $ 1-\alpha$. Ceci étant vrai pour tout $ \alpha>0$, cette probabilité tend vers 1.$ \square$
A titre d'exemple, nous reprenons l'estimateur $ T''_n$ pour la loi uniforme $ {\cal U}(0,\theta)$, à savoir le maximum des valeurs de l'échantillon. Sa fonction quantile est la fonction qui à $ u\in$[0,1] associe :

$\displaystyle Q_{T''_n}(u) = \theta\,u^{1/n}\;.
$

Pour $ \alpha$ et $ \beta\leq \alpha$ fixés, l'intervalle de dispersion $ [\,Q_{T''_n}(\beta),Q_{T''_n}(1-\alpha+\beta)\,]$ a pour longueur :

$\displaystyle \theta(1-\alpha+\beta)^{1/n}-\theta\beta^{1/n}\;.
$

Il se trouve que l'intervalle de dispersion optimal coïncide avec l'intervalle de dispersion unilatéral supérieur ( $ \beta=\alpha$). La borne de gauche est $ \theta \alpha^{1/n}$, la borne de droite est $ \theta$. Voici quelques valeurs pour la quantité $ \alpha^{1/n}$, qui tend vers 1 quand $ n$ tend vers l'infini.

$ n\ddots \alpha$
0.05
0.01
0.001
10
0.741
0.631
0.501
100
0.970
0.955
0.933
1000
0.997
0.995
0.993


Quand la loi de la variable aléatoire $ T$ est discrète, la notion d'intervalle de dispersion recèle une certaine ambiguïté. Considérons par exemple la loi binomiale $ {\cal B}(10,0.6)$. Voici les valeurs de sa fonction de répartition.

$ i$
0
1
2
3
4
5
6
7
8
9
10
$ F(i)$
0.000
0.002
0.012
0.055
0.166
0.367
0.618
0.833
0.954
0.994
1

Fixons $ 1\!-\!\alpha=$0.9. En toute rigueur, la valeur de la fonction quantile. au point 0.9 est 7. L'intervalle [0,7] devrait donc être un intervalle de dispersion de niveau 0.9 pour la loi $ {\cal B}(10,0.6)$. Pourtant sa probabilité n'est que de 0.833. Pour les calculs utilisant les intervalles de dispersion, on applique toujours un principe de précaution, qui consiste à garantir le niveau. On ne qualifiera donc d'intervalle de dispersion de niveau $ 1\!-\!\alpha$ que les intervalles dont la probabilité est supérieure ou égale à $ 1\!-\!\alpha$. Ce principe amène à modifier la définition 1.9 pour les lois discrètes à valeurs dans $ \mathbb{N}$, en remplaçant la borne de droite $ Q_T(1-\alpha+\beta)$ par $ 1+Q_T(1-\alpha+\beta)$. Le tableau ci-dessous donne la liste des intervalles de dispersion de niveau $ \geq$ 0.9, avec leur probabilité exacte, pour la loi $ {\cal B}(10,0.6)$.


Intervalle
[0,8]
[1,8]
[2,8]
[3,8]
[4,9]
[4,10]
Probabilité
0.954
0.954
0.952
0.941
0.939
0.945

Deux intervalles sont d'amplitude minimale, [3,8] et [4,9]. On choisira celui dont la probabilité est la plus proche du niveau prescrit,à savoir [4,9].



Section : Estimation ponctuelle
Précédent : Qualités d'un estimateur
Suivant : Exemples d'estimateurs