Section : Intervalles de confiance
Précédent : Echantillons gaussiens
Suivant : Normalité asymptotique

Modèle linéaire

Les échantillons gaussiens sont souvent utilisés pour modéliser les erreurs dans les modèles de régression. Ces modèles visent à expliquer un caractère $ Y$ (considéré comme aléatoire) par des caractères (déterministes) $ (x^{(1)},\ldots,x^{(k)})$. On choisit une fonction de régression $ f$, dépendant en général de plusieurs paramètres inconnus, et on écrit les variables aléatoires $ Y_i$ sous la forme :

$\displaystyle Y_i = f(x^{(1)}_i,\ldots,x^{(k)}_i)+E_i\;,
$

$ (E_1,\ldots,E_n)$ est un $ n$-uplet de variables aléatoires indépendantes et de même loi. Les paramètres inconnus de $ f$ seront estimés par la méthode des moindres carrés, en minimisant l'erreur quadratique :

$\displaystyle EQ(f) = \frac{1}{n} \sum_{i=1}^n (Y_i-f(x^{(1)}_i,\ldots,x^{(k)}_i))^2\;.
$

Dans le cas où la fonction $ f$ est affine et $ (E_1,\ldots,E_n)$ est un échantillon gaussien, on peut déterminer explicitement la loi des estimateurs des moindres carrés, et en déduire des intervalles de confiance.

Nous considérons seulement la régression linéaire simple :

$\displaystyle Y_i = a x_i + b +E_i\;,
$

$ E_i$ est un échantillon de la loi normale $ {\cal N}(0,\sigma^2)$. En d'autres termes, on suppose que les $ Y_i$ sont des variables aléatoires gaussiennes indépendantes, d'espérances $ ax_i+b$ distinctes, mais de même variance $ \sigma^2$. Le modèle comporte 3 paramètres inconnus, $ a$, $ b$, et $ \sigma^2$. On estime $ a$ et $ b$ en minimisant l'erreur quadratique :

$\displaystyle EQ(a,b) = \frac{1}{n} \sum_{i=1}^n (Y_i-ax_i-b)^2\;.
$

On obtient ainsi les estimateurs des moindres carrés :

$\displaystyle A = \frac{c_{xY}}{s_x^2}$   et$\displaystyle \quad
B = \overline{Y} - A\overline{x}\;.
$

L'erreur quadratique minimale est :

$\displaystyle EQ(A,B) = S_Y^2(1-r_{xY}^2)\;.
$

Ces trois variables aléatoires sont des estimateurs convergents de $ a$, $ b$ et $ \sigma^2$ respectivement. Les deux premiers sont non biaisés. L'espérance de $ EQ(A,B)$ est $ (n\!-\!2)\sigma^2/n$, il est donc asymptotiquement sans biais. On obtient un estimateur sans biais et convergent de $ \sigma^2$ en posant :

$\displaystyle V=\frac{n}{n-2} EQ(A,B)\;.
$

La prédiction est le premier objectif d'un modèle probabiliste. Dans le cas de la régression linéaire, si un nouvel individu était examiné, avec une valeur observée $ x_*$ pour le caractère $ x$, le modèle entraîne que la valeur $ Y_*$ du caractère expliqué sur cet individu est une variable aléatoire, de loi normale $ {\cal N}(ax_*+b,\sigma^2)$. Les paramètres de cette loi auront pour estimateurs $ Ax_*+B$ et $ EQ(A,B)$ respectivement.

Le théorème suivant permet de calculer les lois de ces estimateurs, et donc des intervalles de confiance. On peut le considérer comme une extension du théorème 3.3.

Théorème 3.4   Avec les notations précédentes :
  1. $ \displaystyle{\sqrt{\frac{ns_x^2}{\sigma^2}}(A-a)}$ suit la loi normale $ {\cal N}(0,1)$.
  2. $ \displaystyle{\sqrt{\frac{ns_x^2}{V}}(A-a)}$ suit la loi de Student $ {\cal T}(n-2)$.
  3. $ \displaystyle{\sqrt{\frac{ns_x^2}{\sigma^2(s_x^2+(x^*-\overline{x})^2)}}
(Ax^*+B-ax^*-b)}$ suit la loi normale $ {\cal N}(0,1)$.
  4. $ \displaystyle{\sqrt{\frac{ns_x^2}{V(s_x^2+(x^*-\overline{x})^2)}}
(Ax^*+B-ax^*-b)}$ suit la loi de Student $ {\cal T}(n-2)$.
  5. $ \displaystyle{(n-2)\frac{V}{\sigma^2}}$ suit la loi du chi-deux $ {\cal X}^2(n\!-\!2)$.

On utilise ces résultats de la même manière que le théorème 3.3 pour en déduire des intervalles de confiance. Nous notons $ [-z_\alpha , z_\alpha]$, $ [-t_\alpha,t_\alpha]$ et $ [u_\alpha,v_\alpha]$ les intervalles de dispersion optimaux de niveau $ 1\!-\!\alpha$ pour les lois $ {\cal N}(0,1)$, $ {\cal T}(n-2)$ et $ {\cal X}^2(n-2)$ respectivement. Voici les intervalles de confiance de niveau $ 1\!-\!\alpha$ correspondant aux différents points de la proposition 3.4.
  1. Intervalle de confiance pour $ a$, si $ \sigma^2$ est connu.

    $\displaystyle \left[\,A-z_\alpha\sqrt{\frac{\sigma^2}{ns_x^2}}\;,\;
A+z_\alpha\sqrt{\frac{\sigma^2}{ns_x^2}}\,\right]\;.
$

  2. Intervalle de confiance pour $ a$, si $ \sigma^2$ est inconnu.

    $\displaystyle \left[\,A-t_\alpha\sqrt{\frac{V}{ns_x^2}}\;,\;
A+t_\alpha\sqrt{\frac{V}{ns_x^2}}\,\right]\;.
$

  3. Intervalle de confiance pour $ ax_*+b$, si $ \sigma^2$ est connu.

    $\displaystyle \left[\,Ax_*+B-z_\alpha
\sqrt{\frac{\sigma^2(s_x^2+(x^*-\overline...
..._\alpha\sqrt{\frac{\sigma^2(s_x^2+(x^*-\overline{x})^2)}{ns_x^2}}
\,\right]\;.
$

  4. Intervalle de confiance pour $ ax_*+b$, si $ \sigma^2$ est inconnu.

    $\displaystyle \left[\,Ax_*+B-t_\alpha
\sqrt{\frac{V(s_x^2+(x^*-\overline{x})^2)...
...x_*+B+t_\alpha\sqrt{\frac{V(s_x^2+(x^*-\overline{x})^2)}{ns_x^2}}
\,\right]\;.
$

  5. Intervalle de confiance pour $ \sigma^2$.

    $\displaystyle \left[\,(n-2)\frac{V}{v_\alpha}\;,\;(n-2)\frac{V}{u_\alpha}\,\right]\;.
$

Si on souhaite prédire la valeur de $ Y_*=ax_*+b+E_*$ sur un nouvel individu, il faudra tenir compte non seulement de l'erreur commise en estimant la valeur de $ ax_*+b$ mais aussi de la variance $ \sigma^2$ de $ E_*$. Ceci augmente l'amplitude de l'intervalle. Voici l'intervalle de prédiction de $ Y_*$, toujours au niveau $ 1\!-\!\alpha$, lorsque $ \sigma^2$ est inconnu (et estimé par $ V$).

$\displaystyle \left[\,Ax_*\!+\!B-t_\alpha
\sqrt{\frac{V((n\!+\!1)s_x^2+(x^*\!-\...
...
\sqrt{\frac{V((n\!+\!1)s_x^2+(x^*\!-\!\overline{x})^2)}{ns_x^2}}
\,\right]\,.
$

A titre d'exemple, considérons les tailles en centimètres ($ x_i$) et poids en kilogrammes ($ y_i$) de 10 enfants de 6 ans.

Enfant
1
2
3
4
5
6
7
8
9
10
Taille
121
123
108
118
111
109
114
103
110
115
Poids
25
22
19
24
19
18
20
15
20
21

Les caractéristiques numériques prennent les valeurs suivantes :

\begin{displaymath}
\begin{array}{\vert cccccccc\vert}
\hline
\overline{x}&\over...
...3.2&20.3&34.76&7.61&0.9&0.42&-27.38&1.44\\
\hline
\end{array}\end{displaymath}

Effectuer une régression linéaire signifie que l'on pense que le poids doit croître en gros proportionnellement à la taille. La droite de régression linéaire constitue un modèle de prédiction. Pour un enfant de taille donnée, on donnera un intervalle de poids, considéré comme ``normal'', la normalité étant définie par référence au modèle et aux données. Voici les intervalles de prédiction de niveau 0.95 pour différentes tailles.

taille
intervalle de poids
100
[10.8,18.7]
110
[15.6,22.2]
120
[19.6,26.6]
130
[23.0,31.6]

Les intervalles de prédiction sont d'autant moins précis que la taille de l'échantillon initial était faible et que la valeur de $ x_*$ est plus éloignée de $ \overline{x}$.


Les résultats qui précèdent s'étendent aux régressions linéaires multiples. Les expressions explicites des intervalles de confiance sont trop compliquées pour être reproduites ici, mais elles sont programmées dans tous les logiciels de statistique standard.



Section : Intervalles de confiance
Précédent : Echantillons gaussiens
Suivant : Normalité asymptotique