Modèle linéaire

Section : Intervalles de confiance
Précédent : Echantillons gaussiens
Suivant : Normalité asymptotique

Modèle linéaire

Les échantillons gaussiens sont souvent utilisés pour modéliser les erreurs dans les modèles de régression. Ces modèles visent à expliquer un caractère (considéré comme aléatoire) par des caractères (déterministes) $(x^{(1)},\ldots,x^{(k)})$ . On choisit une fonction de régression , dépendant en général de plusieurs paramètres inconnus, et on écrit les variables aléatoires sous la forme :

$\displaystyle Y_i = f(x^{(1)}_i,\ldots,x^{(k)}_i)+E_i\;,$

où $(E_1,\ldots,E_n)$ est un

-uplet de variables aléatoires indépendantes et de même loi. Les paramètres inconnus de

seront estimés par la méthode des moindres carrés, en minimisant l'erreur quadratique :

$\displaystyle EQ(f) = \frac{1}{n} \sum_{i=1}^n (Y_i-f(x^{(1)}_i,\ldots,x^{(k)}_i))^2\;.$

Dans le cas où la fonction

est affine et $(E_1,\ldots,E_n)$ est un échantillon gaussien, on peut déterminer explicitement la loi des estimateurs des moindres carrés, et en déduire des intervalles de confiance.

Nous considérons seulement la régression linéaire simple :

$\displaystyle Y_i = a x_i + b +E_i\;,$

où

est un échantillon de la loi normale ${\cal N}(0,\sigma^2)$ . En d'autres termes, on suppose que les

sont des variables aléatoires gaussiennes indépendantes, d'espérances

distinctes, mais de même variance $\sigma^2$ . Le modèle comporte 3 paramètres inconnus,

, et $\sigma^2$ . On estime

en minimisant l'erreur quadratique :

$\displaystyle EQ(a,b) = \frac{1}{n} \sum_{i=1}^n (Y_i-ax_i-b)^2\;.$

On obtient ainsi les estimateurs des moindres carrés :

$\displaystyle A = \frac{c_{xY}}{s_x^2}$ et $\displaystyle \quad B = \overline{Y} - A\overline{x}\;.$

L'erreur quadratique minimale est :

$\displaystyle EQ(A,B) = S_Y^2(1-r_{xY}^2)\;.$

Ces trois variables aléatoires sont des estimateurs convergents de , et $\sigma^2$ respectivement. Les deux premiers sont non biaisés. L'espérance de est $(n\!-\!2)\sigma^2/n$ , il est donc asymptotiquement sans biais. On obtient un estimateur sans biais et convergent de $\sigma^2$ en posant :

$\displaystyle V=\frac{n}{n-2} EQ(A,B)\;.$

La prédiction est le premier objectif d'un modèle probabiliste. Dans le cas de la régression linéaire, si un nouvel individu était examiné, avec une valeur observée pour le caractère , le modèle entraîne que la valeur du caractère expliqué sur cet individu est une variable aléatoire, de loi normale ${\cal N}(ax_*+b,\sigma^2)$ . Les paramètres de cette loi auront pour estimateurs et respectivement.

Le théorème suivant permet de calculer les lois de ces estimateurs, et donc des intervalles de confiance. On peut le considérer comme une extension du théorème 3.3.

Théorème 3.4 Avec les notations précédentes :

$\displaystyle{\sqrt{\frac{ns_x^2}{\sigma^2}}(A-a)}$ suit la loi normale ${\cal N}(0,1)$ .
$\displaystyle{\sqrt{\frac{ns_x^2}{V}}(A-a)}$ suit la loi de Student ${\cal T}(n-2)$ .
$\displaystyle{\sqrt{\frac{ns_x^2}{\sigma^2(s_x^2+(x^*-\overline{x})^2)}} (Ax^*+B-ax^*-b)}$ suit la loi normale ${\cal N}(0,1)$ .
$\displaystyle{\sqrt{\frac{ns_x^2}{V(s_x^2+(x^*-\overline{x})^2)}} (Ax^*+B-ax^*-b)}$ suit la loi de Student ${\cal T}(n-2)$ .
$\displaystyle{(n-2)\frac{V}{\sigma^2}}$ suit la loi du chi-deux ${\cal X}^2(n\!-\!2)$ .

On utilise ces résultats de la même manière que le théorème 3.3 pour en déduire des intervalles de confiance. Nous notons $[-z_\alpha , z_\alpha]$ , $[-t_\alpha,t_\alpha]$ et $[u_\alpha,v_\alpha]$ les intervalles de dispersion optimaux de niveau $1\!-\!\alpha$ pour les lois ${\cal N}(0,1)$ , ${\cal T}(n-2)$ et ${\cal X}^2(n-2)$ respectivement. Voici les intervalles de confiance de niveau $1\!-\!\alpha$ correspondant aux différents points de la proposition 3.4.

Intervalle de confiance pour , si $\sigma^2$ est connu.

$\displaystyle \left[\,A-z_\alpha\sqrt{\frac{\sigma^2}{ns_x^2}}\;,\; A+z_\alpha\sqrt{\frac{\sigma^2}{ns_x^2}}\,\right]\;.$
Intervalle de confiance pour , si $\sigma^2$ est inconnu.

$\displaystyle \left[\,A-t_\alpha\sqrt{\frac{V}{ns_x^2}}\;,\; A+t_\alpha\sqrt{\frac{V}{ns_x^2}}\,\right]\;.$
Intervalle de confiance pour , si $\sigma^2$ est connu.

$\displaystyle \left[\,Ax_*+B-z_\alpha \sqrt{\frac{\sigma^2(s_x^2+(x^*-\overline... ..._\alpha\sqrt{\frac{\sigma^2(s_x^2+(x^*-\overline{x})^2)}{ns_x^2}} \,\right]\;.$
Intervalle de confiance pour , si $\sigma^2$ est inconnu.

$\displaystyle \left[\,Ax_*+B-t_\alpha \sqrt{\frac{V(s_x^2+(x^*-\overline{x})^2)... ...x_*+B+t_\alpha\sqrt{\frac{V(s_x^2+(x^*-\overline{x})^2)}{ns_x^2}} \,\right]\;.$
Intervalle de confiance pour $\sigma^2$ .

$\displaystyle \left[\,(n-2)\frac{V}{v_\alpha}\;,\;(n-2)\frac{V}{u_\alpha}\,\right]\;.$

Si on souhaite prédire la valeur de

sur un nouvel individu, il faudra tenir compte non seulement de l'erreur commise en estimant la valeur de

mais aussi de la variance $\sigma^2$ de

. Ceci augmente l'amplitude de l'intervalle. Voici l'intervalle de prédiction de

, toujours au niveau $1\!-\!\alpha$ , lorsque $\sigma^2$ est inconnu (et estimé par

$\displaystyle \left[\,Ax_*\!+\!B-t_\alpha \sqrt{\frac{V((n\!+\!1)s_x^2+(x^*\!-\... ... \sqrt{\frac{V((n\!+\!1)s_x^2+(x^*\!-\!\overline{x})^2)}{ns_x^2}} \,\right]\,.$

A titre d'exemple, considérons les tailles en centimètres (

) et poids en kilogrammes (

) de 10 enfants de 6 ans.

Enfant	1	2	3	4	5	6	7	8	9	10
Taille	121	123	108	118	111	109	114	103	110	115
Poids	25	22	19	24	19	18	20	15	20	21

Les caractéristiques numériques prennent les valeurs suivantes :

$\begin{displaymath} \begin{array}{\vert cccccccc\vert} \hline \overline{x}&\over... ...3.2&20.3&34.76&7.61&0.9&0.42&-27.38&1.44\\ \hline \end{array}\end{displaymath}$

Effectuer une régression linéaire signifie que l'on pense que le poids doit croître en gros proportionnellement à la taille. La droite de régression linéaire constitue un modèle de prédiction. Pour un enfant de taille donnée, on donnera un intervalle de poids, considéré comme ``normal'', la normalité étant définie par référence au modèle et aux données. Voici les intervalles de prédiction de niveau 0.95 pour différentes tailles.

taille	intervalle de poids
100	[10.8,18.7]
110	[15.6,22.2]
120	[19.6,26.6]
130	[23.0,31.6]

Les intervalles de prédiction sont d'autant moins précis que la taille de l'échantillon initial était faible et que la valeur de est plus éloignée de $\overline{x}$ .

Les résultats qui précèdent s'étendent aux régressions linéaires multiples. Les expressions explicites des intervalles de confiance sont trop compliquées pour être reproduites ici, mais elles sont programmées dans tous les logiciels de statistique standard.

Section : Intervalles de confiance
Précédent : Echantillons gaussiens
Suivant : Normalité asymptotique