Section : Tests sur des échantillons gaussiens
Précédent : Test de corrélation
Suivant : Hypothèses alternatives

Modèle linéaire

Dans de nombreuses situations, on cherche à expliquer des différences observées sur un caractère statistique, en les attribuant à l'effet d'autres caractères mesurés sur les mêmes individus. Dans l'analyse de variance, les caractères explicatifs (facteurs) ne pouvaient prendre qu'un nombre fini de modalités. Les modèles de régression sont surtout adaptés aux cas où les caractères explicatifs sont continus.

La modélisation probabiliste considère que la mesure (à expliquer) effectuée sur un individu donné est une variable aléatoire, dont la loi dépend des valeurs prises sur cet individu par les caractères explicatifs, considérés comme déterministes. Si $ Y_i$ désigne la variable aléatoire associée à l'individu $ i$, et $ (x^{(1)}_i,\ldots,x^{(k)}_i)$ les valeurs prises pour cet individu par les caractères explicatifs $ (x^{(1)},\ldots,x^{(k)})$, on séparera l'effet déterministe et l'effet aléatoire par un modèle du type :

$\displaystyle Y_i = f(x^{(1)}_i,\ldots,x^{(k)}_i)+E_i\;,
$

$ (E_1,\ldots,E_n)$ est un $ n$-uplet de variables aléatoires indépendantes et de même loi. On parle alors de modèle de régression. La fonction $ f$ dépend de un ou plusieurs paramètres inconnus que l'on doit estimer. On choisit pour cela de minimiser l'erreur quadratique définie par :

$\displaystyle EQ(f) = \frac{1}{n} \sum_{i=1}^n (Y_i-f(x^{(1)}_i,\ldots,x^{(k)}_i))^2\;.
$

Dans certains cas classiques, on sait résoudre explicitement ce problème de minimisation, et la solution est implémentée dans les environnements de calculs statistiques. Quand une résolution explicite est impossible, on a recours à des algorithmes de minimisation, comme l'algorithme du gradient.

Nous considérons seulement la régression linéaire simple :

$\displaystyle Y_i = a x_i + b +E_i\;,
$

$ E_1,\ldots,E_n$ est un échantillon de la loi normale $ {\cal N}(0,\sigma^2)$. En d'autres termes, on suppose que les $ Y_i$ sont des variables aléatoires gaussiennes indépendantes, d'espérances $ ax_i+b$ distinctes, mais de même variance $ \sigma^2$. Le modèle comporte 3 paramètres inconnus, $ a$, $ b$, et $ \sigma^2$.

Les valeurs de $ a$ et $ b$ qui minimisent l'erreur quadratique s'expriment en fonction des moyennes, variances et covariances empiriques de $ x$ et de $ Y$. Nous notons :

$ \bullet$
$ \overline{x}=\frac{1}{n}\sum x_i$ la moyenne empirique de $ x$.
$ \bullet$
$ s^2_x=\frac{1}{n}\sum (x_i-\overline{x})^2$ la variance empirique de $ x$.
$ \bullet$
$ \overline{Y}=\frac{1}{n}\sum Y_i$ la moyenne empirique de $ Y$.
$ \bullet$
$ S^2_Y=\frac{1}{n}\sum (Y_i-\overline{Y})^2$ la variance empirique de $ Y$.
$ \bullet$
$ c_{xY} = \frac{1}{n}\sum (x_i-\overline{x})
(Y_i-\overline{Y})$ la covariance de $ x$ et $ Y$.
$ \bullet$
$ r_{xY} = \frac{c_{xY}}{\sqrt{s_x^2S_Y^2}}$ le coefficient de corrélation de $ x$ et $ Y$.

On estime $ a$ et $ b$ en minimisant l'erreur quadratique :

$\displaystyle EQ(a,b) = \frac{1}{n} \sum_{i=1}^n (Y_i-ax_i-b)^2\;.
$

On obtient ainsi les estimateurs dits des moindres carrés :

$\displaystyle A= \frac{c_{xY}}{s_x^2}$   et$\displaystyle \quad
B= \overline{Y} - A \overline{x}\;.
$

L'erreur quadratique minimale est :

$\displaystyle EQ(A,B)=S_Y^2(1-r_{xY}^2)\;.
$

Ces trois variables aléatoires sont des estimateurs convergents de $ a$, $ b$ et $ \sigma^2$ respectivement. On obtient un estimateur sans biais et convergent de $ \sigma^2$ en posant :

$\displaystyle V=\frac{n}{n-2} EQ(A,B)\;.
$

Le résultat suivant permet de calculer les lois de ces estimateurs, et donc d'en déduire des tests sur les valeurs des paramètres. On peut le considérer comme une extension du théorème 3.1.

Théorème 3.9   Avec les notations précédentes :
  1. $ \displaystyle{\sqrt{\frac{ns_x^2}{\sigma^2}}(A-a)}$ suit la loi normale $ {\cal N}(0,1)$.
  2. $ \displaystyle{\sqrt{\frac{ns_x^2}{V}}(A-a)}$ suit la loi de Student $ {\cal T}(n-2)$.
  3. $ \displaystyle{(n-2)\frac{V}{\sigma^2}}$ suit la loi du chi-deux $ {\cal X}^2(n\!-\!2)$.

La première hypothèse que l'on souhaitera tester est que le caractère explicatif n'apporte pas d'information, c'est-à-dire que la pente $ a$ de la droite de régression linéaire est nulle :

$\displaystyle {\cal H}_0\;:\;a=0\;.
$

Selon que $ \sigma^2$ est supposé connu ou inconnu, on utilisera le point 1) ou le point 2) du théorème. Supposons par exemple que $ \sigma^2$ soit inconnu, la statistique de test est :

$\displaystyle T= \sqrt{\frac{ns_x^2}{V}}A\;.
$

Pour le test bilatéral de seuil $ \alpha$, la règle de décision est :

   Rejet de $\displaystyle {\cal H}_0\;\Longleftrightarrow\;
T\notin [\,Q_{{\cal T}(n-2)}(\alpha/2)\,,\,
Q_{{\cal T}(n-2)}(1-\alpha/2)\,]\;.
$

Ce test est évidemment très proche du test de corrélation, même si les hypothèses de modélisation sont différentes.



Section : Tests sur des échantillons gaussiens
Précédent : Test de corrélation
Suivant : Hypothèses alternatives