Section : Tests sur des échantillons gaussiens
Précédent : Valeurs de l'espérance et de la variance
Suivant : Analyse de variance

Tests de Fisher et Student

Les tests de Fisher et Student servent à comparer les moyennes et les variances de deux échantillons gaussiens. Reprenons l'exemple d'un traitement destiné à diminuer le taux de cholestérol. Des taux sont mesurés sur une population témoin sans traitement, puis sur des individus après traitement. Le taux moyen après traitement est inférieur (du moins l'espère-t-on) au taux moyen du groupe témoin. La question est de savoir si la différence observée est suffisante pour rejeter l'hypothèse $ {\cal H}_0$ que le traitement n'a pas d'effet.

Pour le modèle probabiliste, on considère deux échantillons indépendants.

$ \bullet$
$ (X_1,\ldots,X_{n_x})$ est un échantillon de la loi $ {\cal N}(\mu_x,\sigma^2_x)$,
$ \bullet$
$ (Y_1,\ldots,Y_{n_y})$ est un échantillon de la loi $ {\cal N}(\mu_y,\sigma^2_y)$.
On note :
$ \bullet$
$ \overline{X} = \displaystyle{\frac{1}{n_x} \sum_{i=1}^{n_x} X_i}$ et $ \overline{Y} = \displaystyle{\frac{1}{n_y} \sum_{j=1}^{n_y} Y_j}$ les moyennes empiriques,
$ \bullet$
$ S_x^2 = \displaystyle{\frac{1}{n_x} \sum_{i=1}^{n_x} (X_i-\overline{X})^2}$ et $ S_y^2 = \displaystyle{\frac{1}{n_y} \sum_{j=1}^{n_y} (Y_j-\overline{Y})^2}$ les variances empiriques.

Le résultat théorique permettant de comparer les moyennes empiriques suppose que l'on fasse l'hypothèse que les variances théoriques $ \sigma^2_x$ et $ \sigma^2_y$ sont égales. Le but du test de Fisher est de tester cette hypothèse :

$\displaystyle {\cal H}_0\;:\; \sigma^2_x = \sigma^2_y\;.
$

D'après le théorème 3.1, les rapports des variances empiriques aux variances exactes suivent des lois du chi-deux. Le rapport pondéré de deux variables aléatoires indépendantes suivant des lois du chi-deux suit une loi de Fisher.

Théorème 3.3   Le rapport

$\displaystyle \frac{\displaystyle{\frac{n_x}{n_x-1}\frac{S_x^2}{\sigma_x^2}}}
{\displaystyle{\frac{n_y}{n_y-1}\frac{S_y^2}{\sigma_y^2}}}\;,
$

suit la loi de Fisher $ {\cal F}(n_x\!-\!1,n_y\!-\!1)$.

La statistique du test de Fisher est :

$\displaystyle T=\frac{\frac{n_x}{n_x-1}S_x^2}
{\frac{n_y}{n_y-1}S_y^2}\;.
$

Si $ {\cal H}_0$ est exacte, $ T$ suit la loi $ {\cal F}(n_x\!-\!1,n_y\!-\!1)$. On rejettera $ {\cal H}_0$ si la valeur observée pour $ T$ est trop grande ou trop petite. C'est donc un test bilatéral dont la règle de rejet au seuil $ \alpha$ est :

   Rejet de $\displaystyle {\cal H}_0\;\Longleftrightarrow\;
T\notin [\,Q_{{\cal F}(n_x-1,n_y-1)}(\alpha/2)\,,\,
Q_{{\cal F}(n_x-1,n_y-1)}(1-\alpha/2)\,]\;.
$

Sous l'hypothèse d'égalité des variances, le théorème suivant permet d'évaluer les différences entre moyennes empiriques.

Théorème 3.4   Si $ \sigma_x=\sigma_y$, la variable aléatoire :

$\displaystyle \frac{\sqrt{n_x+n_y-2}}{\sqrt{\frac{1}{n_x}+\frac{1}{n_y}}}
\frac{(\overline{X}-\overline{Y}) - (\mu_x-\mu_y)}
{\sqrt{n_xS_x^2+n_yS_y^2}}\;,
$

suit la loi de Student $ {\cal T}(n_x+n_y-2)$.

Ce résultat permet de tester l'hypothèse :

$\displaystyle {\cal H}_0\;:\; \mu_x = \mu_y\;,
$

en comparant la valeur prise par la statistique :

$\displaystyle \frac{\sqrt{n_x+n_y-2}}{\sqrt{\frac{1}{n_x}+\frac{1}{n_y}}}
\frac{(\overline{X}-\overline{Y})}
{\sqrt{n_xS_x^2+n_yS_y^2}}\;,
$

aux quantiles de la loi de Student $ {\cal T}(n_x+n_y-2)$. Cette procédure porte le nom de test de Student .

Supposons que sur les 30 patients du groupe témoin on ait observé un taux de cholestérol moyen de 240mg/dl avec un écart-type de 40mg/dl. Sur les 20 patients du groupe traité, on a observé un taux moyen de 210mg/dl avec un écart-type de 50mg/l. La statistique du test de Fisher prend la valeur 0.690, qui correspond à une p-valeur (pour le test bilatéral) de :

$\displaystyle 2F_{{\cal F}(29,19)}(0.690) = 0.2537\;.
$

On acceptera donc l'hypothèse d'égalité des variances. La statistique du test de Student prend la valeur 2.30, soit une p-valeur de :

$\displaystyle 1-F_{{\cal T}(48)}(2.30) = 0.0129\;.
$

On rejette $ {\cal H}_0$ au seuil $ \alpha=$0.05, la baisse est déclarée significative.


L'hypothèse de normalité, sous laquelle les tests de Fisher et Student sont valides n'est pas toujours vérifiée, ni même vérifiable en pratique. Pour des échantillons de grande taille, le théorème central limite assure la normalité asymptotique des moyennes empiriques. Le résultat suivant ne suppose ni que les échantillons sont gaussiens ni que leurs variances sont égales.

Théorème 3.5   Quand $ n_x$ et $ n_y$ tendent vers l'infini, la loi de la variable aléatoire :

$\displaystyle \frac{(\overline{X}-\overline{Y}) - (\mu_x-\mu_y)}
{\sqrt{\frac{S_x^2}{n_x}+\frac{S_y^2}{n_y}}}\;,
$

converge vers la loi normale $ {\cal N}(0,1)$.

Reprenons les données de l'exemple précédent. La statistique :

$\displaystyle \frac{\overline{X}-\overline{Y}}
{\sqrt{\frac{S_x^2}{n_x}+\frac{S_y^2}{n_y}}}\;,
$

prend la valeur 2.246, dont la p-valeur (par rapport à la loi $ {\cal N}(0,1)$ est :

$\displaystyle 1- F_{{\cal N}(0,1)}(2.246) = 0.0123\;.
$



Section : Tests sur des échantillons gaussiens
Précédent : Valeurs de l'espérance et de la variance
Suivant : Analyse de variance