Analyse de variance

Section : Tests sur des échantillons gaussiens
Précédent : Tests de Fisher et Student
Suivant : Test de corrélation

Analyse de variance

Au paragraphe précédent, nous avons vu comment le test de Student permettait de tester l'effet d'un traitement par comparaison avec un groupe témoin. On peut souhaiter évaluer les effets de plusieurs traitements différents. L'analyse de variance (analysis of variance ou ANOVA) peut être vue comme une généralisation du test de Student.

On souhaite tester les effets de traitements qui ont été administrés respectivement à $n_1,\ldots,n_k$ individus. En analyse de variance, le paramètre susceptible d'influer sur les données étudiées s'appelle un facteur, et ses valeurs sont les modalités (ici les différents traitements).

Dans le modèle probabiliste, chaque modalité correspond à un échantillon. Pour $h=1,\ldots,k$ , on note :

$\displaystyle (X^{(h)}_1,\ldots,X^{(h)}_{n_h})\;,$

les variables aléatoires modélisant les données du -ième groupe, supposées indépendantes et de même loi ${\cal N}(\mu_h,\sigma^2)$ . On suppose donc en particulier que la variance $\sigma^2$ est constante, hypothèse qu'un test pourra valider.

On cherche à savoir si la variabilité observée dans les données est uniquement due au hasard, ou s'il existe effectivement des différences significatives entre les classes, imputables au facteur. Pour cela, on va comparer les variances empiriques de chaque échantillon, à la variance de l'échantillon global, de taille $n_1+\cdots+n_k=n$ . La moyenne des variances (pondérée par les effectifs) résume la variabilité à l'intérieur des classes, d'où le nom de variance intra-classes, ou variance résiduelle. La variance des moyennes décrit les différences entre classes qui peuvent être dues au traitement, d'où le nom de variance inter-classes, ou variance expliquée.

Si les traitements ont effectivement un effet sur les dosages, on s'attend à ce que la variance expliquée soit grande, comparée à la variance résiduelle. La décomposition de la variance de l'échantillon global en variance expliquée et variance résiduelle est explicitée dans le résultat suivant.

Proposition 3.6 On note :

$\bullet$: $\overline{X}^{(h)}$ la moyenne empirique de la -ième classe,
$\bullet$: $V^{(h)}$ la variance empirique de la -ième classe,
$\bullet$: $\overline{X}$ la moyenne de l'échantillon global,
$\bullet$: $V_{intra} = \sum_{h=1}^k \frac{n_h}{n}V^{(h)}$ la moyenne des variances (variance intra-classes),
$\bullet$: $V_{inter} = \sum_{h=1}^k \frac{n_h}{n} (\overline{X}^{(h)}-\overline{X})^2$ la variance des moyennes (variance inter-classes),
$\bullet$: la variance de l'échantillon global.

Alors :

$\displaystyle S^2 = V_{intra} + V_{inter}\;.$

Démonstration : Ecrivons :

$\begin{displaymath}\begin{array}{ccc} S^2&=& \frac{1}{n} \sum_{h=1}^k \sum_{i_h=... ...overline{X})^2\\ &=& V_{intra} + 0 + V_{inter}\;. \end{array}\end{displaymath}$

$\square$

L'hypothèse à tester est l'égalité des espérances.

$\displaystyle {\cal H}_0\;:\;\mu_1=\cdots=\mu_k\;.$

Le point 3) du théorème 3.1 permet de quantifier la loi des différentes composantes de la variance, en utilisant le fait que la somme de deux variables indépendantes suivant des chi-deux suit encore une loi du chi-deux, et que leur rapport pondéré suit une loi de Fisher. Les résultats sont les suivants.

Proposition 3.7 Sous l'hypothèse ${\cal H}_0$ :

$\bullet$: $n\displaystyle{\frac{V_{intra}}{\sigma^2}}$ suit la loi du chi-deux ${\cal X}^2(n-k)$ .
$\bullet$: $n\displaystyle{\frac{V_{inter}}{\sigma^2}}$ suit la loi du chi-deux ${\cal X}^2(k-1)$ .
$\bullet$: $\displaystyle{\frac{V_{inter}/(k-1)}{V_{intra}/(n-k)}}$ suit la loi de Fisher ${\cal F}(k-1,n-k)$ .

Le test ANOVA consiste donc à rejeter l'égalité des moyennes (accepter qu'il y a un effet des traitements) quand le rapport pondéré de la variance expliquée (inter-classes) à la variance résiduelle (intra-classes) est significativement trop grand par rapport aux quantiles de la loi ${\cal F}(k-1,n-k)$ .

Reprenons les données sur le taux de cholestérol du paragraphe précédent. Le facteur a 2 modalités. La variance expliquée vaut 2.16, la variance résiduelle 19.6. Le rapport pondéré des deux est , soit une p-valeur de :

$\displaystyle 1-F_{{\cal F}(1,48)}(5.29) = 0.0258\;.$

C'est le double de la p-valeur que nous avions trouvée pour le test de Student. Dans le cas d'une analyse de variance à deux modalités, la statistique de test se trouve être le carré de la statistique du test de Student. Si une variable aléatoire suit la loi ${\cal T}(n-2)$ , son carré suit la loi ${\cal F}(1,n-2)$ . Effectuer une analyse de variance ou un test de Student bilatéral est strictement équivalent.

Si l'analyse de variance accepte l'hypothèse d'égalité des espérances, l'étude est terminée. Mais si ${\cal H}_0$ est rejetée, on peut souhaiter aller plus loin et comparer les effets du facteur, pour des sous-ensembles de modalités, en répétant des analyses de variance partielles.

On peut présenter l'analyse de variance à un facteur selon un point de vue légèrement différent. Ecrivons chacune des variables aléatoires de l'échantillon relatif à la -ième modalité sous la forme :

$\displaystyle X^{(h)}_{i_h} = \mu + a_h + E_{i_h}\;,$

où les variables aléatoires $E_{i_h}$ (les erreurs ou résidus du modèle) sont indépendantes, et de même loi ${\cal N}(0,\sigma^2)$ , Les paramètres

sont des réels tels que $a_1+\cdots+a_k=0$ . On se ramène au modèle précédent en posant $\mu_h = \mu + a_h$ . L'hypothèse testée sera bien sûr :

$\displaystyle {\cal H}_0\;:\;a_1=\cdots=a_k=0\;.$

Cette présentation a l'avantage d'isoler (dans les paramètres ) les effets fixes des facteurs. Il est fréquent que l'on ne puisse pas valider l'hypothèse d'égalité des variances, par exemple si les modalités sont en trop grand nombre ou si les tailles d'échantillons sont trop petites. On a alors recours à un modèle à effets aléatoires :

$\displaystyle X^{(h)}_{i_h} = \mu + A_h + E_{i_h}\;,$

où les effets

sont

variables aléatoires indépendantes, de loi normale ${\cal N}(0,\sigma_A^2)$ . L'hypothèse ${\cal H}_0$ devient alors :

$\displaystyle {\cal H}_0\;:\;\sigma_A^2=0\;.$

Bien que le modèle soit différent, la procédure de test est rigoureusement identique.

L'analyse de variance s'étend à l'étude des effets de plusieurs facteurs. Elle est la base d'un domaine entier de la statistique, la planification d'expérience.

Section : Tests sur des échantillons gaussiens
Précédent : Tests de Fisher et Student
Suivant : Test de corrélation