Section : Tests non paramétriques
Précédent : Test sur la valeur d'un quantile
Suivant : Test du chi-deux

Test de Kolmogorov-Smirnov

Le test de Kolmogorov-Smirnov est un test d'ajustement à une loi continue, qui prend en compte l'ensemble des quantiles, contrairement au test local du paragraphe précédent. Le modèle est encore un échantillon $ (X_1,\ldots,X_n)$ d'une loi inconnue $ P$. L'hypothèse nulle est :

$\displaystyle {\cal H}_0\;:\;$la loi $ P$ a pour fonction de répartition $ F_0$$\displaystyle \;,
$

$ F_0$ est la fonction de répartition d'une loi continue donnée.

L'idée est la suivante : si l'hypothèse $ {\cal H}_0$ est correcte, alors la fonction de répartition empirique $ \widehat{F}$ de l'échantillon doit être proche de $ F_0$. La fonction de répartition empirique est la fonction de $ \mathbb{R}$ dans [0,1], qui vaut :

\begin{displaymath}
\widehat{F}(x) = \left\{
\begin{array}{lcl}
0 &\mbox{pour}& ...
...&\vdots&\\
1&\mbox{pour}&x\geq X_{(n)}\;,
\end{array}\right.
\end{displaymath}

où les $ X_{(i)}$ sont les statistiques d'ordre de l'échantillon (valeurs de l'échantillon rangées par ordre croissant). En d'autres termes, $ \widehat{F}(x)$ est la proportion d'éléments de l'échantillon qui sont inférieurs ou égaux à $ x$.

On mesure l'adéquation de la fonction de répartition empirique à la fonction $ F_0$ par la distance de Kolmogorov-Smirnov, qui est la distance de la norme uniforme entre fonctions de répartitions. Pour la calculer, il suffit d'évaluer la différence entre $ \widehat{F}$ et $ F_0$ aux points $ X_{(i)}$.

$\displaystyle D_{KS}(F_0,\widehat{F}) = \max_{i=1,\ldots,n}\,
\Big\{\,\Big\ver...
...{n}\Big\vert\,,\,
\Big\vert F_0(X_{(i)})-\frac{i\!-\!1}{n}\Big\vert\,\Big\}\;.
$

Sous l'hypothèse $ {\cal H}_0$, la loi de la statistique $ D_{KS}(F_0,\widehat{F})$ ne dépend pas de $ F_0$, car les images de $ X_i$ par $ F_0$ sont des variables aléatoires de loi $ {\cal U}(0,1)$. Mais la fonction de répartition de $ D_{KS}(F_0,\widehat{F})$ n'a pas d'expression explicite simple et doit être calculée numériquement. Pour des échantillons de taille suffisante, on utilise le résultat asymptotique suivant :

Proposition 2.2   Sous l'hypothèse $ {\cal H}_0$, on a, pour tout $ t\geq 0$ :

$\displaystyle \lim_{n\rightarrow\infty}
\mathbb{P}_{{\cal H}_0}[\,\sqrt{n}D_{KS}(F_0,\widehat{F})\leq t\,] =
1-2\sum_{k=1}^{+\infty}(-1)^{k+1}\exp(-2k^2t^2)\;.
$

La série converge très rapidement. En pratique, pour t>0.56, la somme des trois premiers termes donne déjà une approximation avec une erreur inférieure à 10-4.

Si l'hypothèse $ {\cal H}_0$ est fausse, $ \sqrt{n}D_{KS}(F_0,\widehat{F})$ tend vers $ +\infty$ avec $ n$. Le test est donc nécessairement unilatéral à droite (rejet des valeurs trop grandes). Supposons que la distance $ D_{KS}(F_0,\widehat{F})$ ait pris la valeur 0.047 pour un échantillon de taille $ n=$1000. La statistique $ \sqrt{n}D_{KS}(F_0,\widehat{F})$ vaut $ t=$1.486. La p-valeur correspondante est :

$\displaystyle p(t) \simeq 2\sum_{k=1}^{3}(-1)^{k+1}\exp(-2k^2t^2)=0.0241\;.
$

Le test de Kolmogorov-Smirnov s'étend à la comparaison de deux fonctions de répartition empiriques, et permet alors de tester l'hypothèse que deux échantillons sont issus de la même loi. Bien d'autres tests d'ajustement peuvent être utilisés, comme ceux de Stephens, Anderson-Darling et Cramer-von Mises.



Section : Tests non paramétriques
Précédent : Test sur la valeur d'un quantile
Suivant : Test du chi-deux