La
modélisation
probabiliste en statistique
consiste à supposer
qu'un
échantillon
observé
est une réalisation
d'un
échantillon
théorique d'une certaine loi de probabilité
, où le paramètre
est inconnu. Si tel était
le cas, la
distribution empirique
de l'échantillon
observé devrait être proche de
. La distribution empirique
d'un
échantillon
est la
loi de probabilité
sur l'ensemble des valeurs,
qui affecte chaque
individu
du poids
.
le nombre de fois où la valeur a été observée.
La
distribution empirique
de
l'échantillon
est la loi de probabilité
sur l'ensemble
, telle que :
La
distance de Kolmogorov-Smirnov
est la distance de la norme uniforme
entre fonctions de répartitions. Rappelons que la
fonction de répartition
empirique de
l'échantillon
est la fonction de
répartition de sa
distribution empirique.
C'est la fonction en escalier
qui vaut 0 avant
,
entre
et
,
et 1 après
(les
sont les
statistiques d'ordre,
c'est-à-dire les valeurs ordonnées de l'échantillon).
Etant donnés un
échantillon
et une famille de
lois de probabilité
, dépendant du paramètre inconnu
, il est naturel
de choisir comme
modèle
celle des lois de la famille qui s'ajuste le
mieux aux
données.
Cela revient à donner comme
estimation
de
celle pour laquelle la distance entre la loi théorique
et la
distribution empirique
de
l'échantillon
est la plus faible.
Considérons par exemple un
échantillon
de
données
binaires. Notons
la
fréquence empirique
des 1. La
distance du chi-deux
entre
la
loi de Bernoulli
de paramètre
et la distribution empirique
est :
Cette distance est évidemment minimale pour . Ceci s'étend
trivialement à un nombre fini quelconque d'éventualités : la
loi de probabilité
qui ajuste le mieux une distribution empirique
sur
au sens de la
distance du chi-deux
est celle
qui charge chaque valeur
avec une
probabilité
égale
à la
fréquence expérimentale
de cette valeur.
En pratique, il est rare que l'on puisse ainsi calculer explicitement l'estimation d'un paramètre par ajustement. On doit alors procéder à une minimisation numérique sur le paramètre inconnu.