Estimation par ajustement

La modélisation probabiliste en statistique consiste à supposer qu'un échantillon observé $(x_1,\ldots,x_n)$ est une réalisation d'un échantillon théorique d'une certaine loi de probabilité $P_\theta$ , où le paramètre $\theta$ est inconnu. Si tel était le cas, la distribution empirique $\widehat{P}$ de l'échantillon observé devrait être proche de $P_\theta$ . La distribution empirique d'un échantillon est la loi de probabilité sur l'ensemble des valeurs, qui affecte chaque individu du poids

Définition 2.1 Soit $(x_1,\ldots,x_n)$ un échantillon observé, $c_1,\ldots,c_k$ les valeurs distinctes prises par les

et pour $h=1,\ldots,k$ :

$\displaystyle n_h = \sum_{i=1}^n$ 1 $\displaystyle _{c_h}(x_i)\;,$

le nombre de fois où la valeur a été observée. La distribution empirique de l'échantillon est la loi de probabilité $\widehat{P}$ sur l'ensemble $\{c_1,\ldots,c_k\}$ , telle que :

$\displaystyle \widehat{P}(c_h) = \frac{n_h}{n}\;.$

Définition 2.2 Soit $\{c_1,\ldots,c_r\}$ un ensemble fini fixé. Soit $P=(P(c_h))\,,\;h=1,\ldots,r$ une loi de probabilité sur cet ensemble, et $\widehat{P}=(\widehat{P}(c_h))\,,\;h=1,\ldots,r$ une distribution empirique sur cet ensemble. On appelle distance du chi-deux de

par rapport à

, et on note $D_{\chi^2}(P,\widehat{P})$ , la quantité :

$\displaystyle D_{\chi^2}(P,\widehat{P}) = \sum_{h=1}^r \frac{(P(c_h)-\widehat{P}(c_h))^2}{P(c_h)}\;.$

La distance de Kolmogorov-Smirnov est la distance de la norme uniforme entre fonctions de répartitions. Rappelons que la fonction de répartition empirique de l'échantillon $(x_1,\ldots,x_n)$ est la fonction de répartition de sa distribution empirique. C'est la fonction en escalier $\widehat{F}$ qui vaut 0 avant $x_{(1)}$ ,

entre $x_{(i)}$ et $x_{(i+1)}$ , et 1 après $x_{(n)}$ (les $x_{(i)}$ sont les statistiques d'ordre, c'est-à-dire les valeurs ordonnées de l'échantillon).

Définition 2.3 Soient

la fonction de répartition d'une loi de probabilité et $\widehat{F}$ la fonction de répartition empirique de l'échantillon $(x_1,\ldots,x_n)$ . On appelle distance de Kolmogorov-Smirnov de

et $\widehat{F}$ , et on note $D_{KS}(F,\widehat{F})$ , la quantité :

$\displaystyle D_{KS}(F,\widehat{F}) = \max_{i=1,\ldots,n}\, \Big\{\,\Big\vert ... ...i}{n}\Big\vert\,,\, \Big\vert F(x_{(i)})-\frac{i\!-\!1}{n}\Big\vert\,\Big\}\;.$

Etant donnés un échantillon et une famille de lois de probabilité $P_\theta$ , dépendant du paramètre inconnu $\theta$ , il est naturel de choisir comme modèle celle des lois de la famille qui s'ajuste le mieux aux données. Cela revient à donner comme estimation de $\theta$ celle pour laquelle la distance entre la loi théorique $P_\theta$ et la distribution empirique de l'échantillon est la plus faible.

Cette distance est évidemment minimale pour

. Ceci s'étend trivialement à un nombre fini quelconque d'éventualités : la loi de probabilité qui ajuste le mieux une distribution empirique sur $c_1,\ldots,c_k$ au sens de la distance du chi-deux est celle qui charge chaque valeur

avec une probabilité égale à la fréquence expérimentale de cette valeur.

En pratique, il est rare que l'on puisse ainsi calculer explicitement l'estimation d'un paramètre par ajustement. On doit alors procéder à une minimisation numérique sur le paramètre inconnu.