Section : Distribution empirique
Précédent : Modèles probabilistes
Suivant : Données bidimensionnelles

Ajustement

Quand les hypothèses de modélisation conduisent à supposer que $ x_1,\ldots,x_n$ sont des réalisations de variables indépendantes et de même loi, la loi des grands nombres justifie que l'on considère cette loi comme proche de la distribution empirique. Toutes les caractéristiques usuelles de la distribution empirique seront proches des caractéristiques analogues de la loi théorique. On appelle problème d'ajustement le problème consistant à trouver, parmi une famille de lois de probabilité, celle qui se rapproche le plus d'une distribution empirique observée sur un échantillon. Il est fréquent que l'on soit amené à effectuer une transformation des données avant l'ajustement. Par exemple dans les dosages médicaux, les lois log-normales apparaissent souvent. Une variable aléatoire suit une loi log-normale si son logarithme suit une loi normale. Plutôt que d'ajuster directement avec une loi log-normale, on commencera par transformer l'échantillon en remplaçant les données par leurs logarithmes, et on ajustera le nouvel échantillon par une loi normale.

Nous nous contenterons dans un premier temps d'approches visuelles, nous introduirons ensuite des mesures quantitatives permettant d'évaluer des distances entre un modèle théorique et une distribution empirique.

Le cas le plus fréquent dans les applications est celui d'un échantillon continu. La première approche consiste à superposer sur un même graphique un histogramme des données avec la représentation graphique de la densité $ f$ de la loi théorique avec laquelle on souhaite les ajuster. L'idée est la suivante. Au-dessus d'une classe $ [a_{h-1},a_h[$, l'histogramme représente un rectangle de surface égale à la fréquence expérimentale de cette classe. Si l'échantillon était produit par simulation de la loi théorique, cette fréquence expérimentale serait proche de la probabilité théorique, qui est l'intégrale de la densité sur la classe. Donc l'histogramme serait proche de la valeur moyenne de la densité sur la classe, à savoir :

$\displaystyle \frac{1}{a_h-a_{h-1}}\int_{a_{h-1}}^{a_h} f(x)\,dx\;.
$

Un peu d'habitude permet de reconnaître à l'\oeil quand un histogramme est trop éloigné d'une densité pour que l'ajustement soit bon.

L'inconvénient de l'histogramme est qu'il comporte une part importante d'arbitraire dans le choix des classes. Une autre solution consiste à superposer la fonction de répartition de la loi théorique avec la fonction de répartition empirique $ \widehat{F}$. La justification provient encore de la loi des grands nombres. Au point $ x$, la fonction de répartition empirique a pour valeur la proportion des données qui sont inférieures à $ x$. Si les données avaient été simulées à partir de la loi théorique, cette proportion devrait être proche de la valeur correspondante de la fonction de répartition théorique. On préfère en général effectuer un changement d'axes qui donne une représentation équivalente, mais plus facile à contrôler visuellement : c'est l'ajustement par quantiles ou QQ-plot . Désignons par $ Q$ la fonction quantile de la loi théorique. Au lieu de représenter les points de coordonnées $ (x_{(i)},i/n)$, pour la fonction de répartition empirique, le QQ-plot consiste à représenter les points $ (x_{(i)},Q(i/n))$. Si l'ajustement est correct, la fonction quantile empirique de l'échantillon, devrait être proche de la fonction quantile théorique. En particulier les points $ (x_{(i)},Q(i/n))$ seront proches de la première bissectrice, ce qui est très facile à contrôler visuellement.

Pour utiles qu'elles soient, les méthodes graphiques ne constituent pas une réponse mathématique au problème de l'ajustement. Pour quantifier l'éloignement de la distribution empirique par rapport à une loi théorique, on utilise des distances entre lois de probabilités. Nous introduisons deux de ces distances, la distance du chi-deux et la distance de Kolmogorov-Smirnov . La distance du chi-deux concerne uniquement les lois discrètes, mais on peut l'utiliser aussi pour des échantillons continus regroupés en classes.

Définition 2.7   Soit $ \{c_1,\ldots,c_r\}$ un ensemble fini fixé. Soit $ P=(P(c_h))\,,\;h=1,\ldots,r$ et $ Q=(Q(c_h))\,,\;h=1,\ldots,r$ deux lois de probabilité sur cet ensemble. On appelle distance du chi-deux de $ Q$ par rapport à $ P$, et on note $ D_{\chi^2}(P,Q)$, la quantité :

$\displaystyle D_{\chi^2}(P,Q) = \sum_{h=1}^r \frac{(P(c_h)-Q(c_h))^2}{P(c_h)}\;.
$

La "distance" du chi-deux est donc une moyenne pondérée d'écarts quadratiques entre les valeurs de $ P$ et $ Q$. Ce n'est pas une distance au sens usuel du terme, puisqu'elle n'est même pas symétrique. En pratique, on l'utilise toujours dans le cas où $ P$ est une distribution théorique et $ Q$ est la distribution empirique $ \widehat{P}$.

$\displaystyle D_{\chi^2}(P,\widehat{P}) = \sum_{h=1}^r
\frac{(P(c_h)-\widehat{P}(c_h))^2}{P(c_h)}\;.
$

Pour un échantillon fixé, le meilleur ajustement sera celui pour lequel la distance du chi-deux est la plus faible.

L'autre notion de distance couramment utilisée pour les ajustements est la distance de Kolmogorov-Smirnov, qui est plus générale que la précédente. C'est la distance de la norme uniforme entre fonctions de répartitions.

Définition 2.8   Soient $ F$ et $ G$ deux fonctions de répartitions de lois de probbailité (fonctions de $ \mathbb{R}$ dans $ [0,1]$). On appelle distance de Kolmogorov-Smirnov de $ F$ et $ G$, et on note $ D_{KS}(F,G)$, la quantité :

$\displaystyle D_{KS}(F,G) = \sup_{x\in\mathbb{R}} \vert F(x)-G(x)\vert\;.
$

En pratique, on utilise cette distance dans le cas où $ F$ est la fonction de répartition de la loi théorique, et $ G=\widehat{F}$ est la fonction de répartition empirique. Rappelons que la fonction de répartition empirique de l'échantillon $ (x_1,\ldots,x_n)$ est la fonction en escalier qui vaut 0 avant $ x_{(1)}$, $ i/n$ entre $ x_{(i)}$ et $ x_{(i+1)}$, et 1 après $ x_{(n)}$ (les $ x_{(i)}$ sont les statistiques d'ordre de l'échantillon). Toute fonction de répartition est croissante. La fonction de répartition empirique étant constante entre deux valeurs successives des statistiques d'ordre, il suffira pour calculer la distance de Kolmogorov-Smirnov, d'évaluer la différence entre $ F$ et $ \widehat{F}$ aux points $ x_{(i)}$.

$\displaystyle D_{KS}(F,\widehat{F}) = \max_{i=1,\ldots,n}\,
\Big\{\,\Big\vert ...
...i}{n}\Big\vert\,,\,
\Big\vert F(x_{(i)})-\frac{i\!-\!1}{n}\Big\vert\,\Big\}\;.
$



Section : Distribution empirique
Précédent : Modèles probabilistes
Suivant : Données bidimensionnelles