Le postulat de
modélisation
sur lequel toute étude
statistique
est
basée est le suivant :
Quand on observe un caractère statistique sur une population, si l'ordre dans lequel on prend les individus n'a pas d'importance, on choisira de considérer que les données sont des réalisations de variables aléatoires indépendantes et de même loi. Cette loi de probabilité décrit la variabilité du caractère. Même dans le cas où les individus ne sont pas interchangeables, comme pour une série chronologique ou un problème de régression, la modélisation consistera à se ramener, en soustrayant au besoin une fonction déterministe, au cas d'un échantillon de variables aléatoires indépendantes.
Le mot
échantillon
prend en statistique
deux sens différents,
selon que l'on parle des
données
observées ou du
modèle probabiliste.
L'hypothèse
de
modélisation
consiste à voir
l'échantillon
(observé)
comme une réalisation d'un
échantillon
(théorique) d'une certaine
loi de probabilité
. En d'autres termes, on considère que les données
auraient pu être produites en simulant de façon répétée la
loi de probabilité
. Pour éviter les confusions, nous désignerons
par
données
ou
échantillon observé,
la séquence de nombres
recueillie
. Les
échantillons
(théoriques) au sens
de la définition ci-dessus seront désignés par des majuscules :
.
La
loi de probabilité
modélisant la variabilité
des
données
n'a aucune réalité physique. Cependant elle
est considérée comme un objet caché. Tout se passe comme
si on disposait d'un algorithme de
simulation
de la loi
,
sans connaître
elle-même : Les
données
sont des
appels
indépendants
de cet algorithme. L'objet de
l'analyse
statistique
est d'en extraire toute information
utile sur
. Si l'hypothèse
de
modélisation
par la loi
est correcte (l'algorithme simule effectivement
cette loi), la
loi des grands nombres
permet d'affirmer que la
distribution empirique
des
données
est proche de
, pour un
grand
échantillon.
Mais deux
échantillons
observés, simulés
selon la même loi, ont rarement la même
distribution empirique.
Afin d'extraire des
données
des informations reproductibles,
on est amené à réduire l'ensemble des lois possibles à une
famille particulière de
lois de probabilité.
On appelle problème d'ajustement le problème consistant à déterminer, dans une famille de lois de probabilité donnée, quelle est celle qui coïncide le mieux avec l'échantillon observé. Dans la situation la plus courante, celle que nous considérons ici, la famille dépend d'un ou plusieurs paramètres réels inconnus. Le problème est donc de déterminer quelle valeur du paramètre est la mieux adaptée aux données, en un sens que nous préciserons plus loin. On parle alors d'estimation paramétrique. Nous donnons ci-dessous quelques exemples courants de situations statistiques, avec des familles de lois communément choisies.
Echantillons binaires.
Typiquement, la situation est celle où un même évènement est observé ou non dans une suite d'expériences indépendantes. Si on code les observations par 1 et 0, la modélisation par une loi de Bernoulli s'impose. Le paramètre inconnu est la probabilité de l'évènement. On l'approche bien évidemment par sa fréquence expérimentale.
Comptages.
Un échantillon issu de comptages prend des valeurs entières positives. Plusieurs familles de lois classiques peuvent être utilisées comme modèles. Si les objets comptés sont relativement fréquents, dans une population de taille fixée et assez faible, les lois binomiales ou hypergéométriques sont des modèles naturels (nombre de filles dans les fratries de 5 enfants par exemple). Si les objets comptés possèdent un caractère relativement rare dans un grand ensemble (bactéries, individus porteurs d'un gène particulier,...) on utilise souvent une loi de Poisson. Pour des durées mesurées en temps discret (nombres de jours ou de semaines d'incubation pour une maladie) on pourra utiliser une loi géométrique ou binomiale négative. On se laisse souvent guider par la forme de la distribution empirique pour le choix d'un modèle. Un diagramme en bâtons en gros unimodal pourra suggérer de modéliser par une loi binomiale négative, même s'il n'y a pas de raison profonde qui rende ce choix naturel.
Variables normales.
Les lois normales sont de très loin les plus utilisées parmi les modèles probabilistes. Cela tient à deux causes. L'une est qu'elles permettent des calculs explicites faciles, quelle que soit la taille de l'échantillon. En particulier il est fréquent de choisir un modèle normal pour de petits échantillons, sans pouvoir toujours justifier ce choix. L'autre raison tient au théorème central limite : chaque fois qu'une quantité provient du cumul d'un grand nombre de facteurs variables relativement indépendants entre eux, cette quantité pourra être modélisée par une loi normale. C'est le cas pour les erreurs de mesures qui ont été la motivation historique de la loi normale, mais aussi pour de très nombreux paramètres physiologiques (tailles, poids, numérations sanguines, dosages hormonaux ...).
Durées.
Des durées mesurées en temps continu sont
modélisées par des
lois de probabilité continues
sur
.
En fiabilité,
pour des durées de fonctionnement ou des durées de réparation,
les
lois de Weibull
sont souvent préférées. Les
lois exponentielles
en sont un cas particulier.
Données
unimodales
asymétriques.
Comme pour les caractères discrets, le choix d'un modèle pour un caractère continu est souvent guidé par la forme de la distribution empirique. Il arrive que l'histogramme d'un caractère continu soit trop dissymétrique pour qu'on puisse utiliser la loi normale. Plusieurs familles de lois présentent des dissymétries plus ou moins importantes. C'est le cas pour les lois de Weibull, déjà évoquées, mais aussi pour les lois gamma. Quand les ordres de grandeur des données sont très différents, on peut les remplacer par leurs logarithmes. Si le nouvel histogramme coïncide apparemment avec une loi normale, on utilisera une loi log-normale comme modèle pour les données initiales.
Dans tout ce qui suit, nous désignerons
par une loi de probabilité
dépendant du paramètre inconnu
. Dans la plupart des exemples, le
paramètre
sera un nombre réel,
mais il peut aussi être un entier, ou un
couple de réels.