Section : Estimation ponctuelle
Précédent : Estimation ponctuelle
Suivant : Estimateurs et estimations

Modèles paramétrés

Le postulat de modélisation sur lequel toute étude statistique est basée est le suivant :

Les données observées sont des réalisations de variables aléatoires.
Quand le résultat d'une expérience n'est pas reproductible exactement, on suppose qu'il est la réalisation d'une variable aléatoire. La théorie des probabilités fournit des outils, comme la loi des grands nombres ou le théorème central limite, permettant d'extraire des données ce qui est reproductible et qui pourra donc fonder une prédiction ou une décision.

Quand on observe un caractère statistique sur une population, si l'ordre dans lequel on prend les individus n'a pas d'importance, on choisira de considérer que les données sont des réalisations de variables aléatoires indépendantes et de même loi. Cette loi de probabilité décrit la variabilité du caractère. Même dans le cas où les individus ne sont pas interchangeables, comme pour une série chronologique ou un problème de régression, la modélisation consistera à se ramener, en soustrayant au besoin une fonction déterministe, au cas d'un échantillon de variables aléatoires indépendantes.

Définition 1.1   Soit $ P$ une loi de probabilité sur $ \mathbb{R}$. On appelle échantillon de la loi $ P$ un $ n$-uplet de variables aléatoires indépendantes et de même loi $ P$.

Le mot échantillon prend en statistique deux sens différents, selon que l'on parle des données observées ou du modèle probabiliste. L'hypothèse de modélisation consiste à voir l'échantillon (observé) comme une réalisation d'un échantillon (théorique) d'une certaine loi de probabilité $ P$. En d'autres termes, on considère que les données auraient pu être produites en simulant de façon répétée la loi de probabilité $ P$. Pour éviter les confusions, nous désignerons par données ou échantillon observé, la séquence de nombres recueillie $ (x_1,\ldots,x_n)$. Les échantillons (théoriques) au sens de la définition ci-dessus seront désignés par des majuscules : $ (X_1,\ldots,X_n)$.

La loi de probabilité $ P$ modélisant la variabilité des données n'a aucune réalité physique. Cependant elle est considérée comme un objet caché. Tout se passe comme si on disposait d'un algorithme de simulation de la loi $ P$, sans connaître $ P$ elle-même : Les données sont des appels indépendants de cet algorithme. L'objet de l'analyse statistique est d'en extraire toute information utile sur $ P$. Si l'hypothèse de modélisation par la loi $ P$ est correcte (l'algorithme simule effectivement cette loi), la loi des grands nombres permet d'affirmer que la distribution empirique des données est proche de $ P$, pour un grand échantillon. Mais deux échantillons observés, simulés selon la même loi, ont rarement la même distribution empirique. Afin d'extraire des données des informations reproductibles, on est amené à réduire l'ensemble des lois possibles à une famille particulière de lois de probabilité.

On appelle problème d'ajustement le problème consistant à déterminer, dans une famille de lois de probabilité donnée, quelle est celle qui coïncide le mieux avec l'échantillon observé. Dans la situation la plus courante, celle que nous considérons ici, la famille dépend d'un ou plusieurs paramètres réels inconnus. Le problème est donc de déterminer quelle valeur du paramètre est la mieux adaptée aux données, en un sens que nous préciserons plus loin. On parle alors d'estimation paramétrique. Nous donnons ci-dessous quelques exemples courants de situations statistiques, avec des familles de lois communément choisies.


Echantillons binaires.


Typiquement, la situation est celle où un même évènement est observé ou non dans une suite d'expériences indépendantes. Si on code les observations par 1 et 0, la modélisation par une loi de Bernoulli s'impose. Le paramètre inconnu est la probabilité de l'évènement. On l'approche bien évidemment par sa fréquence expérimentale.


Comptages.


Un échantillon issu de comptages prend des valeurs entières positives. Plusieurs familles de lois classiques peuvent être utilisées comme modèles. Si les objets comptés sont relativement fréquents, dans une population de taille fixée et assez faible, les lois binomiales ou hypergéométriques sont des modèles naturels (nombre de filles dans les fratries de 5 enfants par exemple). Si les objets comptés possèdent un caractère relativement rare dans un grand ensemble (bactéries, individus porteurs d'un gène particulier,...) on utilise souvent une loi de Poisson. Pour des durées mesurées en temps discret (nombres de jours ou de semaines d'incubation pour une maladie) on pourra utiliser une loi géométrique ou binomiale négative. On se laisse souvent guider par la forme de la distribution empirique pour le choix d'un modèle. Un diagramme en bâtons en gros unimodal pourra suggérer de modéliser par une loi binomiale négative, même s'il n'y a pas de raison profonde qui rende ce choix naturel.


Variables normales.


Les lois normales sont de très loin les plus utilisées parmi les modèles probabilistes. Cela tient à deux causes. L'une est qu'elles permettent des calculs explicites faciles, quelle que soit la taille de l'échantillon. En particulier il est fréquent de choisir un modèle normal pour de petits échantillons, sans pouvoir toujours justifier ce choix. L'autre raison tient au théorème central limite : chaque fois qu'une quantité provient du cumul d'un grand nombre de facteurs variables relativement indépendants entre eux, cette quantité pourra être modélisée par une loi normale. C'est le cas pour les erreurs de mesures qui ont été la motivation historique de la loi normale, mais aussi pour de très nombreux paramètres physiologiques (tailles, poids, numérations sanguines, dosages hormonaux ...).


Durées.


Des durées mesurées en temps continu sont modélisées par des lois de probabilité continues sur $ \mathbb{R}^+$. En fiabilité, pour des durées de fonctionnement ou des durées de réparation, les lois de Weibull sont souvent préférées. Les lois exponentielles en sont un cas particulier.


Données unimodales asymétriques.


Comme pour les caractères discrets, le choix d'un modèle pour un caractère continu est souvent guidé par la forme de la distribution empirique. Il arrive que l'histogramme d'un caractère continu soit trop dissymétrique pour qu'on puisse utiliser la loi normale. Plusieurs familles de lois présentent des dissymétries plus ou moins importantes. C'est le cas pour les lois de Weibull, déjà évoquées, mais aussi pour les lois gamma. Quand les ordres de grandeur des données sont très différents, on peut les remplacer par leurs logarithmes. Si le nouvel histogramme coïncide apparemment avec une loi normale, on utilisera une loi log-normale comme modèle pour les données initiales.


Dans tout ce qui suit, nous désignerons par $ P_\theta$ une loi de probabilité dépendant du paramètre inconnu $ \theta$. Dans la plupart des exemples, le paramètre $ \theta$ sera un nombre réel, mais il peut aussi être un entier, ou un couple de réels.



Section : Estimation ponctuelle
Précédent : Estimation ponctuelle
Suivant : Estimateurs et estimations