Section : Distribution empirique
Précédent : Quantiles
Suivant : Ajustement

Modèles probabilistes

Le postulat de modélisation sur lequel toute étude statistique est basée est le suivant :

Les données observées sont des réalisations de variables aléatoires.

Quand le résultat d'une expérience n'est pas reproductible exactement, on suppose qu'il est la réalisation d'une variable aléatoire. La théorie des probabilités fournit des outils, comme la loi des grands nombres ou le théorème central limite, permettant d'extraire des données ce qui est reproductible et qui pourra donc fonder une prédiction ou une décision.

Quand on recueille des données, on sait bien que si un deuxième échantillon était recueilli dans les mêmes conditions, celui-ci serait différent du premier. Mais on espère que le deuxième échantillon ressemblerait au premier au sens où sa moyenne, sa variance, ses quantiles, prendraient des valeurs proches. L'observation d'échantillons successifs produits par un algorithme de simulation permet de se faire une bonne idée de cette ressemblance. Dans de nombreux cas, par exemple pour tout ce qui touche à l'humain (mesures de tailles, dosages sanguins, etc...), la ressemblance d' échantillons distincts est validée par une longue expérience. En médecine, on sait bien qu'il n'y a pas deux individus qui présentent exactement les mêmes réactions. Mais par exemple un comptage du nombre moyen globules rouges par litre de sang, effectué sur quelques centaines d'individus, variera peu si on le renouvelle sur une autre population. Dans cette situation, comme dans de nombreuses autres, les comptages effectués sur des individus différents seront considérés comme des tirages indépendants d'une même loi de probabilité. Cette loi de probabilité décrit la variabilité du phénomène. On considère en quelque sorte que l'échantillon aurait pu être produit en répétant des simulations indépendantes de la loi.

Prenons l'exemple des tailles des filles de 18 ans (mesurées en centimètres, ou bien en tailles vestimentaires). Parler de la taille des filles de 18 ans n'a de sens que dans un contexte probabiliste : deux filles différentes n'auront jamais exactement la même taille. On effectue en fait deux hypothèses de modélisation qui n'ont aucune base concrète :

  1. On peut associer à toute fille de 18 ans une mesure précise de sa taille.
  2. Les tailles des filles de 18 ans sont des réalisations de variables aléatoires indépendantes et de même loi.

Bien que fondées sur des objets abstraits, les conséquences mathématiques que l'on peut tirer des hypothèses de modélisation mènent à des prédictions, et à des prises de décisions, économiques ou politiques, qui sont tout à fait concrètes, et seront validées par confrontation avec la réalité. Par exemple la distribution des tailles des filles de 18 ans a des conséquences évidentes sur l'industrie du prêt-à-porter. Si un fabriquant de vêtements cible sa production sur les adolescentes, il devra ajuster ses patrons à la taille de ses futures acheteuses : la répartition des vêtements produits entre les tailles les plus courantes, du 36 au 40, ne seront pas égales. Le fabriquant produira probablement plus de robes en 36 qu'en 40. Cette répartition ne serait pas la même pour des modèles destinés à des personnes âgées.

Quand considère-t-on qu'un échantillon peut être modélisé par une suite de variables indépendantes ? Pour l'essentiel quand il est évident que l'ordre dans lequel on prend les individus n'a pas d'importance. C'est le cas pour toutes les mesures physiologiques sur une population humaine. Ce n'est pas le cas pour une série temporelle, où les individus sont des instants successifs, qui ne sont clairement pas interchangeables, et donc pas indépendants. D'ailleurs il serait sans intérêt de considérer par exemple les taux de chômage en France sur les trois dernières années comme des réalisations de 36 variables aléatoires indépendantes, puisque le but de l'observation est précisément de détecter une tendance dans ces chiffres, c'est-à-dire une dépendance permettant de prévoir partiellement les chiffres à venir. Dans ce cas, l'idée de base de la modélisation consistera à dire qu'il existe une fonction déterministe "cachée" qui permet de prévoir en partie le futur en fonction du passé. Les observations mensuelles sont vues comme des perturbations aléatoires de cette fonction déterministe. Dans le modèle interviendra alors la fonction déterministe cachée, et un certain $ n$-uplet de variables aléatoires et de même loi, modélisant les perturbations aléatoires.

Une situation analogue est celle où un caractère autre que celui qui est mesuré, a une influence sur la variable d'intérêt. Par exemple, si on soupçonne que le nombre de cigarettes fumées par jour a une influence sur le taux de cholestérol, on considèrera que les taux de cholestérol mesurés sont des réalisations d'une variable aléatoire dont la loi dépend du nombre de cigarettes. On supposera qu'il existe une dépendance déterministe "cachée" à deviner, et que l'on observe sur chaque individu cette dépendance, perturbée par un facteur dû au pur hasard. Là encore, ce sont les perturbations aléatoires qui seront modélisées par un $ n$-uplet de variables aléatoires indépendantes et de même loi.

Dans toutes les situations où des résultats expérimentaux ne peuvent pas être considérés comme exactement reproductibles, on se ramène à un modèle contenant un $ n$-uplet de variables aléatoires indépendantes et de même loi. Un choix important est le type de la loi, discret ou continu. Quand il s'agit d'observer un caractère qualitatif, comme le groupe sanguin, ou quantitatif ordinal, comme un classement dans un test psychologique, le choix d'un modèle discret est imposé par la nature des données. Le choix entre modèle discret ou continu n'est pas toujours aussi clair. Reprenons l'exemple des tailles des filles de 18 ans. On peut mesurer ces tailles au centimètre près, en étant conscient de l'imprécision inhérente aux mesures. Si les résultats observés sur un échantillon de 1000 individus prennent suffisamment de valeurs différentes, on choisira une loi continue (par exemple une loi normale). Différentes techniques statistiques pourront imposer par la suite un regroupement en classes des données (tracés d' histogrammes, test du chi-deux ...). Pour le fabriquant de vêtements, les données brutes sont de peu d'intérêt. Il cherchera au contraire à traduire les observations en tailles vestimentaires, ce qui impose un autre type de regroupement en classes, et un modèle discret.



Section : Distribution empirique
Précédent : Quantiles
Suivant : Ajustement