Le postulat de
modélisation
sur lequel toute étude
statistique
est
basée est le suivant :
Quand le résultat d'une expérience n'est pas reproductible exactement, on suppose qu'il est la réalisation d'une variable aléatoire. La théorie des probabilités fournit des outils, comme la loi des grands nombres ou le théorème central limite, permettant d'extraire des données ce qui est reproductible et qui pourra donc fonder une prédiction ou une décision.
Quand on recueille des données, on sait bien que si un deuxième échantillon était recueilli dans les mêmes conditions, celui-ci serait différent du premier. Mais on espère que le deuxième échantillon ressemblerait au premier au sens où sa moyenne, sa variance, ses quantiles, prendraient des valeurs proches. L'observation d'échantillons successifs produits par un algorithme de simulation permet de se faire une bonne idée de cette ressemblance. Dans de nombreux cas, par exemple pour tout ce qui touche à l'humain (mesures de tailles, dosages sanguins, etc...), la ressemblance d' échantillons distincts est validée par une longue expérience. En médecine, on sait bien qu'il n'y a pas deux individus qui présentent exactement les mêmes réactions. Mais par exemple un comptage du nombre moyen globules rouges par litre de sang, effectué sur quelques centaines d'individus, variera peu si on le renouvelle sur une autre population. Dans cette situation, comme dans de nombreuses autres, les comptages effectués sur des individus différents seront considérés comme des tirages indépendants d'une même loi de probabilité. Cette loi de probabilité décrit la variabilité du phénomène. On considère en quelque sorte que l'échantillon aurait pu être produit en répétant des simulations indépendantes de la loi.
Prenons l'exemple des tailles des filles de 18 ans (mesurées en centimètres, ou bien en tailles vestimentaires). Parler de la taille des filles de 18 ans n'a de sens que dans un contexte probabiliste : deux filles différentes n'auront jamais exactement la même taille. On effectue en fait deux hypothèses de modélisation qui n'ont aucune base concrète :
Bien que fondées sur des objets abstraits, les conséquences mathématiques que l'on peut tirer des hypothèses de modélisation mènent à des prédictions, et à des prises de décisions, économiques ou politiques, qui sont tout à fait concrètes, et seront validées par confrontation avec la réalité. Par exemple la distribution des tailles des filles de 18 ans a des conséquences évidentes sur l'industrie du prêt-à-porter. Si un fabriquant de vêtements cible sa production sur les adolescentes, il devra ajuster ses patrons à la taille de ses futures acheteuses : la répartition des vêtements produits entre les tailles les plus courantes, du 36 au 40, ne seront pas égales. Le fabriquant produira probablement plus de robes en 36 qu'en 40. Cette répartition ne serait pas la même pour des modèles destinés à des personnes âgées.
Quand considère-t-on qu'un
échantillon
peut être modélisé par une
suite de variables indépendantes ? Pour l'essentiel quand il est
évident que l'ordre dans lequel on prend les individus n'a pas d'importance.
C'est le cas pour toutes les mesures physiologiques sur une
population
humaine. Ce n'est pas le cas pour
une
série temporelle,
où les individus sont des instants successifs,
qui ne sont clairement pas interchangeables, et donc pas
indépendants.
D'ailleurs il serait sans intérêt de considérer par exemple les taux de
chômage en
France sur les trois dernières années comme des réalisations de 36
variables aléatoires indépendantes,
puisque le but de l'observation est
précisément de détecter une tendance dans ces chiffres, c'est-à-dire
une dépendance permettant de prévoir partiellement les chiffres à venir.
Dans ce cas, l'idée de base de la
modélisation
consistera à dire qu'il
existe une fonction déterministe "cachée" qui permet de prévoir en
partie le futur en fonction du passé. Les observations mensuelles sont
vues comme des perturbations
aléatoires
de cette fonction déterministe.
Dans le
modèle
interviendra alors la fonction déterministe cachée, et un
certain -uplet de
variables aléatoires
et de même loi,
modélisant les perturbations
aléatoires.
Une situation analogue est celle où un
caractère
autre que celui qui est
mesuré, a une influence sur la variable d'intérêt. Par exemple, si on
soupçonne que le nombre de cigarettes fumées par jour a une influence
sur le taux de cholestérol, on considèrera que les taux de cholestérol
mesurés sont des réalisations d'une
variable aléatoire
dont la loi
dépend du nombre de cigarettes. On supposera qu'il existe
une dépendance déterministe "cachée" à deviner, et que l'on observe
sur chaque
individu
cette dépendance, perturbée par un facteur dû au
pur hasard. Là encore, ce sont les perturbations
aléatoires
qui seront
modélisées par un -uplet de
variables aléatoires
indépendantes
et de même loi.
Dans toutes les situations où des résultats expérimentaux ne peuvent pas
être considérés comme exactement reproductibles, on se ramène à un
modèle
contenant un -uplet de
variables aléatoires indépendantes
et
de même loi. Un choix important est le type de la loi, discret ou continu.
Quand il s'agit d'observer un
caractère
qualitatif, comme le
groupe sanguin, ou quantitatif ordinal, comme un classement dans un
test
psychologique, le choix d'un
modèle
discret est imposé par la nature des
données.
Le choix entre
modèle
discret ou continu n'est pas toujours aussi
clair. Reprenons l'exemple des tailles des filles de 18 ans. On peut mesurer
ces tailles au centimètre près, en étant conscient de l'imprécision
inhérente aux mesures. Si les résultats observés sur un
échantillon
de 1000 individus prennent suffisamment de valeurs différentes, on
choisira une
loi continue
(par exemple une loi normale). Différentes
techniques
statistiques
pourront imposer par la suite un regroupement en
classes des
données
(tracés d'
histogrammes,
test du chi-deux
...).
Pour le fabriquant de vêtements, les
données
brutes sont de peu
d'intérêt. Il cherchera au contraire à traduire les observations en
tailles vestimentaires, ce qui impose un autre type de regroupement en
classes, et un
modèle
discret.