Les
échantillons
gaussiens
sont souvent utilisés pour modéliser
les erreurs dans les
modèles de
régression.
Ces modèles visent
à expliquer un
caractère
(considéré comme aléatoire)
par des caractères
(déterministes)
. On choisit une fonction
de régression
, dépendant en général de plusieurs paramètres
inconnus, et on écrit les
variables aléatoires
sous la forme :
Nous considérons seulement la régression linéaire simple :
On obtient ainsi les estimateurs des moindres carrés :
L'erreur quadratique minimale est :
Ces trois
variables aléatoires
sont des
estimateurs convergents
de ,
et
respectivement. Les deux premiers sont non
biaisés.
L'espérance
de
est
, il est donc
asymptotiquement sans
biais.
On obtient un
estimateur sans biais
et
convergent de
en posant :
La prédiction est le premier objectif d'un
modèle
probabiliste. Dans le cas de la
régression linéaire,
si
un nouvel
individu
était examiné, avec une valeur observée
pour le
caractère
, le
modèle
entraîne que la valeur
du
caractère
expliqué sur cet
individu
est une
variable aléatoire,
de
loi normale
. Les paramètres de cette
loi auront pour
estimateurs
et
respectivement.
Le théorème suivant permet de calculer les lois de ces estimateurs, et donc des intervalles de confiance. On peut le considérer comme une extension du théorème 3.3.
Les caractéristiques numériques prennent les valeurs suivantes :
Effectuer une régression linéaire signifie que l'on pense que le poids doit croître en gros proportionnellement à la taille. La droite de régression linéaire constitue un modèle de prédiction. Pour un enfant de taille donnée, on donnera un intervalle de poids, considéré comme ``normal'', la normalité étant définie par référence au modèle et aux données. Voici les intervalles de prédiction de niveau 0.95 pour différentes tailles.
Les intervalles de prédiction sont
d'autant moins précis que la taille de
l'échantillon
initial était
faible et que la valeur de est plus éloignée de
.
Les résultats qui précèdent s'étendent aux régressions linéaires multiples. Les expressions explicites des intervalles de confiance sont trop compliquées pour être reproduites ici, mais elles sont programmées dans tous les logiciels de statistique standard.