Les échantillons gaussiens sont souvent utilisés pour modéliser les erreurs dans les modèles de régression. Ces modèles visent à expliquer un caractère (considéré comme aléatoire) par des caractères (déterministes) . On choisit une fonction de régression , dépendant en général de plusieurs paramètres inconnus, et on écrit les variables aléatoires sous la forme :
Nous considérons seulement la régression linéaire simple :
On obtient ainsi les estimateurs des moindres carrés :
L'erreur quadratique minimale est :
Ces trois variables aléatoires sont des estimateurs convergents de , et respectivement. Les deux premiers sont non biaisés. L'espérance de est , il est donc asymptotiquement sans biais. On obtient un estimateur sans biais et convergent de en posant :
La prédiction est le premier objectif d'un modèle probabiliste. Dans le cas de la régression linéaire, si un nouvel individu était examiné, avec une valeur observée pour le caractère , le modèle entraîne que la valeur du caractère expliqué sur cet individu est une variable aléatoire, de loi normale . Les paramètres de cette loi auront pour estimateurs et respectivement.
Le théorème suivant permet de calculer les lois de ces estimateurs, et donc des intervalles de confiance. On peut le considérer comme une extension du théorème 3.3.
Les caractéristiques numériques prennent les valeurs suivantes :
Effectuer une régression linéaire signifie que l'on pense que le poids doit croître en gros proportionnellement à la taille. La droite de régression linéaire constitue un modèle de prédiction. Pour un enfant de taille donnée, on donnera un intervalle de poids, considéré comme ``normal'', la normalité étant définie par référence au modèle et aux données. Voici les intervalles de prédiction de niveau 0.95 pour différentes tailles.
Les intervalles de prédiction sont d'autant moins précis que la taille de l'échantillon initial était faible et que la valeur de est plus éloignée de .
Les résultats qui précèdent s'étendent aux régressions linéaires multiples. Les expressions explicites des intervalles de confiance sont trop compliquées pour être reproduites ici, mais elles sont programmées dans tous les logiciels de statistique standard.