Dans un problème de régression, les
caractères
ne sont pas considérés
de la même façon. L'un d'eux est le
caractère
"à expliquer", les
autres sont "explicatifs". Nous considérons d'abord le cas de deux
caractères
(explicatif) et
(à expliquer). "Expliquer"
signifie ici exprimer une dépendance fonctionnelle de
comme fonction
de
, de manière à prévoir la valeur de
connaissant celle de
.
Si pour tout
individu
,
, et si on
observe une valeur
du
caractère
sur un nouvel
individu,
on donnera
comme prédiction du
caractère
sur ce même
individu.
La situation idéale où
n'est jamais rencontrée
en pratique. On cherchera plutôt, dans une famille fixée de fonctions,
quelle est celle pour laquelle les
sont les plus proches des
.
La proximité se mesure en général comme une erreur quadratique
moyenne
.
On parle alors de régression au sens des
moindres carrés.
Les différences entre les valeurs observées et les valeurs
prédites par le
modèle
s'appellent les
résidus.
Si le
modèle
est ajusté de sorte que la série des
résidus
soit centrée (de
moyenne
nulle), alors
l'erreur quadratique
est la
variance
des
résidus.
La
régression linéaire simple
consiste à chercher
parmi les
applications affines. La solution s'exprime simplement à l'aide des
caractéristiques numériques de
et
.
Si
(le
caractère
n'est pas constant), la fonction
admet un minimum pour :
La valeur de ce minimum est :
Démonstration :Si est fixé,
est un polynôme de degré 2 en
.
Il atteint son minimum pour
tel que la dérivée s'annule. Soit :
On a donc
.
Reportons cette valeur dans
:
Cette fonction est un polynôme de degré 2 en , qui atteint
son minimum au point
où sa dérivée s'annule, à savoir :
soit en développant :
Posons donc :
On a bien pour tout ,
La valeur du minimum est :
Comme on pouvait s'y attendre
l'erreur quadratique
minimale est d'autant
plus faible que la
corrélation
est forte.
Il est important de noter la dissymétrie des rôles de et
. Par
rapport au
nuage de points,
la droite de régression linéaire
de
sur
minimise la somme des distances verticales des points
à la droite. La
droite de régression linéaire
de
sur
minimise
la somme des distances horizontales. Les deux droites se coupent au
centre de gravité
du
nuage de points.
L'écart entre les deux est d'autant plus grand que la
corrélation
est faible.
La prédiction est la première application de la
régression linéaire.
Voici les tailles en centimètres (échantillon ) et poids en kilogrammes
(
) de 10 enfants de 6 ans.
Les caractéristiques numériques prennent les valeurs suivantes :
Comme seconde application, on peut étendre
l'ajustement par quantiles
à
des familles de lois invariantes par transformations affines, comme les lois
normales. Soit un
échantillon
continu de taille
dont on souhaite
vérifier qu'il pourrait être issu d'une
loi normale
, les paramètres
et
étant inconnus. Pour
, notons comme d'habitude
les
statistiques d'ordre.
Si l'hypothèse
de normalité est pertinente,
alors
doit être proche du quantile
de la loi
.
Rappelons que si une
variable aléatoire
suit la loi
,
alors
suit la loi
. Ceci revient
à dire que pour tout
:
Notons
les valeurs
de la
fonction quantile
de la loi
aux points
.
Si l'hypothèse
de normalité est vérifiée, les points de
coordonnées
devraient être proches de la droite
d'équation
. Une
régression linéaire
des
sur
les
fournit à la fois une
estimation
de
et
et une
indication sur la qualité de
l'ajustement.
Avant les logiciels de calcul, on
vendait du papier "gausso-arithmétique", gradué en abscisses selon les
quantiles
de la loi
. Il suffisait de reporter en ordonnée
les valeurs des
pour tracer à la main la droite de régression
linéaire, qui porte le nom de
"droite de Henry", du nom du colonel qui a inventé cette méthode au
siècle dernier pour étudier la portée des canons.
Le problème de la régression est de déterminer, dans une famille de fonctions donnée, quelle est celle qui minimise l'erreur quadratique (3.2). Or il est fréquent qu'il n'y ait pas de solution explicite. Pour certaines familles de fonctions, on transforme le problème de manière à se ramener à une régression linéaire. Voici quelques cas fréquents.
Comme exemple d'application, nous reprenons le problème de
l'ajustement par les quantiles,
pour la famille des lois de
Weibull,
qui sont souvent
utilisées pour modéliser des durées de survie ou des durées
de fonctionnement en fiabilité. La
fonction quantile
de la loi de Weibull
est :
Soit un
échantillon
que l'on souhaite ajuster par une
loi de Weibull,
de paramètres
et
inconnus.
Pour
, la
statistique d'ordre
doit être proche
du
quantile
.
soit :
Posons
et
. Les points
devraient être proches de la droite d'équation
. Une
régression linéaire
fournira
non seulement des valeurs pour
et
, mais aussi une indication
sur la qualité de
l'ajustement.
Avant les logiciels de calcul, il
existait du "papier
Weibull",
gradué de manière à automatiser
ce cas particulier de régression non linéaire.