Dans un problème de régression, les 
caractères
 ne sont pas considérés
de la même façon. L'un d'eux est le 
caractère
 "à expliquer", les
autres sont "explicatifs". Nous considérons d'abord le cas de deux 
caractères
 
 (explicatif) et 
 (à expliquer). "Expliquer"
signifie ici exprimer une dépendance fonctionnelle de 
 comme fonction
de 
, de manière à prévoir la valeur de 
 connaissant celle de 
.
Si pour tout 
individu
 
, 
, et si on 
observe une valeur 
 du 
caractère
 
 sur un nouvel 
individu,
on donnera 
 comme prédiction du 
caractère
 
 sur ce même
individu. 
La situation idéale où 
 n'est jamais rencontrée
en pratique. On cherchera plutôt, dans une famille fixée de fonctions,
quelle est celle pour laquelle les 
 sont les plus proches des 
.
La proximité se mesure en général comme une erreur quadratique
moyenne
.
On parle alors de régression au sens des 
 moindres carrés.
Les différences entre les valeurs observées 
 et les valeurs
prédites par le 
modèle
 
 s'appellent les 
résidus.
Si le 
modèle
 est ajusté de sorte que la série des 
résidus
soit centrée (de 
moyenne
 nulle), alors 
l'erreur quadratique 
 
 
est la 
variance
 des 
résidus.  
La 
régression linéaire simple
 consiste à chercher 
 parmi les 
applications affines. La solution s'exprime simplement à l'aide des
caractéristiques numériques de 
 et 
.
Si 
 (le 
caractère
 
 n'est pas constant), la fonction 
 admet un minimum pour :
   etLa valeur de ce minimum est :
Démonstration :Si 
 est fixé, 
 est un polynôme de degré 2 en 
.
Il atteint son minimum pour 
 tel que la dérivée s'annule. Soit :
On a donc 
.
Reportons cette valeur dans 
 :
Cette fonction est un polynôme de degré 2 en 
, qui atteint
son minimum au point 
 où sa dérivée s'annule, à savoir :
soit en développant :
Posons donc :
   et
On a bien pour tout 
,
La valeur du minimum est :
Comme on pouvait s'y attendre
l'erreur quadratique 
 minimale est d'autant
plus faible que la 
corrélation
 est forte.
Il est important de noter la dissymétrie des rôles de 
 et 
. Par
rapport au 
nuage de points, 
la droite de régression linéaire
de 
 sur 
 minimise la somme des distances verticales des points
à la droite. La   
droite de régression linéaire
 de 
 sur 
 minimise
la somme des distances horizontales. Les deux droites se coupent au
centre de gravité 
 du 
nuage de points. 
L'écart entre les deux est d'autant plus grand que la 
corrélation
est faible.
La prédiction est la  première application de la 
régression linéaire.
Voici les tailles en centimètres (échantillon 
) et poids en kilogrammes 
(
) de 10 enfants de 6 ans. 
Les caractéristiques numériques prennent les valeurs suivantes :
 Kg.
Comme seconde application, on peut étendre 
l'ajustement par quantiles
 à
des familles de lois invariantes par transformations affines, comme les lois
normales. Soit 
 un 
échantillon
 continu de taille 
 dont on souhaite
vérifier qu'il pourrait être issu d'une 
loi normale
 
, les paramètres 
 et 
étant inconnus.  Pour 
, notons comme d'habitude 
les 
statistiques d'ordre. 
Si l'hypothèse 
 de normalité est pertinente,
alors 
 doit être proche du quantile
 de la loi 
.
Rappelons que si une 
variable aléatoire
 
 suit la loi 
,
alors 
 suit la loi 
. Ceci revient 
à dire que pour tout 
 :
Notons 
 les valeurs
de la 
fonction quantile
 de la loi 
 aux points 
.
Si l'hypothèse
 de normalité est vérifiée, les points de
coordonnées 
 devraient être proches de la droite
d'équation 
. Une 
régression linéaire
 des 
 sur
les 
 fournit à la fois une 
estimation
 de 
 et 
 et une
indication sur la qualité de 
l'ajustement. 
Avant les logiciels de calcul, on
vendait du papier "gausso-arithmétique", gradué en abscisses selon les
quantiles
 de la loi 
. Il suffisait de reporter en ordonnée
les valeurs des 
 pour tracer à la main la droite de régression
linéaire, qui porte le nom de 
"droite de Henry", du nom du colonel qui a inventé cette méthode au 
siècle dernier pour étudier la portée des canons.
Le problème de la régression est de déterminer, dans une famille de fonctions donnée, quelle est celle qui minimise l'erreur quadratique (3.2). Or il est fréquent qu'il n'y ait pas de solution explicite. Pour certaines familles de fonctions, on transforme le problème de manière à se ramener à une régression linéaire. Voici quelques cas fréquents.
Comme exemple d'application, nous reprenons le problème de 
l'ajustement par les quantiles, 
pour la famille des lois de 
Weibull, 
qui sont souvent
utilisées pour modéliser des durées de survie ou des durées
de fonctionnement en fiabilité. La 
fonction quantile
 de la loi de Weibull
 est :
Soit 
 un 
échantillon
 que l'on souhaite ajuster par une 
loi de Weibull,
de paramètres 
 et 
 inconnus.
Pour 
, la 
statistique d'ordre
 
 doit être proche
du 
quantile
 
.
soit :
Posons 
 et 
. Les points
 devraient être proches de la droite d'équation
. Une 
régression linéaire
 fournira
non seulement des valeurs pour 
 et 
, mais aussi une indication
sur la qualité de 
l'ajustement. 
Avant les logiciels de calcul, il 
existait du "papier 
Weibull", 
gradué de manière à automatiser
ce cas particulier de régression non linéaire.