Dans un problème de régression, les caractères ne sont pas considérés de la même façon. L'un d'eux est le caractère "à expliquer", les autres sont "explicatifs". Nous considérons d'abord le cas de deux caractères (explicatif) et (à expliquer). "Expliquer" signifie ici exprimer une dépendance fonctionnelle de comme fonction de , de manière à prévoir la valeur de connaissant celle de . Si pour tout individu , , et si on observe une valeur du caractère sur un nouvel individu, on donnera comme prédiction du caractère sur ce même individu. La situation idéale où n'est jamais rencontrée en pratique. On cherchera plutôt, dans une famille fixée de fonctions, quelle est celle pour laquelle les sont les plus proches des . La proximité se mesure en général comme une erreur quadratique moyenne .
On parle alors de régression au sens des moindres carrés. Les différences entre les valeurs observées et les valeurs prédites par le modèle s'appellent les résidus. Si le modèle est ajusté de sorte que la série des résidus soit centrée (de moyenne nulle), alors l'erreur quadratique est la variance des résidus. La régression linéaire simple consiste à chercher parmi les applications affines. La solution s'exprime simplement à l'aide des caractéristiques numériques de et .
Si (le caractère n'est pas constant), la fonction admet un minimum pour :
La valeur de ce minimum est :
Démonstration :Si est fixé, est un polynôme de degré 2 en . Il atteint son minimum pour tel que la dérivée s'annule. Soit :
On a donc . Reportons cette valeur dans :
Cette fonction est un polynôme de degré 2 en , qui atteint son minimum au point où sa dérivée s'annule, à savoir :
soit en développant :
Posons donc :
On a bien pour tout ,
La valeur du minimum est :
Comme on pouvait s'y attendre l'erreur quadratique minimale est d'autant plus faible que la corrélation est forte.
Il est important de noter la dissymétrie des rôles de et . Par rapport au nuage de points, la droite de régression linéaire de sur minimise la somme des distances verticales des points à la droite. La droite de régression linéaire de sur minimise la somme des distances horizontales. Les deux droites se coupent au centre de gravité du nuage de points. L'écart entre les deux est d'autant plus grand que la corrélation est faible.
La prédiction est la première application de la régression linéaire. Voici les tailles en centimètres (échantillon ) et poids en kilogrammes () de 10 enfants de 6 ans.
Les caractéristiques numériques prennent les valeurs suivantes :
Comme seconde application, on peut étendre l'ajustement par quantiles à des familles de lois invariantes par transformations affines, comme les lois normales. Soit un échantillon continu de taille dont on souhaite vérifier qu'il pourrait être issu d'une loi normale , les paramètres et étant inconnus. Pour , notons comme d'habitude les statistiques d'ordre. Si l'hypothèse de normalité est pertinente, alors doit être proche du quantile de la loi . Rappelons que si une variable aléatoire suit la loi , alors suit la loi . Ceci revient à dire que pour tout :
Notons les valeurs de la fonction quantile de la loi aux points . Si l'hypothèse de normalité est vérifiée, les points de coordonnées devraient être proches de la droite d'équation . Une régression linéaire des sur les fournit à la fois une estimation de et et une indication sur la qualité de l'ajustement. Avant les logiciels de calcul, on vendait du papier "gausso-arithmétique", gradué en abscisses selon les quantiles de la loi . Il suffisait de reporter en ordonnée les valeurs des pour tracer à la main la droite de régression linéaire, qui porte le nom de "droite de Henry", du nom du colonel qui a inventé cette méthode au siècle dernier pour étudier la portée des canons.
Le problème de la régression est de déterminer, dans une famille de fonctions donnée, quelle est celle qui minimise l'erreur quadratique (3.2). Or il est fréquent qu'il n'y ait pas de solution explicite. Pour certaines familles de fonctions, on transforme le problème de manière à se ramener à une régression linéaire. Voici quelques cas fréquents.
Comme exemple d'application, nous reprenons le problème de l'ajustement par les quantiles, pour la famille des lois de Weibull, qui sont souvent utilisées pour modéliser des durées de survie ou des durées de fonctionnement en fiabilité. La fonction quantile de la loi de Weibull est :
Soit un échantillon que l'on souhaite ajuster par une loi de Weibull, de paramètres et inconnus. Pour , la statistique d'ordre doit être proche du quantile .
soit :
Posons et . Les points devraient être proches de la droite d'équation . Une régression linéaire fournira non seulement des valeurs pour et , mais aussi une indication sur la qualité de l'ajustement. Avant les logiciels de calcul, il existait du "papier Weibull", gradué de manière à automatiser ce cas particulier de régression non linéaire.