Section : Données bidimensionnelles
Précédent : Covariance
Suivant : Régressions multiples

Régression linéaire simple

Dans un problème de régression, les caractères ne sont pas considérés de la même façon. L'un d'eux est le caractère "à expliquer", les autres sont "explicatifs". Nous considérons d'abord le cas de deux caractères $ x$ (explicatif) et $ y$ (à expliquer). "Expliquer" signifie ici exprimer une dépendance fonctionnelle de $ y$ comme fonction de $ x$, de manière à prévoir la valeur de $ y$ connaissant celle de $ x$. Si pour tout individu $ i$, $ y_i=f(x_i)$, et si on observe une valeur $ x_{n+1}$ du caractère $ x$ sur un nouvel individu, on donnera $ f(x_{n+1})$ comme prédiction du caractère $ y$ sur ce même individu. La situation idéale où $ y=f(x)$ n'est jamais rencontrée en pratique. On cherchera plutôt, dans une famille fixée de fonctions, quelle est celle pour laquelle les $ y_i$ sont les plus proches des $ f(x_i)$. La proximité se mesure en général comme une erreur quadratique moyenne .

$\displaystyle EQ(f) = \frac{1}{n} \sum_{i=1}^n (y_i - f(x_i))^2\;.$ (3.2)

On parle alors de régression au sens des moindres carrés. Les différences entre les valeurs observées $ y_i$ et les valeurs prédites par le modèle $ f(x_i)$ s'appellent les résidus. Si le modèle est ajusté de sorte que la série des résidus soit centrée (de moyenne nulle), alors l'erreur quadratique $ EQ(f)$ est la variance des résidus. La régression linéaire simple consiste à chercher $ f$ parmi les applications affines. La solution s'exprime simplement à l'aide des caractéristiques numériques de $ x$ et $ y$.

Proposition 3.5   Soient $ x$ et $ y$ deux échantillons recueillis sur une même population, de taille $ n$. Notons $ EQ(a,b)$ la fonction de $ \mathbb{R}^2$ dans $ \mathbb{R}^+$ définie par :

$\displaystyle EQ(a,b) = \frac{1}{n} \sum_{i=1}^n (y_i - ax_i-b)^2\;.
$

Si $ s_x^2\neq 0$ (le caractère $ x$ n'est pas constant), la fonction $ EQ(a,b)$ admet un minimum pour :

$\displaystyle \hat{a} = \frac{c_{xy}}{s_x^2}$   et$\displaystyle \quad
\hat{b} = \overline{y} - \hat{a}\overline{x}\;.
$

La valeur de ce minimum est :

$\displaystyle EQ(\hat{a},\hat{b}) = s_y^2(1-r_{xy}^2)\;.
$

Définition 3.6   On appelle droite de régression linéaire de $ y$ sur $ x$ la droite d'équation $ y=\hat{a}x+\hat{b}$.

Démonstration :Si $ a$ est fixé, $ EQ(a,b)$ est un polynôme de degré 2 en $ b$. Il atteint son minimum pour $ b=b(a)$ tel que la dérivée s'annule. Soit :

$\displaystyle \frac{\partial EQ(a,b)}{\partial b} =-\frac{2}{n}
\sum_{i=1}^n (y_i - ax_i-b)
= -2(\overline{y} - a\overline{x} -b)=0
$

On a donc $ b(a) = \overline{y} - a \overline{x}$. Reportons cette valeur dans $ EQ(a,b)$ :

$\displaystyle EQ(a,b(a)) = \frac{1}{n} \sum_{i=1}^n ((y_i-\overline{y}) -
a(x_i-\overline{x}))^2\;.
$

Cette fonction est un polynôme de degré 2 en $ a$, qui atteint son minimum au point $ \hat{a}$ où sa dérivée s'annule, à savoir :

$\displaystyle \frac{dEQ(a,b(a))}{d a} = -\frac{2}{n} \sum_{i=1}^n (x_i-\overline{x})
((y_i-\overline{y}) - a(x_i-\overline{x}))=0\;,
$

soit en développant :

$\displaystyle -2c_{xy} + 2 a s_x^2=0\;.
$

Posons donc :

$\displaystyle \hat{a} = \frac{c_{xy}}{s_x^2}$   et$\displaystyle \quad
\hat{b} = b(\hat{a})=\overline{y} - \hat{a}\overline{x}\;.
$

On a bien pour tout $ a,b$,

$\displaystyle EQ(\hat{a},\hat{b}) \leq EQ(a,b(a)) \leq EQ(a,b)\;.
$

La valeur du minimum est :

\begin{displaymath}\begin{array}{ccc}
EQ(\hat{a},\hat{b})&=& \frac{1}{n} \sum_{...
...\frac{c_{xy}^2}{s_x^2}\\
&=&s_y^2(1-r_{xy}^2)\;.
\end{array}\end{displaymath}

Comme on pouvait s'y attendre l'erreur quadratique minimale est d'autant plus faible que la corrélation est forte.$ \square$

Il est important de noter la dissymétrie des rôles de $ x$ et $ y$. Par rapport au nuage de points, la droite de régression linéaire de $ y$ sur $ x$ minimise la somme des distances verticales des points à la droite. La droite de régression linéaire de $ x$ sur $ y$ minimise la somme des distances horizontales. Les deux droites se coupent au centre de gravité $ (\overline{x},\overline{y})$ du nuage de points. L'écart entre les deux est d'autant plus grand que la corrélation est faible.


La prédiction est la première application de la régression linéaire. Voici les tailles en centimètres (échantillon $ x$) et poids en kilogrammes ($ y$) de 10 enfants de 6 ans.

Enfant
1
2
3
4
5
6
7
8
9
10
Taille
121
123
108
118
111
109
114
103
110
115
Poids
25
22
19
24
19
18
20
15
20
21

Les caractéristiques numériques prennent les valeurs suivantes :

$ \overline{x}$
$ \overline{y}$
$ s_x^2$
$ s_y^2$
$ r_{xy}$
$ \hat{a}$
$ \hat{b}$
$ EQ(\hat{a},\hat{b})$
113.2
20.3
34.76
7.61
0.9
0.42
-27.38
1.44
Effectuer une régression linéaire signifie que l'on pense que le poids doit croître en gros proportionnellement à la taille. La droite de régression linéaire constitue un modèle de prédiction. Par exemple, on affirmera que le poids moyen d'un enfant de 6 ans mesurant 120 centimètres sera de $ \hat{a}120+\hat{b}=23.16$ Kg. Evidemment cette prédiction n'est pas infaillible. Elle donne un ordre de grandeur. La valeur observée s'en écartera probablement, et l'erreur prévisible sera de l'ordre de $ \sqrt{EQ(\hat{a},\hat{b})}=1.2$ Kg.


Comme seconde application, on peut étendre l'ajustement par quantiles à des familles de lois invariantes par transformations affines, comme les lois normales. Soit $ y$ un échantillon continu de taille $ n$ dont on souhaite vérifier qu'il pourrait être issu d'une loi normale $ {\cal N}(\mu,\sigma^2)$, les paramètres $ \mu$ et $ \sigma^2$ étant inconnus. Pour $ i=1,\ldots,n$, notons comme d'habitude $ y_{(i)}$ les statistiques d'ordre. Si l'hypothèse de normalité est pertinente, alors $ y_{(i)}$ doit être proche du quantile $ Q_{{\cal N}(\mu,\sigma^2)}(i/n)$ de la loi $ {\cal N}(\mu,\sigma^2)$. Rappelons que si une variable aléatoire $ X$ suit la loi $ {\cal N}(0,1)$, alors $ Y=\sigma X+\mu$ suit la loi $ {\cal N}(\mu,\sigma^2)$. Ceci revient à dire que pour tout $ u\in [0,1]$ :

$\displaystyle Q_{{\cal N}(\mu,\sigma^2)}(u) = \sigma Q_{{\cal N}(0,1)}(u) + \mu\;.
$

Notons $ x_i=Q_{{\cal N}(0,1)}(i/n)$ les valeurs de la fonction quantile de la loi $ {\cal N}(0,1)$ aux points $ i/n$. Si l'hypothèse de normalité est vérifiée, les points de coordonnées $ (x_i,y_{(i)})$ devraient être proches de la droite d'équation $ y=\sigma x+\mu$. Une régression linéaire des $ y_{(i)}$ sur les $ x_i$ fournit à la fois une estimation de $ \sigma$ et $ \mu$ et une indication sur la qualité de l'ajustement. Avant les logiciels de calcul, on vendait du papier "gausso-arithmétique", gradué en abscisses selon les quantiles de la loi $ {\cal N}(0,1)$. Il suffisait de reporter en ordonnée les valeurs des $ y_{(i)}$ pour tracer à la main la droite de régression linéaire, qui porte le nom de "droite de Henry", du nom du colonel qui a inventé cette méthode au siècle dernier pour étudier la portée des canons.


Le problème de la régression est de déterminer, dans une famille de fonctions donnée, quelle est celle qui minimise l'erreur quadratique (3.2). Or il est fréquent qu'il n'y ait pas de solution explicite. Pour certaines familles de fonctions, on transforme le problème de manière à se ramener à une régression linéaire. Voici quelques cas fréquents.

Famille
Fonctions
Transformation
Forme affine
exponentielle
$ y=ae^{bx}$
$ y'=\log(y)$
$ y'=\log(a) + bx$
puissance
$ y=ax^b$
$ y'=\log(y)\;x'=\log(x)$
$ y'=\log(a) + bx'$
inverse
$ y=a+b/x$
$ x'=1/x$
$ y=a + bx'$
logistique
$ y=1/(1+e^{-(ax+b)})$
$ y'=\log(y/(1\!-\!y))$
$ y'=ax+b$

Comme exemple d'application, nous reprenons le problème de l'ajustement par les quantiles, pour la famille des lois de Weibull, qui sont souvent utilisées pour modéliser des durées de survie ou des durées de fonctionnement en fiabilité. La fonction quantile de la loi de Weibull $ {\cal W}(a,\lambda)$ est :

$\displaystyle Q_{{\cal W}(a,\lambda)}(u) = \left(-\frac{1}{\lambda} \log(1-u)\right)^{1/a}\;.
$

Soit $ y$ un échantillon que l'on souhaite ajuster par une loi de Weibull, de paramètres $ a$ et $ \lambda$ inconnus. Pour $ i=1,\ldots,n$, la statistique d'ordre $ y_{(i)}$ doit être proche du quantile $ Q_{{\cal W}(a,\lambda)}(i/n)$.

$\displaystyle y_{(i)}\approx\left(-\frac{1}{\lambda} \log(1-\frac{i}{n})\right)^{1/a}\;,
$

soit :

$\displaystyle \log(y_{(i)})\approx\frac{1}{a}\log\left(-\log(1-\frac{i}{n})\right)
+\frac{1}{a} \log\left(\frac{1}{\lambda}\right)\;.
$

Posons $ x_i=\log(-\log(1-i/n))$ et $ y'_i = \log(y_{(i)})$. Les points $ (x_i,y'_i)$ devraient être proches de la droite d'équation $ y=(1/a)x+(1/a)\log(1/\lambda)$. Une régression linéaire fournira non seulement des valeurs pour $ a$ et $ \lambda$, mais aussi une indication sur la qualité de l'ajustement. Avant les logiciels de calcul, il existait du "papier Weibull", gradué de manière à automatiser ce cas particulier de régression non linéaire.



Section : Données bidimensionnelles
Précédent : Covariance
Suivant : Régressions multiples