Estimateurs des moindres carrés

Section : Recherche d'estimateurs
Précédent : Estimation par ajustement
Suivant : Notion de vraisemblance

Estimateurs des moindres carrés

Jusqu'ici le seul modèle probabiliste que nous ayons envisagé pour des données observées considérait qu'elles étaient des réalisations de variables indépendantes et de même loi. Cela revient à supposer que les individus sur lesquels les données ont été recueillies sont interchangeables, et que les différences observées entre eux sont seulement imputables au hasard. Dans de nombreuses situations, on cherche à expliquer ces différences, c'est-à-dire à les attribuer à l'effet d'autres caractères mesurés sur les mêmes individus. La modélisation probabiliste considèrera que la mesure (à expliquer) effectuée sur un individu donné est une variable aléatoire, dont la loi dépend des valeurs prises sur cet individu par les caractères explicatifs, considérés comme déterministes. Si désigne la variable aléatoire associée à l'individu , et $(x^{(1)}_i,\ldots,x^{(k)}_i)$ les valeurs prises pour cet individu par les caractères explicatifs $(x^{(1)},\ldots,x^{(k)})$ , on séparera l'effet déterministe et l'effet aléatoire par un modèle du type :

$\displaystyle Y_i = f(x^{(1)}_i,\ldots,x^{(k)}_i)+E_i\;,$

où $(E_1,\ldots,E_n)$ est un

-uplet de variables aléatoires indépendantes et de même loi. On parle alors de modèle de régression. La fonction

dépend de un ou plusieurs paramètres inconnus que l'on doit estimer. On choisit pour cela de minimiser l'erreur quadratique définie par :

$\displaystyle EQ(f) = \frac{1}{n} \sum_{i=1}^n (Y_i-f(x^{(1)}_i,\ldots,x^{(k)}_i))^2\;.$

Dans certains cas classiques, on sait résoudre explicitement ce problème de minimisation, et la solution est implémentée dans les environnements de calculs statistiques. Quand une résolution explicite est impossible, on a recours à des algorithmes de minimisation, comme l'algorithme du gradient.

Le cas le plus fréquent est celui de la régression linéaire simple, où un seul caractère est explicatif, et la fonction est affine :

$\displaystyle Y_i = ax_i+b+E_i\;.$

L'erreur quadratique est alors :

$\displaystyle EQ(a,b) = \frac{1}{n} \sum_{i=1}^n (Y_i-ax_i-b)^2\;.$

Les valeurs de

qui minimisent l'erreur quadratique s'expriment en fonction des moyennes, variances et covariances empiriques de

et de

. Nous notons :

$\bullet$: $\overline{x}=\frac{1}{n}\sum x_i$ la moyenne empirique de .
$\bullet$: $s^2_x=\frac{1}{n}\sum (x_i-\overline{x})^2$ la variance empirique de .
$\bullet$: $\overline{Y}=\frac{1}{n}\sum Y_i$ la moyenne empirique de .
$\bullet$: $S^2_Y=\frac{1}{n}\sum (Y_i-\overline{Y})^2$ la variance empirique de .
$\bullet$: $c_{xY} = \frac{1}{n}\sum (x_i-\overline{x}) (Y_i-\overline{Y})$ la covariance de et .
$\bullet$: $r_{xY} = \frac{c_{xY}}{\sqrt{s_x^2S_Y^2}}$ le coefficient de corrélation de et .

Proposition 2.4 Si $s_x^2\neq 0$ (le caractère

n'est pas constant), la fonction

admet un minimum pour :

$\displaystyle A = \frac{c_{xY}}{s_x^2}$ et $\displaystyle \quad B = \overline{Y} - A\overline{x}\;.$

La valeur de ce minimum est :

$\displaystyle EQ(A,B) = S_Y^2(1-r_{xY}^2)\;.$

Les variables aléatoires et sont les estimateurs des moindres carrés des paramètres et .

On peut utiliser les estimateurs des moindres carrés pour estimer les paramètres de certaines lois, dans un problème d'ajustement. Nous traitons à titre d'exemple les lois normales et les lois de Weibull.

Lois normales.

Soit $Y=(Y_1,\ldots,Y_n)$ un échantillon de taille de la loi normale ${\cal N}(\mu,\sigma^2)$ , les paramètres $\mu$ et $\sigma^2$ étant inconnus. Pour $i=1,\ldots,n$ , notons $Y_{(i)}$ les statistiques d'ordre (valeurs ordonnées de la plus grande à la plus petite). Si l'hypothèse de normalité est pertinente, alors $Y_{(i)}$ doit être proche du quantile $Q_{{\cal N}(\mu,\sigma^2)}(i/n)$ de la loi ${\cal N}(\mu,\sigma^2)$ . Rappelons que si une variable aléatoire suit la loi ${\cal N}(0,1)$ , alors $Y=\sigma X+\mu$ suit la loi ${\cal N}(\mu,\sigma^2)$ . Ceci revient à dire que pour tout $u\in$ [0,1] :

$\displaystyle Q_{{\cal N}(\mu,\sigma^2)}(u) = \sigma Q_{{\cal N}(0,1)}(u) + \mu\;.$

Notons $x_i=Q_{{\cal N}(0,1)}(i/n)$ les valeurs de la fonction quantile de la loi ${\cal N}(0,1)$ aux points

. Si l'hypothèse de normalité est vérifiée, les points de coordonnées $(x_i,Y_{(i)})$ devraient être proches de la droite d'équation $y=\sigma x+\mu$ . Les estimateurs des moindres carrés

pour la régression linéaire simple des $Y_{(i)}$ sur les

sont donc des estimateurs de $\sigma$ et $\mu$ respectivement.

Lois de Weibull.

La fonction quantile de la loi de Weibull ${\cal W}(a,\lambda)$ est :

$\displaystyle Q_{{\cal W}(a,\lambda)}(u) = \left(-\frac{1}{\lambda} \log(1-u)\right)^{1/a}\;.$

Soit $Y=(Y_1,\ldots,Y_n)$ un échantillon de la loi ${\cal W}(a,\lambda)$ , de paramètres

et $\lambda$ inconnus. Pour $i=1,\ldots,n$ , la statistique d'ordre $Y_{(i)}$ doit être proche du quantile $Q_{{\cal W}(a,\lambda)}(i/n)$ .

$\displaystyle Y_{(i)}\approx\left(-\frac{1}{\lambda} \log(1-\frac{i}{n})\right)^{1/a}\;,$

soit :

$\displaystyle \log(Y_{(i)})\approx\frac{1}{a}\log\left(-\log(1-\frac{i}{n})\right) +\frac{1}{a} \log\left(\frac{1}{\lambda}\right)\;.$

Posons $x_i=\log(-\log(1-i/n))$ et $Y'_i = \log(Y_{(i)})$ . Les points devraient être proches de la droite d'équation $y=(1/a)x+(1/a)\log(1/\lambda)$ . Les estimateurs des moindres carrés et pour la régression linéaire simple des sur les sont des estimateurs de et $(1/a)\log(1/\lambda)$ respectivement. Donc et $e^{-B/A}$ sont des estimateurs de et $\lambda$ respectivement.

Section : Recherche d'estimateurs
Précédent : Estimation par ajustement
Suivant : Notion de vraisemblance