Section : Recherche d'estimateurs
Précédent : Notion de vraisemblance
Suivant : Intervalles de confiance

Pratique du maximum de vraisemblance

Dans la plupart des cas d'intérêt pratique, la loi $ P_\theta$, et donc aussi la vraisemblance, ont une expression dérivable par rapport à $ \theta$. Pour calculer le maximum de la vraisemblance, il faut déterminer les valeurs pour lesquelles la dérivée de la vraisemblance s'annule. Or par définition, la vraisemblance est un produit de probabilités ou de densités, qui peut être assez compliqué à dériver. Il est préférable de dériver une somme, et c'est pourquoi on commence par remplacer la vraisemblance par son logarithme. La fonction logarithme étant croissante, il est équivalent de maximiser $ \log(L(x_1,\ldots,x_n,\theta))$ ou $ L(x_1,\ldots,x_n,\theta)$. Une fois déterminée une valeur de $ \theta$ pour laquelle la dérivée s'annule, il faut s'assurer à l'aide de la dérivée seconde que ce point est bien un maximum. Nous traitons ci-dessous quelques familles classiques.

Lois de Bernoulli

L'ensemble des valeurs possibles est $ \{0,1\}$. Le paramètre inconnu est $ p$.
Si $ (x_1,\ldots,x_n)\in \{0,1\}^n$ est un échantillon, la vraisemblance vaut :

$\displaystyle L(x_1,\ldots,x_n,p) = p^{\sum x_i}(1-p)^{n-\sum x_i}\;.
$

Son logarithme est :

$\displaystyle \log(L(x_1,\ldots,x_n,p)) = (\sum x_i)\log p + (n-\sum x_i)\log(1-p)\;.
$

La dérivée par rapport à $ p$ est :

$\displaystyle \frac{\partial \log(L(x_1,\ldots,x_n,p))}{\partial p} =
(\sum x_i)\frac{1}{p} - (n-\sum x_i)\frac{1}{1-p}\;.
$

Elle s'annule pour :

$\displaystyle \widehat{p} = \frac{\sum x_i}{n}\;.
$

La dérivée seconde est :

$\displaystyle \frac{\partial^2 \log(L(x_1,\ldots,x_n,p))}{\partial p^2} =
-(\sum x_i)\frac{1}{p^2} - (n-\sum x_i)\frac{1}{(1-p)^2}\;.
$

Elle est strictement négative, la valeur $ \widehat{p}$ est bien un maximum. Si $ (X_1,\ldots,X_n)$ est un échantillon de la loi de Bernoulli de paramètre $ p$, l'estimateur du maximum de vraisemblance de $ p$ est :

$\displaystyle \frac{\sum X_i}{n}\;,
$

à savoir la fréquence empirique.

Lois géométriques

L'ensemble des valeurs possibles est $ \mathbb{N}^*$. Le paramètre inconnu est $ p\in]0,1[$.
Si $ (x_1,\ldots,x_n)$ est un échantillon d'entiers, la vraisemblance vaut :

$\displaystyle L(x_1,\ldots,x_n,p) = p^{n}(1-p)^{\sum x_i-n}\;.
$

Son logarithme est :

$\displaystyle \log(L(x_1,\ldots,x_n,p)) = n\log p + (\sum x_i-n)\log(1-p)\;.
$

La dérivée par rapport à $ p$ est :

$\displaystyle \frac{\partial \log(L(x_1,\ldots,x_n,p))}{\partial p} =
n\frac{1}{p} - (\sum x_i-n)\frac{1}{1-p}\;.
$

Elle s'annule pour :

$\displaystyle \widehat{p} = \frac{n}{\sum x_i}\;.
$

La dérivée seconde est :

$\displaystyle \frac{\partial^2 \log(L(x_1,\ldots,x_n,p))}{\partial p^2} =
-n\frac{1}{p^2} - (\sum x_i-n)\frac{1}{(1-p)^2}\;.
$

Elle est strictement négative, la valeur $ \widehat{p}$ est bien un maximum. Si $ (X_1,\ldots,X_n)$ est un échantillon de la loi géométrique de paramètre $ p$, l'estimateur du maximum de vraisemblance de $ p$ est :

$\displaystyle \frac{n}{\sum X_i}\;,
$

à savoir l'inverse de la moyenne empirique, ce qui est cohérent avec le fait que le paramètre $ p$ est l'inverse de l'espérance.

Lois exponentielles

Le paramètre inconnu est encore $ \lambda$. Il s'agit ici de lois continues, la vraisemblance est donc un produit de valeurs de la densité. Pour un $ n$-uplet de réels positifs $ (x_1,\ldots,x_n)$ elle vaut :

$\displaystyle L(x_1,\ldots,x_n,\lambda) = \prod_{i=1}^n \lambda e^{-\lambda x_i}
=\lambda^n e^{-\lambda \sum x_i}\;.
$

Son logarithme est :

$\displaystyle \log(L(x_1,\ldots,x_n,\lambda)) =
n\log(\lambda) - \lambda\sum x_i\;.
$

La dérivée par rapport à $ \lambda$ est :

$\displaystyle \frac{\partial \log(L(x_1,\ldots,x_n,\lambda))}{\partial \lambda} =
n\frac{1}{\lambda} - \sum x_i\;.
$

Elle s'annule pour :

$\displaystyle \widehat{\lambda} = \frac{n}{\sum x_i}\;.
$

La dérivée seconde est :

$\displaystyle \frac{\partial^2 \log(L(x_1,\ldots,x_n,\lambda))}{\partial \lambda^2} =
- \frac{n}{\lambda^2}\;.
$

Elle est strictement négative, la valeur $ \widehat{\lambda}$ est bien un maximum. Si $ (X_1,\ldots,X_n)$ est un échantillon de la loi exponentielle de paramètre $ \lambda$, l'estimateur du maximum de vraisemblance de $ \lambda$ est :

$\displaystyle \frac{n}{\sum X_i}\;,
$

à savoir l'inverse de la moyenne empirique, ce qui est cohérent avec le fait que le paramètre $ \lambda$ est égal à l'inverse de l'espérance.

Lois normales

Pour un paramètre multidimensionnel, le principe est le même, mais les calculs d'optimisation sont plus compliqués. Pour les lois normales, deux paramètres sont inconnus. Afin d'éviter les confusions dans les dérivations, nous noterons $ v$ le paramètre de variance, habituellement noté $ \sigma^2$. Pour un $ n$-uplet de réels $ (x_1,\ldots,x_n)$ la vraisemblance vaut :

$\displaystyle L(x_1,\ldots,x_n,\mu,v) = \prod_{i=1}^n \frac{1}{\sqrt{2\pi v}}
e...
...
=\left(\frac{1}{\sqrt{2\pi v}}\right)^n e^{-\frac{1}{2 v}\sum (x_i-\mu)^2}\;.
$

Son logarithme est :

$\displaystyle \log(L(x_1,\ldots,x_n,\lambda)) =
-\frac{n}{2}\log(v) - -\frac{n}{2}\log(2\pi) +\frac{1}{2 v}\sum (x_i-\mu)^2\;.
$

Les dérivées partielles par rapport aux paramètres $ \mu$ et $ v$ sont :

$\displaystyle \frac{\partial \log(L(x_1,\ldots,x_n,\lambda))}{\partial \mu} =
\frac{1}{v}\sum (x_i-\mu)\;,
$

et

$\displaystyle \frac{\partial \log(L(x_1,\ldots,x_n,\lambda))}{\partial v} =
-\frac{n}{2 v}+\frac{1}{2 v^2}\sum (x_i-\mu)^2\;.
$

Elle s'annulent pour :

$\displaystyle \widehat{\mu} = \frac{\sum x_i}{n}$   et$\displaystyle \quad
\widehat{v} = \frac{\sum (x_i-\widehat{\mu})^2}{n}\;.
$

Les dérivées partielles secondes valent :

$\displaystyle \frac{\partial^2 \log(L(x_1,\ldots,x_n,\lambda))}{\partial \mu^2} =
-\frac{n}{v}\;,
$

$\displaystyle \frac{\partial^2 \log(L(x_1,\ldots,x_n,\lambda))}{\partial \mu\partial v} =
-\frac{1}{v^2}\sum(x_i-\mu)\;,
$

$\displaystyle \frac{\partial^2 \log(L(x_1,\ldots,x_n,\lambda))}{\partial v^2} =
-\frac{n}{2v^2}-\frac{1}{v^3}\sum(x_i-\mu)^2\;.
$

La matrice hessienne (matrice des dérivées partielles secondes) au point $ (\widehat{\mu},\widehat{v})$ est donc :

\begin{displaymath}
\left(
\begin{array}{cc}
-\frac{n}{\widehat{v}}&0\\
0&-\frac{n}{2 \widehat{v}^2}
\end{array}\right)\;.
\end{displaymath}

Elle est définie négative, le point $ (\widehat{\mu},\widehat{v})$ est bien un maximum. Si $ (X_1,\ldots,X_n)$ est un échantillon de la loi normale de paramètres $ \mu$ et $ v$, les estimateurs du maximum de vraisemblance de $ \mu$ et $ v$ sont respectivement la moyenne et la variance empiriques de l'échantillon, comme on pouvait s'y attendre.



Section : Recherche d'estimateurs
Précédent : Notion de vraisemblance
Suivant : Intervalles de confiance